Studium

Das Fach CLDH bietet innovative Studiengänge zu aktuellen Themen der Digitalisierung, speziell der Text-, Literatur und Medienanalyse, basierend auf modernen Methoden der Künstlichen Intelligenz an.

Informationen für Studieninteressierte

Die automatische Verarbeitung digitaler Medien in sprachlicher Form (z.B. Literatur, Nachrichtenartikel oder Social Media Beiträgen) ist angesichts der stetig wachsenden Informationsflut und der immer größeren Mengen an textuell dokumentiertem Wissen in Archiven, Datenbanken, dem Internet und zahlreichen anderen elektronischen Medien unverzichtbar geworden.

Zu den damit verbundenen Aufgaben zählen sowohl die von Nutzerseite sichtbaren Bereiche des (Wieder-)Findens von Informationen (Information Retrieval, Data Mining bzw. Text Mining, Suchmaschinen, Digitale Assistenten, Chatbots, etc.) als auch die zahlreichen nicht jedermann ersichtlichen Tätigkeiten wie das Erstellen, Aufbereiten, Kuratieren, Filtern, Zusammenfassen, Annotieren, Strukturieren, Speichern und Publizieren von Informationen durch Unternehmen, Behörden und Institutionen aller Art. Diese Aufgaben sind schon seit längerer Zeit nicht mehr ohne computergestützte Verfahren denkbar. In immer mehr Bereichen liefern dabei Methoden des maschinellen Lernens wie bspw. das Deep Learning eine mit Menschen vergleichbare Qualität.

Für Abiturientinnen und Abiturienten, die sich mit diesen zukunftsweisenden Themen auseinandersetzen wollen, bietet das Fach Computerlinguistik und Digital Humanities an der Universität Trier moderne Studiengänge mit hoher Flexibilität an, die international, interdisziplinär und praxisorientiert ausgerichtet sind.

 

Neben unserer Studienberatung hilft auch die Fachschaft CoDiPho gerne weiter bei Fragen. Sie veranstaltet zudem regelmäßig Events für unsere Studierenden zum Kennenlernen, Austauschen oder gemeinsamen Lernen.

 

Was ist Computerlinguistik?

Die Computerlinguistik (englisch: Natural Language Processing) beschäftigt sich mit der technischen Verarbeitung menschlicher Sprache mit dem Ziel dem Computer menschliche Kommunikation und menschliches Wissen inhaltlich verständlich, verarbeitbar und wiederum dem Menschen durch Erzeugung von Text zugänglich zu machen. Mit Hilfe von Methoden der Künstlichen Intelligenz, speziell dem Maschinellem Lernen von großen Sprachmodellen wie ChatGPT, ist es in den vergangenen Jahren gelungen, enorme Fortschritte in der Leistungsfähigkeit sprachverarbeitender und -generierender Systeme zu erreichen und ein breites Anwendungsfeld und damit neue Wachstumsmärkte zu eröffnen. Diese dynamische Situation führte dazu, dass man sich einer Vielzahl anwendungs- wie grundlagenforschungsorientierter Aufgaben zuwandte:

  1. der Schaffung von (Software-)Werkzeugen, die die Mensch-Maschine-Kommunikation durch die Verarbeitung und Generierung sprachlicher Daten erleichtern (z.B. natürlichsprachliche Dialogsysteme, sprachgesteuerte Computer- und Assistenzsysteme, Frage-Antwort-Systeme,…);

  2. maschinellen Hilfsmittel um Textinhalte in natürlicher Sprache zugänglich zu machen (z.B. Übersetzungssysteme, Information Retrieval, Inhaltsanalyse, Dokumenten-Management, Textzusammenfassung usw.), ein Bereich der im Zuge der Digitalisierung eine immer größere Bedeutung erlangt;
     

  3. der Untersuchung großer Mengen von Sprachdaten (z.B. Textkorpora, Online-Medien, Sozialen Netzen) vor allem mit Hilfe maschineller Lernmethoden, um möglichst fehlerfrei und komfortabel komplexe Modelle von Sprachen und Kommunikation anfertigen zu können, z.B.: zur Autorenbestimmung für forensische Zwecke, Erkennung von Falschnachrichten und Hasskommentaren, Nachverfolgung von Gerüchten, Informationsverbreitung und Deutungseinflüsse in sozialen und medialen Netzwerken, usw.

 

Was sind Digital Humanities?

Die Digital Humanities oder e-Humanities (zu deutsch "Digitale Geisteswissenschaften") sind, genau wie die Computerlinguistik, eine recht junge Disziplin und ebenfalls an der Schnittstelle zwischen Geistes- und Informatikwissenschaften angesiedelt. Allerdings liegt der Fokus nicht ausschließlich auf den Philologien (Sprach- und Literaturwissenschaften), sondern auf Geistes- und Kulturwissenschaften im Allgemeinen. Im Zuge der voranschreitenden Digitalisierung geistes- und kulturwissenschaftlicher Daten, sowohl durch Retrodigitalisierung als auch die Zunahme von born digital-Daten, haben die Digital Humanities in den letzten Jahren mehr und mehr an Bedeutung gewonnen. Wichtige Aufgabenbereich des Fachs sind dabei:

  1. Digitalisierung: Textuelle Daten können mithilfe von Verfahren der Optical Character Recognition (OCR) digitalisiert und 'computerlesbar' gemacht werden. Dies funktioniert aber nur bei gedruckten Texten, guter Druckqualität der Vorlage und moderner Sprache relativ gut. Schlechte Druckqualität (z.B. vergilbte oder unvollständige Seiten) und alte oder schwer lesbare Schriften (z.B. Handschrift, enge Fraktur oder nicht-lateinische Alphabete) haben zur Folge, dass Buchstaben und Satzzeichen nicht mehr gut erkannt werden. Zudem passen statistische Modelle wahrscheinlicher und unwahrscheinlicher Buchstabenabfolgen nicht mehr gut, wenn sie auf ältere Sprachstufen ohne normierte Rechtschreibung angewendet werden. Handgeschriebene Texte lassen sich schließlich überhaupt nur sehr eingeschränkt mit OCR-Verfahren digitalisieren und müssen von Hand transkribiert (Double Keying-Verfahren) oder mit neueren Handwritten Text Recognition-Verfahren bearbeitet werden. Auch bei multimodalen Daten, z.B. archäologischen Artefakten, Gemälden, oder alten Ton- oder Videoaufnahmen ist die Digitalisierung nicht immer trivial.
    Beispiele in diesem Bereich sind die Projekte Digitalisierung von Werken der historischen Projektionskunst, eine Kollaboration zwischen den Medienwissenschaften und dem Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften (Trier Center for Digital Humanities), und das Virtuelle Skriptorium St. Matthias inklusive des Anschlussprojekts eCodicology.
     
  2. Archivierung: Während nicht-digitale geisteswissenschaftliche Daten wie Steintafeln, aber auch Papyri und alte Manuskripte relativ einfach archivierbar und unter günstigen Bedingungen lange haltbar sind, ist die Langzeitarchivierung bei digitalen Daten immer noch eine große Herausforderung. Ein Problem ist die relativ schnelle Materialermüdung vieler digitaler Datenträger, ein anderes die ständige Weiterentwicklung in den Bereichen Software und Hardware. Es gibt nicht mehr viele Computer, die noch über ein Diskettenlaufwerk verfügen und vermutlich noch weniger, auf denen noch Software läuft, mit der sich eine Datei lesen läßt, die vor 20 Jahren mit einem zeitgenössischem Textverarbeitungsprogramm erstellt wurde. Folglich sind Fragen der Langzeitarchivierung und Langzeitverfügbarkeit derzeit intensiv diskutierte Probleme. Ein Trierer Lösungsansatz ist beispielsweise das Virtuelle Datenrepositorium.
     
  3. Repräsentation: Nachdem geisteswissenschaftliche Daten digitalisiert wurden, stellt sich die Frage, wie diese am besten repräsentiert und für Experten und/oder Laien zugänglich gemacht werden können. Dies schließt sowohl technische Aspekte ein, z.B. Zeichenkodierung, Wahl einer geeigneten Auszeichnungssprache oder einer performanten und reliablen Datenbank, als auch solche, die mehr im funktional-ästhetischen Bereich liegen. Typische Anwendungsbeispiele reichen von der Erstellung einer digitalen Edition eines literarischen Werks über die Umsetzung einer kulturhistorischen, multimedialen Datenbank bis hin zur Entwicklung digitaler Forschungsdatenbanken. Beispielprojekte, die mit Beteiligung des Kompetenzzentrum für elektronische Erschließungs- und Publikationsverfahren in den Geisteswissenschaften (Trier Center for Digital Humanities) umgesetzt wurden, sind das Portal Europäische Geschichte Online oder das Heinrich-Heine-Portal.
     
  4. Visualisierung: Dem Bereich Visualisierung kommt eine wichtige Position zwischenDatenrepräsentation und -analyse zu. Darunter fällt zum Beispiel die Frage, wie komplexe geisteswissenschaftliche Daten so dargestellt werden können, dass sie für Fachwissenschaftler (und/oder ggf. Laien) besonders gut zugänglich sind. Damit verbunden ist die Möglichkeit, durch geeignete visuelle Aufbereitung eine zusätzliche Explorationskomponente zu schaffen. Ein Beispiel ist das Projekt Der Digitale Peters, in dem die Synchronoptische Weltgeschichte von Arno Peters digital aufbereitet wurde. Das digitale Medium bietet dabei den Vorteil, dass historische Ereignisse und deren Zusammenhang auch graphisch dargestellt und miteinander verlinkt werden können. Ein anderes Beispiel ist das Projekt Vernetzte Korrespondenzen, in dem soziale, räumliche, zeitliche und thematische Netze in Briefkorpora visualisiert werden.
     
  5. Analyse: Digitale Daten haben den Vorteil, dass sie (theoretisch) nicht nur einfacher zugänglich sind als nicht-digitale Daten, sondern dass sie zudem die Möglichkeit einer (teil-)automatischen Analyse und Auswertung bieten. Dadurch lassen sich oft, in Zusammenarbeit mit geisteswissenschaftlichen Fachwissenschaftlern, Informationen gewinnen, die sich auf traditionellen Weg nur mit sehr großem Aufwand gewinnen lassen würden. Hier spielen besonders Methoden des Text Minings eine große Rolle, mit deren Hilfe ausgewertet und Trends und Interdependenzen erkannt werden können. Trierer Beispiele sind das Projekt SeNeReko, in dem altägyptische und altindische Texte automatisch semantisch analysiert werden, um neue Erkenntnisse über Religionskontakte zwischen beiden Kulturen zu gewinnen. Ein anderes Projekt, Asymetrical Encounters, hat zum Ziel, Text Mining-Verfahren auf historische Zeitungskorpora anzuwenden, um etwas darüber zu erfahren, wie sich unterschiedliche Nationalkulturen gegenseitig kulturell beeinflusst haben. Zur automatischen Analyse gehören aber auch, zum Beispiel, die Entzifferung unbekannter Schriften oder verschlüsselter historischer Dokumente sowie die automatische Auswertung von Twitter-Daten, um z.B. etwas über die Verbreitung linguistischer Neuschöpfungen oder Themenkonjunkturen zu erfahren.

Für wen eignen sich die Studiengänge der Computerlinguistik und Digital Humanities?

Die Studiengänge des Fachs Computerlinguistik und Digital Humanities eignen sich in besonderem Maße für alle, die sich für die Auswirkungen der Digitalisierung speziell im Bereich der modernen Medien-, Sprach- und Geisteswissenschaften interessieren, und die Fragestellungen der Sprach-, Medien- und Textwissenschaft mit solchen der Informations- und Kommunikationstechnik verbinden wollen.

  • Du interessierst Dich für Sprache, Medien und Kommunikation in Zeiten der Digitalisierung?

  • Du willst Inhalte erschließen, analysieren, verstehen und nutzbar machen?

  • Du willst dafür die neusten digitalen Methoden aus der Künstlichen Intelligenz, des Maschinellen Lernens und Sprachmodelle wie ChatGPT einsetzen?

  • Du willst ein Studium, in dem praktische Fähigkeiten vermittelt werden und an echten Daten gearbeitet wird?

  • Du willst die Möglichkeit haben, Deine Schwerpunkte im Studienverlauf schrittweise selber zu setzen?

  • Du willst Expertise erwerben, die Dir einen Zugang zu einem breiten Spektrum von stark nachgefragten Berufsfeldern vermittelt?

 

Während der BA-Studiengang den Schwerpunkt auf die Vermittlung praktischer Fertigkeiten und anwendungsorientierter Kompetenzen legt, ist es das Ziel der MA-Studiengänge, die Studierenden für eine Tätigkeit in forschungs- und entwicklungsorientierten Berufsfeldern zu qualifizieren.

Welche Kenntnisse sind bei Studienbeginn erforderlich?

Im Bachelorstudiengang Sprache, Technologie, Medien (STeM) sind je nach Schwerpunktsetzung die Module unterschiedlich stark informatisch-/mathematisch orientiert. Vorkenntnisse im Umfang eines Mathematik-Grundkurses an der Oberstufe des Gymnasiums reichen als Vorkenntnisse aus. Vorkenntnisse im Umgang mit digitalen Medien und Methoden, insbesondere Programmierkenntnisse erleichtern zwar den Einstieg, sind aber nicht erforderlich. In betreuten Übungen wird von Anfang an praxisnah in die Materie eingeführt.

Für die Masterstudiengänge (Natural Language Processing, Digital Humanities) ist die Zugangsvoraussetzungen der Nachweis eines geeigneten geisteswissenschaftlichen oder informatikwissenschaftlichen Bachelorabschlusses.