Laufende Promotionsvorhaben

Derzeit laufende Promotionsvorhaben mit Beteiligung der Professur für Digital Humanities.

Ariadne Baresch

La Recherche selon Albertin Simonet : réécriture d’un temps fugitif

Der Romanzyklus À la Recherche du temps perdu (1913–1927) von Marcel Proust ist vornehmlich bekannt für die Themen Erinnerung und Zeit sowie die Madeleine-Szene, die emblematisch als Nexus zwischen diesen beiden Sujets fungiert. Die Vielschichtigkeit, welche das Oeuvre und dessen Lesarten konstituieren, spiegeln sich in den unzähligen Studien wieder, die sich mit der „étoffe proustienne“ im Laufe eines Jahrhunderts auseinandergesetzt haben.

Die Handlung, die aus der Perspektive eines Ich-Erzählers wiedergegeben wird, hebt trotz ihrer thematischen Varietät eine Figur besonders hervor: seine Geliebte Albertine Simonet. Als meist erwähnter Romancharakter sind ihre enigmatisch gezeichnete Persönlichkeit, sowie ihre vermeintlichen Freizeitbeschäftigungen Motor für fortwährende, von Eifersucht geprägte Reflexionen des Erzählers. Die bewusst ambivalent gehaltenen Darstellungen erweisen sich somit als Stimuli für diverse Analyseebenen und Interpretationsmöglichkeiten. Im künstlerischen Bereich schlägt sich dies in zahlreichen Adaptionen verschiedenster medialer Gattungen nieder.

Ziel des Promotionsvorhabens ist es, bis dato nicht oder nicht ausreichend beachtete Proust-Adaptionen vergleichend zu explorieren. Erprobt werden genetische, intermediale und thematologische Vergleiche, um sowohl die Heterogenität eines multimedialen und multilingualen Korpus als auch die Pluralität der Ausgestaltung des Albertine-Charakters zu umfassen.

Betreuende: Prof. Dr. Christof Schöch (Trier), Professeur Henri Garric (Dijon)

Andreas Büttner

Bilingual Stylometry: A Computational Study of the Arabic-Latin Textual Tradition

    The late medieval translation of scientific and philosophical texts from Arabic into Latin heavily influenced the history of European thought for many centuries. This transmission of knowledge was mediated by translators, many of whom remained anonymous, while others, e.g. Gerhard of Cremona or Dominicus Gundissalinus, are appreciated as important historical figures. The ongoing digitisation of the texts facilitates innovative ways of analysis, leading to new insights into their work.

    The first part of the dissertation will deal with the digitisation methods employed in building the bilingual corpus. A special focus will be placed on the problem of the alignment of the Arabic original and the Latin translation. I will evaluate existing methods, develop new technologies building on neural machine translation, and compare them with more traditional approaches, using the Arabic and Latin translations corpus and, for comparison, text collections in other languages.

    The main part will be devoted to the problem of translator identification using stylometric methods. To compensate for the often very short tractates and large range of subject matters of the texts, I will employ the information gained from the bilingual alignment to filter the stylistic signature of the translator from the statistical properties of language-use in the corpus.

    The philological aim of the dissertation therefore is to gain new perspectives on the history of the Arabic-Latin translation movement. From the methodological point of view, the work will seek new strategies to analyse bilingual corpora, especially concerning techniques of stylometry.

    Betreuende: Prof. Dr. Dag Nikolaus Hasse (Erstbetreuer, Würzburg), Prof. Dr. Fotis Jannidis (Würzburg), Prof. Dr. Christof Schöch (Trier)

    Keli Du

    Evaluation von Topic Modeling in Digital Humanities

    Topic Modeling ist ein Ansatz zur semantischen Erschließung von Texten. Die Gruppen von semantisch verwandten Wörtern (Topics) in einem Korpus können durch Topic Modeling extrahiert werden. Die Topics stellen einen Überblick über die möglichen Themen im Korpus dar. Topic Modeling wurde in den letzten Jahren mehr und mehr in Digital Humanities eingesetzt, während die technische Seite von Topic Modeling in Forschungsberichten, im Vergleich zur Analyse und Interpretation der Topics und des Modells, weniger vorgestellt und diskutiert wurde. Das Ergebnis von Topic Modeling kann durch viele technische Faktoren beeinflusst werden. Aber es gibt bislang in Digital Humanities noch kein gemeinsames Verständnis, wie man mit diesen Faktoren umgehen soll, um Topic Modeling auf optimale Weise zu verwenden. Aus diesem Grund möchte ich in meiner Dissertation durch systematische Untersuchungen die Beziehungen zwischen den Faktoren und die Qualität des Topic-Modells sowie die Qualität der Topics besser verstehen.

    Betreuende: Prof. Dr. Fotis Jannidis (Würzburg), Prof. Dr. Christof Schöch (Trier), Prof. Dr. Andreas Hotho (Würzburg)

    Julia Röttgermann

    Affekt und Aufklärung - Automatische Erhebung literaturhistorisch relevanter Informationen aus Volltexten am Beispiel von französischen Romanen des XVIII. Jahrhunderts

    Die im Kontext des Forschungsprojekts Mining and Modeling Text (MiMoText) verortete Dissertation befasst sich mit einem Korpus französischer Romane aus der Zeit 1750-1800, die erstmalig in TEI-konformes XML übertragen und im Rahmen der European Literary Text Collection (ELTeC) publiziert werden. Auf das Korpus werden quantitative und qualitative Methoden der Textanalyse angewendet mit dem Ziel, literaturwissenschaftlich verwertbare Informationen zu Aspekten wie Themen, Figuren, Orten oder Motiven zu extrahieren. Vertiefte Analysen und Auswertungen sind zum Themenkomplex Affekte im französischen Roman des 18. Jahrhunderts geplant. Alle extrahierten Daten werden als Linked Open Data in einem semantischen Netz modelliert, mit weiteren Informationen aus MiMoText verknüpft und sollen für strukturierte Abfragen zur Verfügung stehen.

    Betreuung: Prof. Dr. Christof Schöch

    Abgeschlossene Promotionen

    Abgeschlossene Promotionsvorhaben mit Beteiligung der Professur für Digital Humanities.

    Ulrike Henny-Krahmer

    Genre Analysis and Corpus Design: 19th Century Spanish American Novels, 1830-1910 (2021)

    This dissertation in the field of Digital Literary Stylistics is concerned with theoretical concerns of literary genre, with the design of a corpus of 19th-century Spanish American novels, and with its empirical analysis in terms of subgenres of the novel. The digital text corpus consists of 256 Argentine, Cuban, and Mexican novels from the period between 1830 and 1910. It has been created with the goal to analyze thematic subgenres and literary currents that were represented in numerous novels in the 19th century by means of computational text categorization methods. The texts have been gathered from different sources, encoded in the standard of the Text Encoding Initiative (TEI), and enriched with detailed bibliographic and subgenre-related metadata, as well as with structural information.

    To categorize the texts, statistical classification and a family resemblance analysis relying on network analysis are used with the aim to examine how the subgenres, which are understood as communicative, conventional phenomena, can be captured on the stylistic, textual level of the novels that participate in them. The result is that both thematic subgenres and literary currents are textually coherent to degrees of 70-90 %, depending on the individual subgenre constellation.

    Besides the empirical focus, the dissertation also aims to relate literary theoretical genre concepts to the ones used in Digital Genre Stylistics as a subfield of Digital Humanities. It is argued that literary text types, conventional literary genres, and textual literary genres should be distinguished on a theoretical level to improve the conceptualization of genre for digital text analysis.

    Betreuende: Prof. Dr. Christof Schöch (Univ. Trier), Prof. Dr. Fotis Jannidis (Würzburg), Prof. Dr. Hanno Ehrlicher (Tübingen)

    José Calvo Tello

    The Novel in the Spanish Silver Age: A Digital Analysis of Genre through Machine Learning (2020)

    Zwischen dem Ende des 19. Jahrhunderts und dem Ende des spanischen Bürgerkriegs 1939 bildete sich das sogennante silberne Zeitalter (Edad de Plata) in der Kunst Spaniens heraus. In der Literatur dieser Epoche wird ein ästhetischer Generationenwechsel vollzogen: Auf viele Darstellungsmittel des realistischen und naturalistischen Romans wird verzichtet und neue Ausdrucksformen werden entdeckt. Betreffende Werke werden von der Literaturgeschichte sehr umstritten klassifiziert und beschrieben.

    Gegenstand dieser Studie sind die von der Literaturgeschichte als literarische Prosatexte bezeichneten Werke, die in Spanien von spanischen Autoren geschrieben wurden und die zwischen 1880 und 1939 veröffentlicht wurden. Insgesamt wird die Textsamlung ca. 200 Werke beinhalten.

    Das Ziel der Studie ist es daher, mit computergestützten Verfahren folgende Fragen zu beantworten: Wie haben sich die Untergattungen des spanischen Romans und kürzere Erzählprosa zwischen 1880 und 1939 entwickelt? Welche stilistischen Merkmale und welche linguistischen Ebenen (Morphologie, Syntax, Lexik, Semantik oder Text) erweisen sich nützlich für die Untersuchung der literarischen Prosagattungen dieser Epoche?

    Das Thema kann von zwei unterschiedlichen Perspektiven betrachtet werden. Zum einen, indem man von Hypothesen der Literaturgeschichte (bspw. Gattungsbegriffe) ausgeht und versucht zu überprüfen, ob sie quantitativ nachgewiesen oder aber widerlegt werden können. Es ergeben sich folglich weitere Fragen:

    • Die Literaturgeschichte hat zahlreiche unpräzise Begriffe für Untergattungen der Prosa dieser Epoche entwickelt (auto ficción, novela lírica, novela dialogada, novela de tesis, novela poema gelten als Beispiele). Selbst die Autoren erfanden Begriffe, um einige ihrer Werke zu benennen, wie die nivolas von Unamuno, novela impresionista von Azorín, greguerías von Serna, oder novela de aventuras von Baroja. Verfügen Texte, die unter einer gemeinsamen Gattungsbezeichnung veröffentlicht oder mit einer solchen gemeinsamen Bezeichnung benannt wurden, über kohärente stilistische Merkmale (unabhängig vom Autorenstil), und wenn ja, welche sind dies?

    Zunächst ohne Rückgriff auf literaturwissenschaftliche Theorien, von dem stilistischen Merkmalen ausgehen, und unüberwachte computergestützte Verfahren anwenden, die in den letzten Jahren entwickelt wurden:

    • Welche stilische Merkmale führen zu welchen Gruppen von Texten, und wie korrelieren diese mit den Metadaten bezüglich des Autors (Epoche, ästhetische Gruppe), der Texte (Setting oder Epoche, in der die Handlung stattfindet) oder der Protagonisten (Gender, soziale Schicht)?
    • Welche von diesen Gruppen wurden schon von traditionellen Begriffen von Gattung der Literaturgeschichte abgedeckt? Welche könnten innovative Vorschläge von Gattungen dieser Epoche gelten?

    Nach der Zusammenstellung des Korpuses, werden die Texte linguistisch durch Natural Language Processing Werkzeuge automatisch annotiert, um mit bestimmten morphologischen, syntaktischen, lexikalischen und semantischen Informationen arbeiten zu können. Für die erste oben genannte Perspektive werden Supervised Machine Learning Methoden und konstrastive Analyse eingesetzt. Für die zweite Perspektive werden unüberwachte Methoden wie Distanzmaße oder Principal Component Analysis angewendet.

    Betreuende: Prof. Dr. Christof Schöch, Prof. Dr. Fotis Jannidis (Würzburg), Prof. Dr. Angela Schrott (Kassel)

    Matthias Bremm

    Teil-überwachtes und aktives Lernen mit unterschiedlichen annotierenden Personen zur Informationsextraktion in Texten (2020)

    In dem Gebiet der Informationsextraktion angesiedelt kombiniert diese Arbeit mehrere Verfahren aus dem Bereich des maschinellen Lernens. Sie stellt einen neuen Algorithmus vor, der teil-überwachtes Lernen mit aktivem Lernen verknüpft. Ausgangsbasis ist die Analyse der Daten, indem sie in mehrere Sichten aufgeteilt werden. Hier werden die Eingaben verschiedener Personen unterteilt. Jeweils getrennt voneinander erzeugt der Algorithmus mittels Klassifizierern Modelle, die aus den individuellen Auszeichnungen der Personen aufgebaut werden. Um die dafür benötigte Datenmenge zu erhalten wird Crowdsourcing genutzt, dass es ermöglicht eine große Anzahl an Personen zu erreichen. Die Personen erhalten die Aufgabe, Texte zu annotieren. Einerseits wird dies initial für einen historischen Textkorpus vorgenommen. Dabei wird aufgeführt, welche Schritte notwendig sind, um die Annotationsaufgabe in Crowdsourcing-Portalen zur Bearbeitung anzubieten und durchzuführen. Andererseits wird ein aktueller Datensatz von Kurznachrichten genutzt. Der Algorithmus wird auf diese Beispieldatensätze angewandt. Durch Experimente wird die Ermittlung der optimalen Parameterauswahl durchgeführt. Außerdem werden die Ergebnisse mit den Resultaten bisheriger Algorithmen verglichen.

    Betreuende: Prof. Dr. Reinhard Köhler (Erstbetreuer), Prof. Dr. Carolin Sporleder (bis 2019), Prof. Dr. Christof Schöch (ab 2019)