Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex (Schenkel, Schöch)
Die Menge an Fachliteratur, die jedes Jahr veröffentlicht wird, übersteigt die Lesekapazität der Forscher. Als Lösung dienen traditionell Abstracts und Schlagworte (bei Artikeln) und Rezensionen (bei Büchern). Diese können jedoch den Inhalt eines Fachartikels oder Buches nicht umfassend und vor allem nicht semantisch und maschinenlesbar und damit reichhaltig auswertbar im Sinne des „semantischen Publizierens“ verfügbar machen. Ziel des Teilprojekts ist es, Strategien zur Lösung dieser Herausforderung zu entwickeln, die für klassische Forschungsaufgaben wie die Ermittlung des Forschungsstandes oder die Beschreibung der Forschungsgeschichte von großer Relevanz ist.
TP 3 (Digital Humanities & Informatik): Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex
Auch in den Geisteswissenschaften übersteigt die jährlich publizierte Fachliteratur die Aufnahmekapazität der Forschenden um ein Vielfaches. Als Lösung dienen traditioneller Weise Abstracts und Schlagworte (für Artikel) und Rezensionen (für Bücher). Diese können den Inhalt eines Fachartikels oder eines Buches aber nicht umfassend und vor allem auch nicht semantisch und maschinenlesbar, und damit reichhaltig auswertbar im Sinne des ‘semantic publishing’ (Shotton 2009, siehe auch Schöch 2020), verfügbar machen.
Ziel des Teilprojekts ist es, Strategien für die Lösung dieser Herausforderung zu entwickeln, die von großer Relevanz für klassische Aufgaben der Forschung, wie die Ermittlung eines Forschungsstandes, oder die Beschreibung der Forschungsgeschichte zu einer Forschungsfrage ist (siehe Kreutz und Schenkel 2022). Hierfür sollen umfangreiche Bestände von Fachliteratur aus mehreren geisteswissenschaftlichen Domänen einerseits in Teilen händisch semantisch annotiert werden, andererseits auf dieser Grundlage die Transformation von Abstract und Keywords oder, soweit verfügbar, auch des Volltexts einer Publikation, in eine überschaubare Anzahl von aussagekräftigen LOD-Statements
erlernt werden.
Dies setzt auch die Modellierung der Domäne zumindest in ihren groben Elementen voraus, womit insbesondere Aspekte wie die Art des jeweils zugrundeliegende Untersuchungsgegenstands, die behandelte Epoche, die verwendeten Tools und Methoden, und die zugrundeliegende weitere Fachliteratur berücksichtigt werden müssen. Insofern ist dieses Teilprojekt als ein Querschnittsprojekt zu verstehen, das einen wichtigen Beitrag zur Integration der Ergebnisse aus den übrigen Teilprojekten leisten kann.Das Vorhaben könnte ausgehend von Daten der Plattform Open Alex betrieben werden, wo bereits umfangreiche Metadaten auch in Form von LOD über eine API oder als Dump verfügbar sind. Allerdings ist die Erschließungstiefe von OpenAlex vergleichsweise gering und folgt eher der Logik einer Folksonomy als derjenigen eines strukturierten Modells einer Domäne. Dies soll durch die Nutzung von Volltexten (mehr Information über die Artikelinhalte) und eines Datenmodells der untersuchten Domänen (strukturierteres Vokabular) möglich werden.
Team
- Prof. Dr. Ralf Schenkel
- Prof. Dr. Christof Schöch
- Jens Bruchertseifer
References
- Kreutz, Christin Katharina, and Ralf Schenkel. 2022. “Scientific Paper Recommendation Systems: A Literature Review of Recent Publications.” International Journal on Digital Libraries 23 (4): 335–69. https://doi.org/10.1007/s00799-022-00339-w.
- Schöch, Christof. 2020. “Open Access für die Maschinen.” In Die Zukunft des kunsthistorischen Publizierens, herausgegeben von Maria Effinger & Hubertus Kohle. Heidelberg: ART-Books. https://doi.org/10.11588/arthistoricum.663.c9210.
- Shotton, David. 2009. “Semantic Publishing: The Coming Revolution in Scientific Journal Publishing.” Learned Publishing 22 (2): 85–94. https://doi.org/10.1087/2009202.
Aktivitäten
Vorträge
- Christof Schöch: “Mining and Modeling Text: Leveraging Machine Learning and Linked Open Data to Investigate the French Enlightenment Novel”. Invited Lecture. Tbilisi State University, Tbilisi, Georgia, 13 March 2025. – URL: https://dhtrier.quarto.pub/tbilisi-mmt
- Jens Bruchertseifer, Patrick Neises, Maria Hinzmann, Ralf Schenkel, Christof Schöch: "Investigating Zero-shot Topic Labelling of Scientific Papers Using LLMs". Workshop on Big (and Small) Data in Science and Humanities (BigDS 2025) im Rahmen der 1st Conference on Database Systems for Business, Technology and Web (BTW 2025), Bamberg University, March 3–7, 2025. – URL: https://btw2025.gi.de/program/workshops/bigds.
- Christof Schöch: “Linked Open Data for Literary History” (invited talk). Digital Humanities Training Day, org. Michaela Mahlberg. Erlangen: FAU Erlangen, 22 Nov 2024. – Slides: https://dhtrier.quarto.pub/fau/.
- Johanna Konstanciak, Tinghui Duan, Matthias Bremm, Anne Klee, Joëlle Weis, Maria Hinzmann, Julia Röttgermann, Christof Schöch: “Federated Queries for Literary Studies: Querying Wikidata via the MiMoTextBase and the Other Way Around”. International Conference Linked Open Data and Literary Studies, org. Frank Fischer. Berlin: Freie Universität Berlin, 19-20 Nov 2024. – Slides: https://mimotext.github.io/lod-lithist/federated-queries.html#/
- Christof Schöch: “Artificial Intelligence / Large Language Models and the Digital Humanities”. Third International Conference on Digital Humanities (CODH-24): The Next Stick and Stone of Civilization. Binus University, Semarang, Central Java, Indonesia, 30 Oct 2024. – Keynote, delivered remotely. – Website: https://digitalhumanities.website/speakers-codh-2024/
- Christof Schöch: “Linked Open Data for Literary History. Extracting, Modeling, Linking and Querying Data on the French Enlightenment Novel” (opening keynote). The International Conference for the Study of the Novel. Second Edition: Migration and Economic Inequalities in the History of the Novel: Discourses, Representations, Identity (Re)Construction. Cluj-Napoca: Institutul de Lingvistică și Istorie Literară Sextil Pușcariu, 21-22 June 2024. – Presentation: https://dhtrier.quarto.pub/cluj, Programme: https://icsnpuscariu.wordpress.com.
- Matthias Bremm, Maria Hinzmann, Julia Röttgermann and Christof Schöch: Linked Open Data for the Humanities: Lessons Learned in MiMoText & further TCDH projects. Online-Workshop STAGE project and MiMoText / TCDH projects, organised by Clarisse Bardiot and Christof Schöch | February 27, 2025. Slides: https://mimotext.github.io/lod-lithist/wikiverse.html#/
- Maria Hinzmann, “Atomizing Literary History in the Linked Open Data Paradigm”, Workshop Modeling Literary History, 06.11.2024, Würzburg.
- Maria Hinzmann, Julia Röttgermann, Christof Schöch, Johanna Konstanciak, Tinghui Duan, Matthias Bremm, Anne Klee, Joëlle Weis: „Federated Queries for Literary Studies: Querying Wikidata via the MiMoTextBase and the other way around“, Conference Linked Open Data and Literary Studies, 19.-20.11.2024, Freie Universität Berlin.
- Maria Hinzmann, Julia Röttgermann. „Bidirectional Federated Queries on MiMoTextBase and Wikidata”, WikiMUC/Federated Queries Workshop, 05.-06.12.2024, München.
- Johanna Konstanciak, Tinghui Duan, Matthias Bremm, Anne Klee, Joëlle Weis, Maria Hinzmann, Julia Röttgermann, Christof Schöch: "Federated Queries for Literary Studies: Querying Wikidata via the MiMoTextBase and the Other Way Around". Linked Open Data and Literary Studies (International Conference). 19 November 2024, Freie Universität Berlin, Germany. – URL: https://www.temporal-communities.de/events/2024/conference-linked-open-data.html.
- Christof Schöch: "Écrire une nouvelle histoire du roman des Lumières ? Enjeux et opportunités des linked open data", Nouvelles perspectives sur les éditions critiques (Colloque GREN-CRIHN), 30 Sept 2024, University of Montreal, Canada. – URL: https://www.crihn.org/nouvelles/2024/09/13/colloque-gren-crihn-nouvelles-perspectives-sur-les-editions-critiques/.
- Christof Schöch: “MiMoText – Mining and Modeling Text”. Workshop Databases on 18th Century France: Cooperation and Exchanges, org. Simon Dagenais and Damien Tricoire. 5 and 23 Sept 2024, Trier University, Germany. – URL: https://papa.uni-trier.de/2024/08/21/databases18thcenturyfrance/.
- Christof Schöch: “Linked Open Data for Literary History. Extracting, Modeling, Linking and Querying Data on the French Enlightenment Novel” (opening keynote). The International Conference for the Study of the Novel. Second Edition: Migration and Economic Inequalities in the History of the Novel: Discourses, Representations, Identity (Re)Construction. 21-22 June 2024, Cluj-Napoca: Institutul de Lingvistică și Istorie Literară Sextil Pușcariu, Romania. – Presentation: https://dhtrier.quarto.pub/cluj.
- Christof Schöch: “Bigger Smarter Data: Extracting, Modeling and Linking Data for Literary History”. Invited lecture, org. Lee Seung-eun and Byungjun Kim on behalf of Korean Association for Digital Humanities (KADH), the Department of Korean Language and Literature, Humanities Utmost Sharing System. 23 May 2024, Korea University, Seoul, South Korea. – Presentation: https://dhtrier.quarto.pub/ku/ – DOI: https://doi.org/10.5281/zenodo.11213754.
- Christof Schöch: “Numérique, multilingue, collaborative et ouverte: nouvelles perspectives pour l’histoire littéraire”. Avec un commentaire par Ioana Galleron. Les Jeudis de l’Institut historique allemand, 7 March 2024, Deutsches Historisches Institut Paris, France.
- Christof Schöch: “Linked Open Literary History am Beispiel der Geschichte des französischen Romans 1750-1800”. Colloquium Frühe Neuzeit interdisziplinär. Neue Forschungsbeiträge aus Trier, org. Damien Tricoire & Stephan Laux. 31 Jan 2024, Universität Trier, Germany.
Publikationen
- Maria Hinzmann, Matthias Bremm, Tinghui Duan, Anne Klee, Johanna Konstanciak, Julia Röttgermann, Moritz Steffes, Christof Schöch, Joëlle Weis (2025 / im Druck). “Patterns in modeling and querying a knowledge graph for literary history”. In: Pattern Theory in Language and Communication, ed. Sabine Arndt-Lappe, Milena Belosevic, Peter Maurer, Claudine Moulin, Achim Rettinger & Sören Stumpf. Trier: TCLC. – URL (preprint): https://doi.org/10.5281/zenodo.12080340.