Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex (Schenkel, Schöch)

Die Menge an Fachliteratur, die jedes Jahr veröffentlicht wird, übersteigt die Lesekapazität der Forscher. Als Lösung dienen traditionell Abstracts und Schlagworte (bei Artikeln) und Rezensionen (bei Büchern). Diese können jedoch den Inhalt eines Fachartikels oder Buches nicht umfassend und vor allem nicht semantisch und maschinenlesbar und damit reichhaltig auswertbar im Sinne des „semantischen Publizierens“ verfügbar machen. Ziel des Teilprojekts ist es, Strategien zur Lösung dieser Herausforderung zu entwickeln, die für klassische Forschungsaufgaben wie die Ermittlung des Forschungsstandes oder die Beschreibung der Forschungsgeschichte von großer Relevanz ist.

TP 3 (Digital Humanities & Informatik): Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex

Auch in den Geisteswissenschaften übersteigt die jährlich publizierte Fachliteratur die Aufnahmekapazität der Forschenden um ein Vielfaches. Als Lösung dienen traditioneller Weise Abstracts und Schlagworte (für Artikel) und Rezensionen (für Bücher). Diese können den Inhalt eines Fachartikels oder eines Buches aber nicht umfassend und vor allem auch nicht semantisch und maschinenlesbar, und damit reichhaltig auswertbar im Sinne des ‘semantic publishing’ (Shotton 2009, siehe auch Schöch 2020), verfügbar machen.

Ziel des Teilprojekts ist es, Strategien für die Lösung dieser Herausforderung zu entwickeln, die von großer Relevanz für klassische Aufgaben der Forschung, wie die Ermittlung eines Forschungsstandes, oder die Beschreibung der Forschungsgeschichte zu einer Forschungsfrage ist (siehe Kreutz und Schenkel 2022). Hierfür sollen umfangreiche Bestände von Fachliteratur aus mehreren geisteswissenschaftlichen Domänen einerseits in Teilen händisch semantisch annotiert werden, andererseits auf dieser Grundlage die Transformation von Abstract und Keywords oder, soweit verfügbar, auch des Volltexts einer Publikation, in eine überschaubare Anzahl von aussagekräftigen LOD-Statements
erlernt werden.

Dies setzt auch die Modellierung der Domäne zumindest in ihren groben Elementen voraus, womit insbesondere Aspekte wie die Art des jeweils zugrundeliegende Untersuchungsgegenstands, die behandelte Epoche, die verwendeten Tools und Methoden, und die zugrundeliegende weitere Fachliteratur berücksichtigt werden müssen. Insofern ist dieses Teilprojekt als ein Querschnittsprojekt zu verstehen, das einen wichtigen Beitrag zur Integration der Ergebnisse aus den übrigen Teilprojekten leisten kann.Das Vorhaben könnte ausgehend von Daten der Plattform Open Alex betrieben werden, wo bereits umfangreiche Metadaten auch in Form von LOD über eine API oder als Dump verfügbar sind. Allerdings ist die Erschließungstiefe von OpenAlex vergleichsweise gering und folgt eher der Logik einer Folksonomy als derjenigen eines strukturierten Modells einer Domäne. Dies soll durch die Nutzung von Volltexten (mehr Information über die Artikelinhalte) und eines Datenmodells der untersuchten Domänen (strukturierteres Vokabular) möglich werden.

Team

  • Prof. Dr. Ralf Schenkel
  • Prof. Dr. Christof Schöch
  • Jens Bruchertseifer

Literaturhinweise

  • Kreutz, Christin Katharina, and Ralf Schenkel. 2022. “Scientific Paper Recommendation Systems: A Literature Review of Recent Publications.” International Journal on Digital Libraries 23 (4): 335–69. https://doi.org/10.1007/s00799-022-00339-w.
  • Schöch, Christof. 2020. “Open Access für die Maschinen.” In Die Zukunft des kunsthistorischen Publizierens, herausgegeben von Maria Effinger & Hubertus Kohle. Heidelberg: ART-Books. https://doi.org/10.11588/arthistoricum.663.c9210.
  • Shotton, David. 2009. “Semantic Publishing: The Coming Revolution in Scientific Journal Publishing.” Learned Publishing 22 (2): 85–94. https://doi.org/10.1087/2009202.

Aktivitäten

Vorträge

  • Jens Bruchertseifer, Patrick Neises, Maria Hinzmann, Ralf Schenkel, Christof Schöch: "Investigating Zero-shot Topic Labelling of Scientific Papers Using LLMs".  Workshop on Big (and Small) Data in Science and Humanities (BigDS 2025) im Rahmen der 1st Conference on Database Systems for Business, Technology and Web (BTW 2025), Bamberg University, March 3–7, 2025. – URL: https://btw2025.gi.de/program/workshops/bigds.
  • Johanna Konstanciak, Tinghui Duan, Matthias Bremm, Anne Klee, Joëlle Weis, Maria Hinzmann, Julia Röttgermann, Christof Schöch: “Federated Queries for Literary Studies: Querying Wikidata via the MiMoTextBase and the Other Way Around”. International Conference Linked Open Data and Literary Studies, org. Frank Fischer. Berlin: Freie Universität Berlin, 19-20 Nov 2024. – Slides: https://mimotext.github.io/lod-lithist/federated-queries.html#/
  • Christof Schöch: “Artificial Intelligence / Large Language Models and the Digital Humanities”. Third International Conference on Digital Humanities (CODH-24): The Next Stick and Stone of Civilization. Binus University, Semarang, Central Java, Indonesia, 30 Oct 2024. – Keynote, delivered remotely. – Website: https://digitalhumanities.website/speakers-codh-2024/
  • Matthias Bremm, Maria Hinzmann, Julia Röttgermann and Christof Schöch: Linked Open Data for the Humanities: Lessons Learned in MiMoText & further TCDH projects. Online-Workshop STAGE project and MiMoText / TCDH projects, organised by Clarisse Bardiot and Christof Schöch | February 27, 2025. Slides: https://mimotext.github.io/lod-lithist/wikiverse.html#/
  • Maria Hinzmann, Julia Röttgermann, Christof Schöch, Johanna Konstanciak, Tinghui Duan, Matthias Bremm, Anne Klee, Joëlle Weis: „Federated Queries for Literary Studies: Querying Wikidata via the MiMoTextBase and the other way around“, Conference Linked Open Data and Literary Studies, 19.-20.11.2024, Freie Universität Berlin.
  • Maria Hinzmann, Julia Röttgermann. „Bidirectional Federated Queries on MiMoTextBase and Wikidata”, WikiMUC/Federated Queries Workshop, 05.-06.12.2024, München.
  • Johanna Konstanciak, Tinghui Duan, Matthias Bremm, Anne Klee, Joëlle Weis, Maria Hinzmann, Julia Röttgermann, Christof Schöch: "Federated Queries for Literary Studies: Querying Wikidata via the MiMoTextBase and the Other Way Around". Linked Open Data and Literary Studies (International Conference). 19 November 2024, Freie Universität Berlin, Germany. – URL: https://www.temporal-communities.de/events/2024/conference-linked-open-data.html.
  • Christof Schöch: “MiMoText – Mining and Modeling Text”. Workshop Databases on 18th Century France: Cooperation and Exchanges, org. Simon Dagenais and Damien Tricoire. 5 and 23 Sept 2024, Trier University, Germany. – URL: https://papa.uni-trier.de/2024/08/21/databases18thcenturyfrance/.

Publikationen

  • Jens Bruchertseifer, Patrick Neises, Maria Hinzmann, Ralf Schenkel und Christof Schöch (2025). „Investigating Zero-shot Topic Labelling of Scientific Papers Using LLMs“. In: Workshop on Big (and Small) Data in Science and Humanities (BigDS 2025), 1st Conference on Database Systems for Business, Technology and Web (BTW 2025). Bamberg University, March 3–7, 2025. DOI: 10.18420/BTW2025-122.
  • Maria Hinzmann, Matthias Bremm, Tinghui Duan, Anne Klee, Johanna Konstanciak, Julia Röttgermann, Moritz Steffes, Christof Schöch, Joëlle Weis (2025 / im Druck). “Patterns in modeling and querying a knowledge graph for literary history”. In: Pattern Theory in Language and Communication, ed. Sabine Arndt-Lappe, Milena Belosevic, Peter Maurer, Claudine Moulin, Achim Rettinger & Sören Stumpf. Trier: TCLC. – URL (preprint): https://doi.org/10.5281/zenodo.12080340

Digitale Ressourcen

Hinweis