Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex (Schenkel, Schöch)

Die Menge an Fachliteratur, die jedes Jahr veröffentlicht wird, übersteigt die Lesekapazität der Forscher. Als Lösung dienen traditionell Abstracts und Schlagworte (bei Artikeln) und Rezensionen (bei Büchern). Diese können jedoch den Inhalt eines Fachartikels oder Buches nicht umfassend und vor allem nicht semantisch und maschinenlesbar und damit reichhaltig auswertbar im Sinne des „semantischen Publizierens“ verfügbar machen. Ziel des Teilprojekts ist es, Strategien zur Lösung dieser Herausforderung zu entwickeln, die für klassische Forschungsaufgaben wie die Ermittlung des Forschungsstandes oder die Beschreibung der Forschungsgeschichte von großer Relevanz ist.

TP 3 (Digital Humanities & Informatik): Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex

Auch in den Geisteswissenschaften übersteigt die jährlich publizierte Fachliteratur die Aufnahmekapazität der Forschenden um ein Vielfaches. Als Lösung dienen traditioneller Weise Abstracts und Schlagworte (für Artikel) und Rezensionen (für Bücher). Diese können den Inhalt eines Fachartikels oder eines Buches aber nicht umfassend und vor allem auch nicht semantisch und maschinenlesbar, und damit reichhaltig auswertbar im Sinne des ‘semantic publishing’ (Shotton 2009, siehe auch Schöch 2020), verfügbar machen.

Ziel des Teilprojekts ist es, Strategien für die Lösung dieser Herausforderung zu entwickeln, die von großer Relevanz für klassische Aufgaben der Forschung, wie die Ermittlung eines Forschungsstandes, oder die Beschreibung der Forschungsgeschichte zu einer Forschungsfrage ist (siehe Kreutz und Schenkel 2022). Hierfür sollen umfangreiche Bestände von Fachliteratur aus mehreren geisteswissenschaftlichen Domänen einerseits in Teilen händisch semantisch annotiert werden, andererseits auf dieser Grundlage die Transformation von Abstract und Keywords oder, soweit verfügbar, auch des Volltexts einer Publikation, in eine überschaubare Anzahl von aussagekräftigen LOD-Statements
erlernt werden.

Dies setzt auch die Modellierung der Domäne zumindest in ihren groben Elementen voraus, womit insbesondere Aspekte wie die Art des jeweils zugrundeliegende Untersuchungsgegenstands, die behandelte Epoche, die verwendeten Tools und Methoden, und die zugrundeliegende weitere Fachliteratur berücksichtigt werden müssen. Insofern ist dieses Teilprojekt als ein Querschnittsprojekt zu verstehen, das einen wichtigen Beitrag zur Integration der Ergebnisse aus den übrigen Teilprojekten leisten kann.Das Vorhaben könnte ausgehend von Daten der Plattform Open Alex betrieben werden, wo bereits umfangreiche Metadaten auch in Form von LOD über eine API oder als Dump verfügbar sind. Allerdings ist die Erschließungstiefe von OpenAlex vergleichsweise gering und folgt eher der Logik einer Folksonomy als derjenigen eines strukturierten Modells einer Domäne. Dies soll durch die Nutzung von Volltexten (mehr Information über die Artikelinhalte) und eines Datenmodells der untersuchten Domänen (strukturierteres Vokabular) möglich werden.

Team

  • Prof. Dr. Ralf Schenkel
  • Prof. Dr. Christof Schöch
  • Jens Bruchertseifer

References

Kreutz, Christin Katharina, and Ralf Schenkel. 2022. “Scientific Paper Recommendation Systems: A Literature Review of Recent Publications.” International Journal on Digital Libraries 23 (4): 335–69. https://doi.org/10.1007/s00799-022-00339-w.
Schöch, Christof. 2020. “Open Access für die Maschinen.” In Die Zukunft des kunsthistorischen Publizierens, herausgegeben von Maria Effinger & Hubertus Kohle. Heidelberg: ART-Books. https://doi.org/10.11588/arthistoricum.663.c9210.
Shotton, David. 2009. “Semantic Publishing: The Coming Revolution in Scientific Journal Publishing.” Learned Publishing 22 (2): 85–94. https://doi.org/10.1087/2009202.