Extraction of semantic statements using OpenAlex

The amount of specialist literature published each year exceeds the reading capacity of researchers. Traditionally, abstracts and keywords (for articles) and reviews (for books) serve as a solution. However, these cannot make the content of a specialist article or book available comprehensively and, above all, not semantically and machine-readable, and thus richly analyzable in the sense of 'semantic publishing'. The aim of the sub-project is to develop strategies for solving this challenge, which is of great relevance for classic research tasks such as determining the state of research or describing the research history.

TP 3 (Digital Humanities & Informatik): Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex (Schenkel, Schöch)

Auch in den Geisteswissenschaften übersteigt die jährlich publizierte Fachliteratur die Aufnahmekapazität der Forschenden um ein Vielfaches. Als Lösung dienen traditioneller Weise Abstracts und Schlagworte (für Artikel) und Rezensionen (für Bücher). Diese können den Inhalt eines Fachartikels oder eines Buches aber nicht umfassend und vor allem auch nicht semantisch und maschinenlesbar, und damit reichhaltig auswertbar im Sinne des ‘semantic publishing’ (Shotton 2009, siehe auch Schöch 2020), verfügbar machen.

Ziel des Teilprojekts ist es, Strategien für die Lösung dieser Herausforderung zu entwickeln, die von großer Relevanz für klassische Aufgaben der Forschung, wie die Ermittlung eines Forschungsstandes, oder die Beschreibung der Forschungsgeschichte zu einer Forschungsfrage ist (siehe Kreutz und Schenkel 2022). Hierfür sollen umfangreiche Bestände von Fachliteratur aus mehreren geisteswissenschaftlichen Domänen einerseits in Teilen händisch semantisch annotiert werden, andererseits auf dieser Grundlage die Transformation von Abstract und Keywords oder, soweit verfügbar, auch des Volltexts einer Publikation, in eine überschaubare Anzahl von aussagekräftigen LOD-Statements
erlernt werden.

Dies setzt auch die Modellierung der Domäne zumindest in ihren groben Elementen voraus, womit insbesondere Aspekte wie die Art des jeweils zugrundeliegende Untersuchungsgegenstands, die behandelte Epoche, die verwendeten Tools und Methoden, und die zugrundeliegende weitere Fachliteratur berücksichtigt werden müssen. Insofern ist dieses Teilprojekt als ein Querschnittsprojekt zu verstehen, das einen wichtigen Beitrag zur Integration der Ergebnisse aus den übrigen Teilprojekten leisten kann.Das Vorhaben könnte ausgehend von Daten der Plattform Open Alex betrieben werden, wo bereits umfangreiche Metadaten auch in Form von LOD über eine API oder als Dump verfügbar sind. Allerdings ist die Erschließungstiefe von OpenAlex vergleichsweise gering und folgt eher der Logik einer Folksonomy als derjenigen eines strukturierten Modells einer Domäne. Dies soll durch die Nutzung von Volltexten (mehr Information über die Artikelinhalte) und eines Datenmodells der untersuchten Domänen (strukturierteres Vokabular) möglich werden.

Team

  • Prof. Dr. Ralf Schenkel
  • Prof. Dr. Christof Schöch
  • Jens Bruchertseifer

References

Kreutz, Christin Katharina, and Ralf Schenkel. 2022. “Scientific Paper Recommendation Systems: A Literature Review of Recent Publications.” International Journal on Digital Libraries 23 (4): 335–69. https://doi.org/10.1007/s00799-022-00339-w.
Schöch, Christof. 2020. “Open Access für die Maschinen.” In Die Zukunft des kunsthistorischen Publizierens, herausgegeben von Maria Effinger & Hubertus Kohle. Heidelberg: ART-Books. https://doi.org/10.11588/arthistoricum.663.c9210.
Shotton, David. 2009. “Semantic Publishing: The Coming Revolution in Scientific Journal Publishing.” Learned Publishing 22 (2): 85–94. https://doi.org/10.1087/2009202.