LODinG zielt darauf ab, das Potenzial des Linked Open Data (LOD)-Paradigmas an der Schnittstelle von qualitativen und quantitativen Studien in den Geisteswissenschaften zu erforschen. Das Projekt besteht aus folgenden Forschungsbereichen:

TP1 (Digitale Lexikografie & Germanistik): Pandemiewortschatz und LOD – (Infektions-) Krankheiten in vernetzten digitalen Wörterbüchern

Im Teilprojekt 1 entwickeln wir das historische Wörterbuch „Pandemictionary“, das Teil des LODinG-Projekts des Trier Center for Digital Humanities ist und sich auf das Vokabular historischer Pandemien wie Cholera und Spanische Grippe konzentriert. Es analysiert, wie Menschen damals über diese Pandemien sprachen, indem es historische Korpora durchsucht und Pandemie-Vokabular als verknüpfte offene Daten sammelt. Die Daten werden zum einen für die Veröffentlichung und zum Abruf in einer Wikibase und zum anderen als Wörterbuch in einer Wiki-Instanz basierend auf der Struktur des Wiktionarys aufbereitet. Das Wörterbuch bietet Informationen zur Bedeutung, Aussprache und Grammatik von Schlüsselwörtern sowie authentische Beispiele, die die Verwendung und Nuancen der Wörter in verschiedenen Kontexten veranschaulichen.

Mehr lesen

TP2 (Digitale Edition, Germanistik & Romanistik): LOD für die editorische Erschließung von Literatur der frühen Neuzeit mit Fokus auf Botanik und Medizin

In diesem Teilprojekt interessieren wir uns insbesondere für die frühneuzeitliche medizinische Prosa, nicht nur für die medizinische Terminologie, sondern auch für die Botanik, die damals wie heute eine lexikografische Herausforderung darstellte. Das Teilprojekt erforscht frühneuzeitliche Textensembles aus Rumänien und Germanien, die im europäischen Kontext von Bedeutung sind. Romanistik: Eine der zentralen Dioskurides-Übersetzungen in Spanien, die noch nicht in moderner Form ediert wurde und im 16. Jahrhundert ein Bestseller war, fügt an verschiedenen Stellen amüsante Anekdoten in den Originaltext ein, die das Werk literaturwissenschaftlich und literaturwissenschaftlich interessant machen sprachliche Fragen.

Mehr lesen

TP 3 (Digital Humanities & Informatik): Extraktion von semantischen Statements zum Inhalt von geisteswissenschaftlicher Fachliteratur anhand von OpenAlex

Die Menge an jährlich neu publizierter Fachliteratur übersteigt die Lesekapazität der Forschenden. Traditionell dienen Abstracts und Schlagworte (bei Artikeln) sowie Rezensionen (bei Büchern) als Lösung. Diese können den Inhalt eines Fachartikels oder Buches allerdings nicht umfassend und vor allem nicht semantisch und maschinenlesbar und damit im Sinne des ‚Semantic Publishing‘ reichhaltig analysierbar bereitstellen. Ziel des Teilprojektes ist es, Strategien zur Lösung dieser Herausforderung zu entwickeln, die für klassische Forschungsaufgaben wie die Ermittlung des Forschungsstandes oder die Beschreibung der Forschungsgeschichte von großer Relevanz ist.

Mehr lesen

TP4 (Sinologie & Informatik): Extraktion von semantischen Statements zum Inhalt von chinesisch-sprachiger Fachliteratur

China wird im Westen nach wie vor als leistungsstarker, innovativer und produktiver Forschungsakteur unterschätzt, nicht zuletzt, weil ein Großteil des Forschungsoutputs aufgrund von Sprachbarrieren nicht rezipiert werden kann. Eine Möglichkeit, diese Barrieren abzubauen, besteht darin, die Inhalte chinesischer Fachliteratur maschinenlesbar und semantisch, und damit auch sprachunabhängig, zu machen. Ziel dieses Teilprojektes ist es daher, mit Hilfe von ExpertInnen in den relevanten Domänen der chinesischsprachigen Forschung und der automatischen Verarbeitung chinesischer Sprache die in TP3 gewonnenen Erfahrungen mit der Extraktion und Modellierung semantischer Aussagen aus Fachliteratur auf einen geeigneten Bestand chinesischsprachiger Fachliteratur zu übertragen und damit sprachunabhängig zugänglich zu machen.

Mehr lesen

TP5 (Digitale Kulturwissenschaft & Computerlinguistik): Erschließung von Textinhalt und Bildelementen unter Nutzung multimodaler Wissensrepräsentationen am Beispiel umfangreicher Bestände an Weinetiketten

Leistungsfähige Wissensgraphen werden heute zunehmend nicht nur mit Text, sondern auch mit multimodalen Daten trainiert, wozu insbesondere Texte und Bilder zählen. Damit eröffnen sich entsprechende Möglichkeiten zur Unterstützung multimodaler Erschließungsprozesse, bei denen etwa die Texterkennung mit OCR von im Dokument auch vorhandenen Bildobjekten profitiert und umgekehrt die automatische Erkennung von Bildobjekten durch auch vorhandenen Text unterstützt wird. Dies kann auch durch entsprechende Wissensrepräsentationen in einem einzigen, gemeinsamen Verarbeitungsschritt umgesetzt werden. Ziel des Teilprojektes ist es, dieses Paradigma für die Erschließung eines umfangreichen, durch Web Scraping erstellten Bestandes an Weinetiketten einzusetzen.

Mehr lesen

TP6 (Rechtswissenschaft & Digital Humanities): Legal LOD – Konzept-basierte Erschließung von mehrsprachigen europäischen Rechtstexten

Gegenstand des juristischen Teilprojekts ist die Entwicklung eines mehrsprachigen Korpus europäischer Rechtstexte mit Bezug zur Digitalisierung, wie etwa des Digital Services Act 19. Oktober 2022 (Verordnung 2022/2065). Dieser Texttyp ist in den 24 Amtssprachen der EU verfügbar, wobei alle Sprachversionen gleichermaßen verbindlich sind und daher grundsätzlich als inhaltsgleich gelten, wodurch der Grundsatz der Gleichheit des EU-Rechts in allen Mitgliedstaaten verwirklicht werden soll. Aufgrund der komplexen Bearbeitungs-, Abstimmungs- und Übersetzungsprozesse kommt es jedoch immer wieder zu Detailunterschieden, die über die einfache synoptische Anzeige auf der EUR-Lex-Plattform nicht gefunden und geklärt werden können. Das Teilprojekt zielt darauf ab, dieses Problem zu lösen, indem: (a) die Rechtstexte automatisch Satz für Satz angeglichen werden; (b) wichtige Rechtsbegriffe und andere Konzepte identifiziert und als LOD-fähige Ontologie verfügbar gemacht werden; (c) diese Konzepte über die Übersetzungen hinweg annotiert werden (zuerst manuell, dann automatisch); und schließlich (d) eine konzeptgesteuerte Suche nach Begriffsverwendungen und Definitionen relevanter Begriffe über verschiedene Sprachversionen hinweg zu ermöglichen, so dass im Detail abweichende Passagen identifiziert und ihre Bedeutung für die europaweite nationale Rechtsprechung beurteilt werden können. Die freie Verfügbarkeit der Texte und ihre Verfügbarkeit im semistrukturierten HTML-Format sind für dieses Vorhaben förderlich.

Mehr lesen

TP7 Querschnittsprojekt: Integration und Föderation von LOD-Ressourcen: Domänenübergreifende Modellierung geisteswissenschaftlichen Fachwissens

Das Teilprojekt soll methodische und konzeptionelle Unterstützung leisten, indem es in Absprache mit den anderen am Netzwerk beteiligten TP ein oder mehrere Datenmodelle für geisteswissenschaftliches Fachwissen entwickelt und deren Integration in den gemeinsamen Wissensgraphen erleichtert. Im Hinblick auf die formale Beschreibung von Wissen werden die üblicherweise zur Organisation und Repräsentation von Wissen verwendeten Techniken wie Kataloge, Glossare, Taxonomien, Klassifikationen, Thesauri, semantische Netze, Ontologien und Frames auf ihre Anwendbarkeit in den jeweiligen Projektsituationen getestet. Der Ansatz ist modular, d.h. es wird zwischen domänenübergreifenden und domänenspezifischen Entitäten und Prädikaten unterschieden.

Mehr lesen

INF (TCDH und UB): Infrastruktur für LOD und Support

Das Teilprojekt INF soll als Querschnittsprojekt zentrale technische Anforderungen und Methoden für die anderen Teilprojekte umsetzen und damit die Grundlagen für die Interoperabilität der in den TPs modellierten Daten legen und ein professionelles Forschungsdatenmanagement (FDM) unterstützen. Software-Basis hierfür ist einerseits die allgemeine Wikidata-Plattform (www.wikidata.org) und andererseits eine eigene Wikibase-Instanz, die projektspezifische Daten aufnehmen kann, die zunächst keine allgemeinen Wikidata-Kennungen besitzen, aber dennoch in einem Wikidata-Framework gespeichert sind und interoperabel mit anderen Teilen des Wissensgraphen verknüpft werden können, der in LODinG entsteht. Technisch basiert WikiData wie alle von der Wikimedia Foundation betriebenen Projekte auf MediaWiki und nutzt eine Wikibase bestehend aus einem Repository zur Speicherung strukturierter Daten. Das Projekt INF entwickelt Schnittstellen für dieses Framework, um Daten synchronisieren zu können.

Mehr lesen