Indizierung von Textinhalten und Bildelementen mittels multimodaler Wissensrepräsentationen am Beispiel umfangreicher Sammlungen von Weinetiketten
Leistungsfähige Wissensgraphen werden heute zunehmend nicht nur mit Text, sondern auch mit multimodalen Daten, zu denen insbesondere Text und Bilder gehören, trainiert. Dies eröffnet entsprechende Möglichkeiten zur Unterstützung multimodaler Erschließungsprozesse, bei denen z.B. die Texterkennung mit OCR von ebenfalls im Dokument vorhandenen Bildobjekten profitiert und umgekehrt die automatische Erkennung von Bildobjekten durch ebenfalls vorhandenen Text unterstützt wird. Dies kann auch durch entsprechende Wissensrepräsentationen in einem einzigen, gemeinsamen Verarbeitungsschritt realisiert werden. Ziel des Teilprojektes ist es, dieses Paradigma für die Indizierung eines umfangreichen Bestandes an Weinetiketten, die durch Web Scraping erstellt wurden, zu nutzen.
TP5 (Digitale Kulturwissenschaft & Computerlinguistik): Erschließung von Textinhalt und Bildelementen unter Nutzung multimodaler Wissensrepräsentationen am Beispiel umfangreicher Bestände an Weinetiketten
Leistungsfähige Wissensgraphen werden heute zunehmend nicht nur mit Text trainiert, sondern mit multimodalen Daten, die insbesondere Text und Bild beinhalten. Das eröffnet entsprechende Möglichkeiten für die Unterstützung multimodaler Erschließungsprozesse, bei denen beispielsweise die Texterkennung mit OCR von ebenfalls im Dokument vorhandenen Bildobjekten profitiert, und umgekehrt die automatische Erkennung vonBildobjekten durch ebenfalls vorhandenen Text unterstützt wird. Dies kann von entsprechenden Wissensrepräsentationen auch in einem einzigen, gemeinsamen Bearbeitungsschritt umgesetzt werden. Ziel des Teilprojekts ist es, dieses Paradigma für die Erschließung eines umfangreichen, durch Webscraping entstandenen Bestands an Weinetiketten zu nutzen. Diese können als Beispiel für oft sehr komplexe Text-Bild-Medien dienen und bilden daher einen guten Ausgangspunkt. Teil der zu entwickelnden Pipeline wird auch sein, die erkannten Text- und Bildanteile mit Wikidata-Identifiern und anderen Normdaten zu versehen, sodass sie mit anderen Teilen des Wissensgraphs, der im Verbund entsteht, sowie mit Wissensgraphen wie Wikidata, verbunden werden können. Möglichkeiten, das Verfahrens über die Weinetiketten hinaus zu generalisieren und für andere Text-Bild-Medien wie Postkarten, geographische Karten oder Buchillustrationen einzusetzen, werden ebenfalls berücksichtigt.
Team
- Veronika Wassermayr, M.Sc.
- Dr. Joëlle Weis
- Prof. Dr. Achim Rettinger
- Prof. Dr. Christof Schöch
Activities
- Vortrag: Christof Schöch, Joëlle Weis, Veronika Wassermayr, Maria Hinzmann, Achim Rettinger: "Historical Wine Labels of the German Mosel Region: Enabling Insights into Visual Cultural Heritage using Linked Open Data". Digital Humanities Conference 2025 (DH2025). Universidade NOVA de Lisboa, Lisbon, Portugal, July 14-18, 2025.
- Kapitel: Joëlle Weis, Christof Schöch (2024), “Vom Perler Hasenberg zur Lehmener Würzlay – Weinetiketten digital erschließen”. In: Digital ist besser? Sammlungsforschung im digitalen Zeitalter, edited by Katharina Günther und Stefan Alschner. Tagungsband der Endterm-Tagung des Forschungsverbunds Marburg-Wolfenbüttel-Weimar (MWW), Klassik Stiftung Weimar, 16.–17. Feb 2023. Göttingen: Wallstein. – URL: https://www.wallstein-verlag.de/9783835356153-002.html (Open Access).
- Vortrag: Christof Schöch, Claudine Moulin, Joëlle Weis, “Historical wine labels as pointers to places and spaces of wine cultivation, production and distribution: A case study from the German Mosel region”. Wine, place and space – Global geographies of wine cultivation, production and consumption, org. Daniela Ana, Marc Daferner, Tatiana López, Gerhard Rainer, Susann Schäfer, Christian Steiner, Anika Zorn. Eichstätt: KU Eichstätt, Feb 21-23, 2024. – URL: www.ku.de/en/the-ku/faculties/mgf/geographie/aktuelles/termine/wine-place-space. – Präsentation: https://doi.org/10.5281/zenodo.14000744.
- Vortrag: Christof Schöch, “Weinetiketten erzählen Geschichte(n)”. KuLaDig Netzwerktreffen Rheinland-Pfalz, org. Christine Brehm. Bendorf-Sayn: Sayner Hütte, 5 Sept. 2023. – Präsentation: https://dhtrier.quarto.pub/weinetiketten/.
- Ressource: Weinetiketten der Mosel, coord. Christof Schöch. – URL: mosel.wikibase.cloud (experimental / work in progress).
- Ressource: Wine Label Vocabulary (WLV), coord. Christof Schöch. – URL: https://github.com/dh-trier/wlv/blob/master/resources/wlv-label-docs.md (work in progress).
- Presse: Markus Naumann, "Die Etikettenretter", DWZ - Die Winzer-Zeitschrift, August 2024, S. 23 (PDF).