Indexing text content and image elements using multimodal knowledge representations based on the example of extensive collections of wine labels

Today, powerful knowledge graphs are increasingly being trained not only with text, but also with multimodal data, which includes text and images in particular. This opens up corresponding possibilities for supporting multimodal indexing processes in which, for example, text recognition with OCR benefits from image objects that are also present in the document and, conversely, the automatic recognition of image objects is supported by text that is also present. This can also be implemented by corresponding knowledge representations in a single, joint processing step. The aim of the sub-project is to use this paradigm for the indexing of an extensive inventory of wine labels created by web scraping.

TP5 (Digitale Kulturwissenschaft & Computerlinguistik): Erschließung von Textinhalt und Bildelementen unter Nutzung multimodaler Wissensrepräsentationen am Beispiel umfangreicher Bestände an Weinetiketten (Weis, Rettinger)

Leistungsfähige Wissensgraphen werden heute zunehmend nicht nur mit Text trainiert, sondern mit multimodalen Daten, die insbesondere Text und Bild beinhalten. Das eröffnet entsprechende Möglichkeiten für die Unterstützung multimodaler Erschließungsprozesse, bei denen beispielsweise die Texterkennung mit OCR von ebenfalls im Dokument vorhandenen Bildobjekten profitiert, und umgekehrt die automatische Erkennung vonBildobjekten durch ebenfalls vorhandenen Text unterstützt wird. Dies kann von entsprechenden Wissensrepräsentationen auch in einem einzigen, gemeinsamen Bearbeitungsschritt umgesetzt werden. Ziel des Teilprojekts ist es, dieses Paradigma für die Erschließung eines umfangreichen, durch Webscraping entstandenen Bestands an Weinetiketten zu nutzen. Diese können als Beispiel für oft sehr komplexe Text-Bild-Medien dienen und bilden daher einen guten Ausgangspunkt. Teil der zu entwickelnden Pipeline wird auch sein, die erkannten Text- und Bildanteile mit Wikidata-Identifiern und anderen Normdaten zu versehen, sodass sie mit anderen Teilen des Wissensgraphs, der im Verbund entsteht, sowie mit Wissensgraphen wie Wikidata, verbunden werden können. Möglichkeiten, das Verfahrens über die Weinetiketten hinaus zu generalisieren und für andere Text-Bild-Medien wie Postkarten, geographische Karten oder Buchillustrationen einzusetzen, werden ebenfalls berücksichtigt.

Team

  • Dr. Joëlle Weis
  • Prof. Dr. Achim Rettinger
  • Veronika Wassermayr