Ziele
MWB-APIplus ist ein TextPlus-Kooperationsprojekt, das die Schaffung einer Schnittstelle (API) für das Mittelhochdeutsche Wörterbuch (MWB) und sein Quellenkorpus nach Text+-Standard zum Gegenstand hat. Durch die Schnittstelle wird es ermöglicht, MWB-Daten unabhängig von der HTML-Ausgabe im Browser nach Text+-Standards abzufragen und so in andere digitale Kontexte einzubinden. Dies können z.B. sprachhistorische oder lexikographische Portale, digitale Texteditionen und natürlich das Textplus-Portal selbst sein. Das Projekt ist in der Taskarea "Lexikalische Ressourcen" angesiedelt und wird im Jahr 2023 mit einer 50%-Stelle vom TextPlus-Konsortium gefördert.
Der Projektplan sieht 4 Arbeitspakete vor:
Arbeitspaket 1: Metadaten-Service für das MWB-Textcorpus
- Implementation der API gemäß OAI-Protokoll
- Implementation der MarcXML-Serialisierung
- Einbindung von Konvertern für die Zielformate MODS und DublinCore
Arbeitspaket 2: Metadaten-Service für die MWB-Wortartikel
- Implementation der Schnittstelle gemäß OAI-Protokoll wie Arbeitspaket 1
- Registrierung in der Text+-Registry
Arbeitspaket 3: MWB-APIplus für das MWB-Textcorpus
- Implementation der Schnittstelle nach Clarin-FCS-Spezifikation
- Qualitätssicherung durch Automatisierung der Anwendung des „CLARIN FCS SRU/CQL Conformance Test“.
Arbeitspaket 4: MWB-APIplus für die MWB-Wortartikel
Arbeitsschritte wie in Arbeitspaket 3; MWB-APIplus bezieht sich auf folgende Felder: Lemma, grammatische Angabe des Lemmas, Bedeutungsangaben, lexikographische
Gliederungskommentare, allgemeine lexikographische Kommentare und Belege.
Ergebnisse
(letzte Aktualisierung: 2.5.2023)
Arbeitspaket 1: Metadaten-Service für das MWB-Textcorpus
API-Endpunkt: <https://mwb.adwmainz.net/exist/apps/mwb/api/bibliography/oai2?verb=Identify>
Folgende Werte beim Parameter "verb" sind möglich:
Identify | Allgemeine Informationen zum Repository |
ListMetadataFormats | Liste verfügbarer Metadatenschemata |
ListRecords | Liste aller Datensätze |
ListIdentifiers | Liste der IDs aller Datensätze |
GetRecord | einzelner Datensatz |
Beispielhafte Abfragen:
https://mwb.adwmainz.net/exist/apps/mwb/api/bibliography/oai2?verb=ListMetadataFormats | Liste der verfügbaren Metadaten-Formate, nämlich DublinCore (oai_dc), MODS und MARC21 |
https://mwb.adwmainz.net/exist/apps/mwb/api/bibliography/oai2?verb=ListRecords&metadataPrefix=oai_dc | Liste aller Primärtexte des MWB im DublinCore-Format |
https://mwb.adwmainz.net/exist/apps/mwb/api/bibliography/oai2?verb=GetRecord&metadataPrefix=mods&identifier=mwb:qvz:q_91fb6e4f-82dd-477f-9b5b-fe1cdf135d82 | Eintrag zu Albert von Augsburg, Leben des heiligen Ulrich (mit der ID "mwb:qvz:q_91fb6e4f-82dd-477f-9b5b-fe1cdf135d82") im MODS-Format |
Hinweise
Das Quellenverzeichnis des MWB enthält die Titelaufnahmen als Fließtexte, die mit zusätzlichen Metadaten angereichert sind, z.B. zur Textdatierung, zur Textsorte usw. Zu diesen Zusatzfeldern gehört auch die Pica Produktionsnummer (PPN), die einen Abgleich mit Bibliothekskatalogen ermöglicht. Separate Felder für Autor, Herausgeber, Reihe u.ä. gibt es im Quellenverzeichnis des MWB hingegen nicht. Im Rahmen von MWB-APIplus wird die PPN dazu genutzt, diese Felder mit den entsprechenden Daten aus dem Gemeinsamen Verbundkatalog (GVK) zu füllen. Dies betrifft die Felder für Autor, Herausgeber, weitere beteiligte Personen, Erscheinungsort und Erscheinungsjahr. Die vollständige Titelaufnahme des MWB wird zusätzlich angegeben. Im Falle von MWB-Siglen aus Sammelwerken, z.B. aus Haupts Gesamtabenteuer, liefert der GVK als weitere beteiligte Personen auch die übrigen Texte der Sammlung, was eine unvermeidbare Unschönheit des gewählten Verfahrens der Datenübernahme aus dem GVK darstellt.
Der Verweis auf das digitale Textobjekt zielt auf die HTML-Fassung in MWB Online. Weitere Hinweise zur technischen Umsetzung siehe unten.
Arbeitspaket 2: Metadaten-Service für die MWB-Wortartikel
API-Endpunkt: <https://mwb.adwmainz.net/exist/apps/mwb/api/articles/oai2?verb=Identify>
Folgende Werte beim Parameter "verb" sind möglich (wie Arbeitspaket 1):
Identify | Allgemeine Informationen zum Repository |
ListMetadataFormats | Liste verfügbarer Metadatenschemata |
ListRecords | Liste aller Datensätze |
ListIdentifiers | Liste der IDs aller Datensätze |
GetRecord | einzelner Datensatz |
Beispielhafte Abfragen:
https://mwb.adwmainz.net/exist/apps/mwb/api/articles/oai2?verb=ListMetadataFormats | Liste der verfügbaren Metadaten-Formate, nämlich DublinCore (oai_dc), MODS und MARC21 |
https://mwb.adwmainz.net/exist/apps/mwb/api/articles/oai2?verb=ListRecords&metadataPrefix=oai_dc | Liste aller bereits publizierten Artikel des MWB im DublinCore-Format in einer Teilmenge von 100 Elementen. Das ResumptionToken ermöglicht die Abfrage der nächsten Portion (s.u.) |
https://mwb.adwmainz.net/exist/apps/mwb/api/articles/oai2?verb=GetRecord&metadataPrefix=mods&identifier=mwb:art:2070000 | Eintrag zu einem Artikel (mit der ID "mwb:art:2070000" = abegründecheit) im MODS-Format |
Hinweise
Der Metadaten-Service für MWB-Artikel arbeitet analog zum Metadaten-Service für das Quellencorpus. Jeder bereits publizierte MWB-Artikel entspricht einem Datensatz für den Lemma und grammatische Angabe als Titel, der Artikelautor sowie die Referenz auf die gedruckte und digitale Publikation ausgegeben werden. Die Ausgabe erfolgt in Portionen zu 100 Artikeln. Wie im OAI-Standard vorgesehen, erlaubt das mitgelieferte ResumptionToken die jeweils nächste Portion abzurufen; das Attribut completeListSize gibt die Gesamtzahl der zu Verfügung stehenden Datensätze an.
Weitere Hinweise zur technischen Umsetzung siehe unten.
Arbeitspakete 3 und 4 in Arbeit
Technische Umsetzung der Metadaten-Services
Die Daten des MWB liegen als XML-Daten (in der Regel TEI-P5) in der nativen XML-Datenbank eXist-db vor. MWB-APIplus wird durch XQuery-Skripte realisiert, die direkt auf den Grunddaten arbeiten. Lediglich die MARC21-Serialisierung wird durch Anwendung des einschlägigen XSLT-Stylesheets der Library of Congess (https://www.loc.gov/standards/marcxml/xslt/MODS2MARC21slim.xsl ) aus der MODS-Serialisierung erzeugt.
Für die menschenlesbare Ausgabe im Browser wird das für OAI-DC konzipierte Stylesheet oai2.xslt von ePrints Soton (University of Southhampton) genutzt. Da es bei MODS und MARC21 keine Validierung durchführt, setzt es bei den Formaten die die Überschrift "Unknown Metadata Format" ein, obwohl sie korrekt serialisiert werden und die sonstige Darstellung korrekt ist.
