Legal LOD - Concept-based indexing of multilingual European legal texts

The subject of the legal sub-project is the development of a multilingual corpus of European legal texts relating to digitization, such as the Digital Services Act 19 October 2022 (Regulation 2022/2065). This type of text is available in the 24 official languages of the EU, whereby all language versions are equally binding and are therefore in principle considered to have the same content, whereby the principle of equality of EU law is to be realized in all Member States. However, due to the complex editing, coordination and translation processes, there are always differences in detail that cannot be found and clarified using the simple synoptic display on the EUR-Lex platform.

The sub-project aims to solve this problem by: (a) automatically aligning the legal texts sentence by sentence; (b) identifying key legal terms and other concepts and making them available as an LOD-enabled ontology; (c) annotating these concepts across the translations (first manually, then automatically); and finally (d) enabling a concept-guided search for term usages and definitions of relevant terms across different language versions, so that passages that differ in detail can be identified and their significance for Europe-wide national case law can be assessed. The free availability of the texts and their availability in semi-structured HTML format are conducive to this project.

TP6 (Digitale Rechtswissenschaft): Legal LOD – Konzept-basierte Erschließung von mehrsprachigen europäischen Rechtstexten (Burch, Raue)

Gegenstand des rechtswissenschaftlichen Teilprojekts ist die Erschließung eines mehrsprachigen Korpus von europäischen Rechtstexten mit Bezug zur Digitalisierung, wie beispielsweise dem Digital Services Act 19. Oktober 2022 (Verordnung 2022/2065). Diese Textsorte liegt in den 24 offiziellen Sprachen der EU vor, wobei alle Sprachfassungen gleichermaßen verbindlich sind und daher prinzipiell als inhaltsgleich gelten, wodurch das Prinzip der Gleichheit des EU-Rechts in allen Mitgliedstaaten realisiert werden soll. Allerdings kommt es durch die komplexen Bearbeitungs-, Abstimmungs- und Übersetzungsprozesse immer wieder zu Abweichungen im Detail, die durch die einfache synoptische Darstellung auf der EUR-Lex-Plattform nicht aufgefunden und geklärt werden können.

Dieses Problem möchte das Teilprojekt lösen, indem es: (a) die Rechtstexte automatisiert satzweise aligniert; (b) zentrale rechtswissenschaftliche Begriffe sowie weitere Konzepte identifiziert und als LOD-fähige Ontologie verfügbar macht; (c) diese Konzepte über die Übersetzungen hinweg annotiert (zunächst händisch, dann automatisiert); um schließlich (d) eine Konzept-geleitete Suche nach Begriffsverwendungen und Definitionen von relevanten Begriffen über verschiedene Sprachfassungen hinweg erlaubt, sodass im Detail abweichende Passagen identifiziert und in ihrer Bedeutung für die europaweite nationale Rechtsprechung bewertet werden können. Die freie Verfügbarkeit der Texte sowie ihr Vorliegen in semi-strukturiertem HTML-Format kommen diesem Vorhaben entgegen.

Verordnung (EU) 2022/2065 des Europäischen Parlaments und des Rates vom 19. Oktober 2022 über einen Binnenmarkt für digitale Dienste und zur Änderung der Richtlinie 2000/31/EG (Gesetz über digitale Dienste), data.europa.eu/eli/reg/2022/2065/oj.

Team

  • Dr. Thomas Burch
  • Prof. Dr. Benjamin Raue
  • Veronika Wassermayr