Burghard Rieger

Über die Erstellung eines Synoptischen Affinitäts-Lexikons (SAL) *

Kurzbericht

Im folgenden soll über ein Projekt berichtet werden, das z.Z. in der Forschungsgruppe für mathematisch-statistische Linguistik am 1. Physikalischen Institut der RWTH Aachen von Dipl.-Phys. H.-M. Dannhauer, Dr. phil. B. Rieger und Dr. rer. nat. D. Wickmann bearbeitet wird.

Das Vorhaben geht auf eine umfänglichere literar-historische Untersuchung deutscher studentischer Lyrik des 19. und 20. Jahrhunderts 1 zurück, in der u.a. versucht worden war, die in den Gedichten sprachmaterialiter feststellbaren und semantisch bestimmten Textelemente (Wort- bzw. Motivkreise) quantitativ zu beschreiben und zu analysieren. Neben den Fragen nach  H ä u f i g k e i t e n  und  V e r t e i l u n g e n  der bevorzugten  Sprachmaterialien  dieser  Gedichte aus rund 150 Jahren trat die Untersuchung häufigster  Z u o r d n u n g s b e z i e h u n g e n  verschiedener Wort- bzw. Motivkreise innerhalb dieser Texte in den Vordergrund: die Frage also nach Anzahl und Art regelhafter Kopplungen von Textelementen.

Dieser Ansatz wurde inzwischen unter Verwendung des gleichen Textmaterials weiterverfolgt, um einmal auf breiterer Grundlage ausgearbeitet zu werden. Die Zielvorstellung des ganzen Projekts besteht dabei darin, die in großen Textmassen generell vorfindlichen und konkret feststellbaren Zuordnungsbeziehungen exakt zu erfassen, die aus ihnen analysierbaren mittleren Bindungsintensitäten zwischen Wörtern, Begriffen, Motiven etc. zu ermitteln und diese kontext-abhängigen Werte dazu zu benutzen, sogenannte (semantische) Umgebungsfelder zu erstellen. Diese auch aus dem Schrifttum historisch zurückliegender Epochen rekonstruierbaren Umgebungsfelder bestimmter Wörter lexikographisch zugänglich zu machen und zwar so, daß sich Wandel oder Konstanz im Umfeld eines Begriffs durch die diachrone Gegenüberstellung synchroner Analyseergebnisse leicht überblicken läßt, ist der Sinn eines 'Synoptischen Affinitäts-Lexikons'.

Der zu dieser Tagung gerade noch rechtzeitig fertiggestellte Probe-Ausdruck ist freilich in der hier vorliegenden Form nicht zur Veröffentlichung bestimmt; dieses 650 Seiten umfassende Lexikon stellt vielmehr ein Zwischenergebnis der bisherigen Arbeit dar und möchte als Versuch verstanden sein, für einen vorerst noch relativ eng begrenzten Teilbereich des Schrifttums einer Zeit (studentische Lyrik) durch Gruppenmittelbildung die je zeitabhängig sich verändernden Normen des durchschnittlich Erwartbaren auf der Ebene semantischer Zuordnungen in lyrischen Texten zu bestimmen und überschaubar zu machen.

Das Ausgangsmaterial bilden rund 3000 Gedichte, deren entstehungszeitliche Häufungen die Aufteilung in drei sogenannte Publikations-Gruppen (Publ-Gruppen) nahelegte. Ein sprachmaterialer Merkmals-Katalog K, der rund 300 Wort- bzw. Motivkreise (Womos)k umfaßt, stellt gleichsam das auf häufigste, semantisch bestimmte Textelemente reduzierte Alphabet dar, aufgrund dessen jeder Gedichttext in jeder Publ-Gruppe verschlüsselt wurde. Der so erstellte Datensatz, der damit die an den Gedichttexten als Protokollbefund gewonnenen Informationen für die Weiterverarbeitung liefert, umfaßt demnach drei, den Publ-Gruppen entsprechende Teile.<´p> Jede der drei Publ-Gruppen besteht aus einer bestimmten Anzahl I Texten, deren laufende Nummer mit i bezeichnet sei:

Jedem einzelnen Gedicht i entspricht dabei eine längere oder kürzere Kette n der in der Reihenfolge ihres Auftretens erfaßten Womos. Danach ergibt sich der Umfang (die Länge) N einer Publ-Gruppe als Summe aller Gedichtlängen n, gemessen in der Anzahl sämtlicher in ihnen auftretender Womos:

Den Umfang und die Breite des gesamten so aufbereiteten und hier herangezogenen Ausgangsmaterials zeigt folgende Tabelle. Sie läßt erkennen, wie die insgesamt NGes = 96 000 Belegungen der rund K = 300 Womos in sämtlichen IGes = 3 000 Texten sich auf die Publ-Gruppen 1, 2 und 3 verteilen, wobei n die mittlere Anzahl der in einer Publ-Gruppe erfaßten Womos pro Gedichttext angibt:

Die Frage nach den in dieser Menge von Texten vorherrschenden Zuordnungsbeziehungen versucht nun zweierlei zu erhellen: einmal sollen regelhafte, d.h. über ein mit dem Zufall erklärbares Maß hinausgehende gleichzeitige Belegungen verschiedener Womos innerhalb der durch die einzelnen Gedichte gegebenen Texteinheiten jeder Publ-Gruppe aufgefunden und beschrieben werden; zum anderen sollen die daraus ermittelbaren Vorkommenswahrscheinlichkeiten zur Berechnung eines Maßes dienen, welches die Intensität einer möglicherweise vorhandenen  A f f i n i t ä t  (Bindung) bzw.  R e p u g n a n z  (Abstoßung) zwischen Womos zu bestimmen gestattet.

Da letzteres die Grundlage und Voraussetzung bildet für die Erstellung von Umgebungsfeldern einzelner Wörter, Begriffe, Motive etc., mag folgendes Modell den methodischen Angang veranschaulichen:

Man stelle sich eine Fläche vor, auf der durch die Aufteilung in einzelne Fächer insgesamt I Kästchen oder Zellen entstanden sind, wobei jede dieser Zellen einen leeren Gedichttext repräsentiere. Über diese Zellen werden nun Kugeln verschiedener (nämlich K = 300) Typen regellos verstreut, wobei jede Kugel einem Womo eines bestimmten Typs (k, k¢, k¢¢, etc.) entspreche. - Setzt man einmal voraus, daß tatsächlich zwischen den Kugeln der Typen k und k¢ eine Bindung oder Anziehung irgendwelchen Art besteht, dann ist die Wahrscheinlichkeit dafür, dass beide jeweils zusammen in eine Zelle fallen, sicherlich größer als wären sie nicht gekoppelt. In Umkehrung dieser Überlegung würde eine Überprüfung der Zelleninhalte demnach aufgrund der so feststellbaren Häufigkeiten gleichzeitiger Vorkommen von k und k¢ die Grundlage bilden können für die Berechnung ihrer Wahrscheinlichkeit. Erst daraus kann auf die Intensität einer möglicherweise vorhandenen Bindung (Affinität) oder Abstoßung (Repugnanz) zwischen k und k¢ formal geschlossen werden. - Genau dies vermag ein Koeffizient zu leisten, der in Anlehnung an einen in der Statistik gebräuchlichen Korrelations-Koeffizienten für die hier vorliegende besondere Fragestellung entwickelt wurde:

Der sogenannte  A f f i n i t ä t s - K o e f f i z i e n t  (Affko) skk¢ gibt dabei an, mit welchen Intensitätsgraden welche Womos einander in den analysierten Texten vornehmlich zugeordnet sind. Dabei errechnet sich die Affinität bzw. Repugnanz zwischen zwei Womos k und k¢ nach folgender Formel:

Darin bedeuten:

Analog zu skk¢ lassen sich nun zu einem abfragbaren und jeweils festzuhaltenden Womo k, das dann als Start-Motiv (Stamo) bezeichnet wird, die Affko-Werte aller übrigen Womos k¢, die dann als Ziel-Motive (Zimos) bezeichnet werden, berechnen. Aus den so ermittelten Index-Werten, die alle zwischen -1 und +I liegen, wurden der Konzentration auf wichtigste Beziehungen halber aus den insgesamt jeweils 300 die 50 absolut größten Werte herausgegriffen, danach erst nach abnehmender Größe im positiven und negativen Bereich geordnet, mit Rangziffern versehen und in Listenform unter dem abgefragten Stamo ausgedruckt. Diese jeweils 50 Zimos biden das, was im folgenden das kontextuelle Umgebungsfeld eines Stamos genannt wird2. Für jedes abgefragte Stamo lassen sich auf diese Weise drei, den drei Publ-Gruppen entsprechende Umgebungsfelder errechnen, die in synoptischem Parallel-Druck nebeneinander Konstanz und/oder Veränderung in der Zusammensetzung der Umgebungen über rund 150 Jahre hinweg leicht erkennen lassen.

Abb. 1

Abb. 2

In Abb. 1 und Abb. 2 sind zur Verdeutlichung zwei gegenüberliegende Seiten im Affinitäts-Lexikon abgedruckt, die beide das Umgebungsfeld des Stamo STRASSE wiedergeben. Abb. 1 führt in jeder der drei, den drei Publ-Gruppen entsprechenden Kolonnen die das Umgebungsfeld bildenden Zimos auf, jedoch in alphabetischer Reihenfolge. Dadurch wird das Auffinden gleicher Zimos in den Umgebungen verschiedener Publ-Gruppen erleichtert. Abb. 2 führt diese Zimos ebenfalls, nun jedoch in der Reihenfolge ihrer abnehmenden Index-Werte geordnet, in den drei parallel vergleichbaren Kolonnen auf, wobei vor dem jeweiligen Zimo dessen Rangziffer erscheint, während der zugehörige Index-Wert (bei dem Nullen vor dem Komma nicht ausgedruckt wurden) nachfolgt.

Überblickt man die drei Umgebungsfelder (Abb. 2), so fällt zunächst auf, daß sich - klar abgesetzt - Entsprechungen jeweils im positiven und im negativen Bereich der Index-Werte ergeben. Für die Publ-Gruppen 1 und 2 sind dies: KLINGEN, WAGEN, FENSTER, GESICHT, DACH, KIRCHE, ALT, GLOCKE; für die Publ-Gruppen 2 und 3: STADT, WAGEN, HAUS, FENSTER, KIRCHE, DACH; für die Publ-Gruppen 1 und 3: WAGEN, FENSTER, FUSS, MÜDIGKEIT, KIRCHE, DACH im positiven Bereich, so daß sich, als in den Umgebungen aller drei Publ-Gruppen vertreten, folgende Zimos ergeben: WAGEN, FENSTER, KIRCHE, DACH (mit allerdings recht unterschiedlichen Umgebungs-Rangziffern).

Ähnliche Entsprechungen lassen sich im negativen Bereich feststellen, wenngleich weniger zahlreich; Übergänge vom positiven in den negativen Bereich der Umgebungsfelder sind verhältnismäßig selten und meist nur beim Vergleich der Publ-Gruppen 1 und 3 zu beobachten.

Zum Schluß noch eine kurze Bemerkung zur hohen Affinität der Womos HORN/TROMPETE und KLINGEN im Umgebungsfeld von STRASSE der Publ-Gruppe 1: dieser zunächst überraschende Sachverhalt wird leicht verständlich, wenn man bedenkt, daß die um 1822 bis 1843 entstandenen Gedichte weitgehend einem noch romantischen Straßenbild entsprachen, in dem die Postkutsche (WAGEN), das Posthorn (HORN/TROMPETE) und dessen KLINGEN nicht fehlten. In Analogie dazu erscheint - einem gewandelten Vorstellungsbereich STRASSE entsprechend - im Umgebungsfeld der Publ-Gruppe 3 neben KIRCHE und HAUS das Zimo ASPHALT auf dem dritten Rang des positiven Bereichs.


Footnotes:

* Erschienen in: Schanze, H. (Hrsg.): Literatur und Datenverarbeitung (Berichtsband der internationalen Tagung zur 100-Jahr-Feier der RWTH Aachen). Tübingen (M. Niemeyer) 1970, S. 123-130

1B. Rieger: Poetae Studiosi. Analysen studentischer Lyrik des 19. und 20. Jahrhunderts. Ein Beitrag zur exaktwissenschaftlichen Erforschung literarischer Massenphänomene. Frankfurt/M.: Thesen 1970.

2Diese Anordnung der skk¢ erlaubt in der Tendenz die Interpretation von abnehmender Affinität und zunehmender Repugnanz, wobei die ermittelten Index-Werte einzig zur Zuweisung der Rangziffern, bislang aber noch nicht zur Grundlage eines diachronen Vergleichs dienen können. Voraussetzung dafür wären Signifikanz-Tests, die bisher noch nicht vorgenommen werden konnten, obwohl die theoretische Verteilung von s inzwischen berechnet wurde. Eine eingehende Untersuchung der mathematisch-statistischen Problematik wird z.Z. von B.H.D. Dangerman ausgearbeitet und wird zusammen mit dem Lexikon (SAL) voraussichtlich 1972 erscheinen.