1. Untersuchungen von Sprachproduktions- und
Verstehensprozessen werden im Rahmen der experimentellen
Psychologie und Kognitionstheorie, der künstlichen
Intelligenz-Forschung und auch der linguistischen Semantik
unternommen. Bei aller durch Problemstellung, methodischen Angang
und analysierten Gegenstand der verschiedenen Disziplinen
bedingten Unterschiedlichkeit der bisher vorliegenden
Lösungsansätze lassen sich mindestens zwei - weitgehend noch
separate, aber erkennbar schon konvergierende Tendenzen ausmachen:
die zunehmende Bedeutung prozeduraler Verfahren bei der
Repräsentation, Explikation und/oder Simulation von
sprachverarbeitenden Prozessen und der dabei - explizit oder
implizit gemachte Gebrauch von Wissensbasen.
Unter Wissensbasen sollen im folgenden übergreifend die nach
Umfang, Komplexität und Aufbau zum Teil sehr unterschiedlich
organisierten semantischen Informationen verstanden werden, die in
der Regel als Zusammenhangsstrukturen von sprachlichen Termen und
deren Bedeutungen dargestellt sind. Sie begegnen in der
Psychologie als Gedächtnismodelle, in natürlich-sprachlichen
Systemen der künstlichen Intelligenz als Sprach- und Weltwissen
und zum Teil auch in der Linguistik als Lexikonstrukturen in
unterschiedlichen Repräsentationsformen.
Als prozedural werden im folgenden jene Ansätze bezeichnet,
die bestimmte Entitäten (hier: Bedeutungen, Begriffe, Konzepte,
etc.) und deren Zusammenhänge nicht - oder nicht primär - als so
und nicht anders vorliegende Gegebenheiten verstehen, sondern als
zwar so beobachtete, aber möglicherweise auch anders realisierbare
Resultate von semiotischen Prozessen deuten (Rieger 1977). Dem
entspricht, daß sie Bedeutung nicht mengentheoretisch aufgrund
vorliegender oder abwesender extensional bestimmter
Merkmalsklassen beschreiben, bzw. durch deren Abstraktionen nach
intensional bestimmten Eigenschaften unterscheiden, sondern - als
(mehr oder weniger stabile) Resultate von Kognitionsprozessen -
Bedeutung über Abstraktionen von Eigenschaften, d.h. über
Prozeduren abzubilden suchen.
In Weiterführung dieses Gedankens von Suppes (1980) ließen sich
demnach prozedurale Wissensbasen konzipieren, zu deren
Aufbau - je nach gewählter Beschreibungsebene - unterscheidbare
Merkmale, Eigenschaften, Relationen und Objekte nicht mehr
vorausgesetzt zu werden brauchten, sondern als Werte von zu
definierenden Prozeduren - je nach den zugrundeliegenden Daten -
vom Modell selbst würden konstituiert werden können.
Die im folgenden (2.) zu skizzierende empirische Rekonstruktion
von Wortbedeutungen als Prozedur zielt in diese Richtung. Hierzu
wird zunächst (2.1) eine aus dem Wortgebrauch in Texten sich
aufbauende (assoziative) Wissensstruktur algorithmisch
rekonstruiert und formal als (metrische) Raumstruktur
repräsentiert. Auf deren Bedeutungselementen kann sodann (2.2) ein
Algorithmus operieren, der - je nach Aspekt, Kontext und
Wissensbasis - den Bedeutungsgehalt eines Wortes als
Abhängigkeitsstruktur (Dependenz) prozedural modelliert.
Abschließend (3.) sollen zwei Beispiele diesen
Rekonstruktionsansatz illustrieren.
2. Die semantischen Repräsentationssysteme, die im Rahmen
der einschlägigen Forschungen der künstlichen Intelligenz
(Cercone/Goebel 1981), der Kognitionstheorie und der
experimentellen Psychologie (Wettler 1980) zur Darstellung
strukturierten Wissens bzw. zur Modellierung von
Gedächtnisstrukturen entwickelt wurden, bilden Bedeutungen und
deren Zusammenhänge formal als gerichtete Graphen ab. Sie bestehen
im wesentlichen aus Mengen von Knoten (Elementen) und Kanten
(Relationen) sowie Vorschriften, wonach jeder benannten Kante
genau zwei (gleiche oder verschiedene) benannte Knoten zugeordnet
sind. Dabei repräsentieren die Knoten einzelne Bedeutungen,
Begriffe, Konzepte, etc., die verbindenden Kanten die zwischen
ihnen bestehenden semantischen, begrifflichen und/oder logischen
Beziehungen. Die Vorschriften entsprechen den Verfahren, die
angewendet wurden, um zu entscheiden, welche semantischen
Beziehungen welchen Bedeutungen zuzuordnen sind (network type),
welche Bedeutungen miteinander größere Einheiten bilden (frame
type) oder welche Bedeutungen zusammen mit Regeln neue Bedeutungen
bilden (production type).
Die als semantische Netze, Frames oder Produktionssysteme
strukturierten Wissensbasen referentieller und zum Teil auch
struktureller Bedeutungen wurden für die unterschiedlichsten Sach-
und Gegenstandsbereiche erstellt. Sie finden zur Interpretation
von sprachlichen Eingabeketten bzw. zur Steuerung der Bildung von
Ausgabeketten ihre Anwendung in natürlichsprachlichen Dialog- und
Frage-Antwort-Systemen (Fauser/Rathke 1981).
Der Aufbau dieser Wissensbasen und die Erhebung der dazu
notwendigen sprachlichen Daten geschieht dabei introspektiv. Nicht
eine empirisch-linguistische Analyse von relevanten Texten,
sondern das sprachliche Vermögen und/oder Weltwissen des
jeweiligen Systementwicklers selbst bzw. von dazu befragten
Experten bilden die Grundlage der Wissens- und
Bedeutungsrepräsentationen. Damit bleiben derart aufgebaute
Wissensbasen und -Modelle jedoch nicht nur auf einen, durch die
jeweiligen Experten abgedeckten Ausschnitt des gesamten Welt- und
Sprachwissens beschränkt (was für anwendungsorientierte Systeme
eher als vorteilhaft gelten kann), sondern dieser Ausschnitt wird
darüber hinaus noch eingeschränkt durch die Abbildung von
Strukturen ausschließlich deklarativen Wissens. Anders als
assoziative Gedächtnisinhalte, die - wenn überhaupt - in ihrem
Aufbau und Zustandekommen nur prozedural explizierbar erscheinen,
wird deklaratives Wissen - zumindest in wesentlichen Teilen -
weitgehend statisch in seinem Vorhandensein und Bestehen
repräsentiert (was zunehmend als ein theoretisch begründeter und
praktisch sich auswirkender Nachteil dieser Modelle erkannt
wird).
Als deklarativ soll hier dasjenige Wissen gelten, dessen
Strukturierung und Modellierung einzig durch Bedeutungsbeziehungen
erfolgt, die vermöge der zur Verfügung stehenden Namen oder
sprachlichen Ausdrücke unterschieden, benannt und deshalb auch
introspektiv gewonnen werden können. Dieses Wissen betrifft
vornehmlich die externe Wirklichkeit und umfaßt überindividuelle,
kanonisierte Zusammenhänge, die als Sach- und Fachwissen,
Teil-Ganzes-Beziehungen, Unter-Oberbegriffs-Hierarchien,
konzeptuelle und kategoriale Selektionsbeschränkungen,
Tiefenkasus, etc. strukturiert werden können. Derartige
Repräsentationen von Bedeutungen in diskreten Modellen erleichtern
zwar die Suche, Identifikation und gegebenenfalls Interpretation
von Bedeutungszusammenhängen (Knoten und Kanten) in bestimmten
Eingabeketten. Sie versagt jedoch, wenn beispielsweise nicht
identische, sondern unvollständige oder modifizierte Eingaben als
den gespeicherten ähnliche Repräsentationen automatisch erkannt,
gesucht und gefunden oder auch verändert werden sollen. Will so
organisiertes Wissen und seine Modellierung in Graphen und Netzen
die Abbildung unscharf gegebener Bedeutungen nicht vorsieht,
stellen automatische Veränderungen des Wissens (Lernen und
Vergessen) sowie die Variation von Bedeutungen derzeit für diese
Modellstrukturen die größten Probleme dar, obwohl die Simulation
gerade dieser Prozesse für die adäquate Verarbeitung
natürlich-sprachlicher Informationen grundlegend sein dürfte
(Zadeh 1981).
Im Unterschied zur Struktur des sogenannten deklarativen Wissens
bezeichnet die assoziative Bedeutungsbeziehung ein
Organisationsprinzip, das Erfahrungs- und Wissensbestandteile
einander so zuordnet, daß ihre größere oder geringere inhaltliche
Verwandtschaft oder Ähnlichkeit einer kleineren oder größeren
Entfernung voneinander entspricht. Diese nicht deklarativ
explizierbare (sondern nur rekonstruktiv beschreibbare)
Bedeutungsbeziehung erscheint in ihrer unspezifischen
Allgemeinheit nur von besonderen Bedingungen des Wissensstandes,
der Ko- und Kontexte, des Aspekts, etc. gesteuert. Wie
kognitionstheoretische Experimente aber hinreichend verdeutlichen
konnten (Johnson-Laird/Wason 1977; Estes 1976), sind assoziative
Bedeutungsbeziehungen nicht nur nicht zufällig, sondern überaus
systembildend und für die primäre Strukturierung von
Erfahrungswissen von Welt konstitutiv (Wilson 1980). Diese
Strukturierungsleistung kann nur prozedural modelliert werden
(Harnard 1982).
Die Aufgabe stellt sich daher nicht in der übergreifenden
Klassifizierung der vielfältigen inhaltlichen Einflußgrößen,
sondern darin, ein Konstitutionsprinizip der Inhalte und ihrer
Bedeutungsbeziehungen für deren dynamische Rekonstruktion im
Modell zu nutzen. Dies scheint möglich über den in assoziativen
Zuordnungen sich konstituierenden Zusammenhang des Ganzen. Eine
solche auf dem Systemzusammenhang aufbauende Modellbildung kann
dabei vorteilhaft Gebrauch machen von dem (holistischen) Prinzip
der ´strukturellen Kennzeichnung' (Carnap 1928). Danach ist jedes
Element des Systems durch seine Beziehungen zu sämtlichen anderen
Elementen des gleichen Systems nicht nur eindeutig bestimmbar,
ohne daß es einer systemexternen Spezifizierung dieser
Beziehungsstruktur bedürfte, sondern diese Beziehungsstruktur ist
auch von jedem Element des Systems aus zugänglich. Damit bietet
es sich als Modellvorstellung assoziativer Bedeutungsstrukturen
an, zumal die quantitative Linguistik hierzu - anders als die
experimentellen Ansätze der psychologischen Assoziationstheorien
- kommunikationstheoretisch fundierte, empirisch adäquatere, weil
nicht introspektiv gewonnene Daten bereitstellt (Rieger 1981 a).
Dieser Ansatz führt zu einer modell-theoretisch wie
verarbeitungs-praktischen Unterscheidung des Aufbaus zunächst
einer distanz-relationalen Basis von Wissensbausteinen
(Bedeutungselementen), auf der sodann die diese Bausteine
verbindende Beziehung (Dependenzrelation) durch algorithmisch
wohldefinierte, aber von der Basisstruktur des Systemzusammenhangs
gesteuerte Prozeduren erst induziert wird (Rieger 1981 b).
2.1 Als Grundlage für die Ermittlung von Bedeutungspunkten
und des durch sie repräsentierten assoziativen Systemzusammenhangs
fungieren wie anderswo näher ausgeführt - die
Verwendungsregularitäten von Wörtern in Mengen von
(pragmatisch-homogenen) Texten eines Sach- und
Gegenstandsbereichs. Die in solchen Textmengen sich
herausbildenden Regelhaftigkeiten in der Verwendung von Wörtern,
Lexemen bzw. lemmatisierten Morphemgruppen in Zeichenketten werden
über quantitativ-statistische Analysen ermittelt. Generell
beobachtbare Zuordnungsregularitäten zwischen ko-okkurrierenden
Zeichen in Texten, die sich vor dem Hintergrund des Zufalls als
Korrelationen kontinuierlich zunehmender Determiniertheit deuten
und messen lassen, können so in quantitativen Ausdrücken graduell
beliebig präzise erfaßt werden. Sie stellen die numerische
Grundlage der Wertverläufe von Abbildungen dar, welche einzelnen
Lexikoneinträgen über dem Vorbereich aller verwendeten Wörter
unscharfe Tellmengen des Vokabulars zuordnen lassen, und zwar als
Funktion der numerisch spezifizierten Verwendungsregularitäten
dieser Wörter im analysierten Textcorpus (Rieger 1981a). Die so
entstehende Menge von unscharfen Teilmengen kann topologisch als
metrische Datenstruktur (semantischer Raum) gedeutet werden. Die
Elemente (Bedeutungspunkte) repräsentieren vage Bedeutungen als
stereotypische Unterschiede von kontinuierlich variierenden
Verwendungsregularitäten von Wörtern. Die unterschiedlichen
Distanzen dieser Bedeutungspunkte zueinander bilden Punkthäufungen
und Cluster, deren Zusammensetzung es nahelegt, von einem durch
sie strukturierten Ausschnitt des betreffenden assoziativen
Wissens zu sprechen (Rieger 1982b).
2.2 Die Verarbeitung symmetrisch-relationaler
Datenstrukturen, wie sie das topologische Modell des semantischen
Raumes bereitstellt, ist problematisch, da bestimmte
Suchprozeduren zur Lösung von Retrieval- und Inferenz-Aufgaben
nicht angewendet werden können. Um diesen Nachteil zu beheben,
sind die distanzartigen Daten des semantischen Raumes in eine
nicht-symmetrische, relationale Datenkonfiguration zu transformieren.
Unter Aufnahme von Überlegungen zur Gedächtnisstruktur (Cofer
1976) und Theorien über die sich ausbreitende Aktivierung
abhängiger Tellstrukturen (priming) in Netzwerken (Collins/Loftus
1975), wurde nach dem CDS-Algorithmus zur Ermittlung konnotativer
Dependenzstrukturen (Rieger 1981b) und der auf ihnen definierten
Such- und Mergeprozeduren (Rieger 1982a) ein weiterer Algorithmus
entwickelt, der ebenfalls auf den bisher vorliegenden Daten
operiert. Er produziert quasi die Abwicklung einer n-dimensionalen
Raumposition auf einen n-ären gerichteten Baumgraphen.
Durch Anregung eines Bedeutungspunktes im semantischen Raum
gestartet, ermittelt diese neue Prozedur die jeweils
nächstbenachbarten Bedeutungspunkte. Deren kleinste Distanzen
zueinander bestimmen, welche Punkte welchen schon ermittelten
Punkten untergeordnet werden und zwar in der Rangfolge zunehmender
Abstände vom Startpunkt. Wiederholte Anwendung dieser Methode der
kleinsten Distanzen auf den so jeweils ermittelten Punkten führt
zum Aufbau eines vom Startpunkt abhängigen Ausschnitts aus dem
Strukturzusammenhang des semantischen Raumes. Indem der
Algorithmus derart sämtliche Punkte im Raum abarbeitet, überführt
er herrschende Bedeutungsähnlichkeiten in eine binäre,
nicht-symmetrische, transitive Relation assoziativ-semantischer
Dependenz. Diese erlaubt es, die Bedeutungspunkte als Knoten in
Form eines n-ären Baumes zu organisieren, der assoziative
Dependenzstruktur (ADS) einer Ausgangsbedeutung über einem
Fragment einer Wissensbasis (semantischer Raum) heiße.
Zur Illustration der Arbeitsweise des ADS-Atgorithmus bietet die
Abbildung 1 eine willkürlich gewählte (zweidimensionale)
distanzrelationale Punktkonfiguration als Ausgangsbasis, die hier
ein Fragment des n-dimensionalen semantischen Raumes
veranschauliche. Aus diesem Fragment wählt nun der Algorithmus der
kleinsten Distanzen unterschiedliche - vom jeweiligen Startpunkt
abhängige - Teilstrukturen aus, deren ermittelte Dependenzen für
die Startpunkte a, b und c in Abbildung 2 als Pfeile
eingezeichnet sind, wobei deren kleinere oder größere Länge ein
direktes Maß der höheren oder geringeren Abhängigkeit darstellt.
Zusätzlich dazu sind die zugehörigen Baumgraphen wiedergegeben,
die für die Abbildung höher dimensionierter Dependenzstrukturen
geeigneter sind.
Die durch den Algorithmus der kleinsten Distanzen auf der Basis des semantischen Raumes aufgebauten Dependenzstrukturen können als Ermittlung eines Bedeutungszusammenhangs assoziativer Abhängigkeitsbeziehungen verstanden werden. Als solche bilden sie den Rahmen, innerhalb dessen bei Anregung eines Bedeutungspunktes (Knotens) sich eine Aktivierung abhängiger Punkte entlang der ermittelten Verbindungen ausbreitet. Damit stellen die ADS-Bäume aspekt- und bedeutungsabhängige Pläne möglicher assoziativer Aktivierung dar. Auf ein und derselben Basisstruktur generiert, machen sie so - je nach Startpunkt unterschiedliche - Teilstrukturen und Zusammenhänge des semantischen Raums den aspekt- und strukturgeleiteten Suchstrategien und Retrievalverfahren zugänglich. Sie bilden daher eine der Voraussetzungen für die empirisch abgesicherte und dabei operable Simulation von Prozessen des analogen Schließens durch automatische Verfahren, die im Unterschied zu denen des logischen Schließens auch unscharf definierte, vage Bedeutungen präzise verarbeiten können.
3. Zur abschließenden Veranschaulichung der Arbeitsweise
des Algorithmus auf einer konkreten Datenbasis sollen zwei
Beispiele vorgelegt werden.
Dabei handelt es sich um die Daten des semantischen Raums, der
aufgrund der Analyse einer Zufallsauswahl von Texten der Berliner
Ausgabe der Tageszeitung Die Welt (Jahrgang 1964, 1. und 2.
Seiten jeder Nummer) berechnet wurde. Als Startpunkte wurden
ARBEIT und INDUSTRIE gewählt, die - nach
jeweils 50 ermittelten Punkten abbrechend - zum Aufbau der in
Abb. 3 und Abb. 4 wiedergegebenen Dependenzstrukturen
führten.
Jeder Knoten (Bedeutungspunkt) in diesen Bäumen ist dabei durch
seinen Namen (Label) sowie seinen Distanzwert zum übergeordneten
Knoten repräsentiert. Aus darstellungstechnischen Gründen sind
verzweigende Nebenordnungen horizontal, direkte Unterordnungen
vertikal aufgeführt.
Vergleiche der wechselseitigen Abhängigkeitspfade etwa von
ARBEIT und INDUSTRIE sowie deren Kommentierung, die hier
aus Platzgründen unterbleiben müssen, mögen den geneigten Leser
zur Eigenaktivierung dieser Dependenzen anregen.
Abb. 3: Assoziative Dependenzstruktur (ADS) von ARBEIT über einem Fragment (50 Punkte) des semantischen Raumes der Welt-Zeitungstexte von 1964.
Abb. 4: Assoziative Dependenzstruktur (ADS) von INDUSTRIE über einem Fragment (50 Punkte) des semantischen Raumes der Welt-Zeitungstexte von 1964.
1In: Klaus Oehler (Hrsg.): Zeichen
und Realität: Akten des 3. Semiotischen Kolloquiums der Deutschen
Gesellschaft für Semiotik e.V., Hamburg 1981, Stauffenburg
Verlag, Tübingen, 1984
Die hier dargelegten Vorstellungen wurden zum Teil im Rahmen eines
Forschungsprojekts der linguistischen Datenverarbeitung
entwickelt, das vom Minister für Wissenschaft und Forschung des
Landes Nordrhein-Westfalen (IV A 2 - FA 8600) gefördert wird.