Burghard Rieger: Unscharfe Semantik

Kurzfassung

Computerlinguistische Forschungen zur natürlich-sprachlichen Semantik gewinnen zunehmend in einem Bereich an Bedeutung, der sich erst seit einigen Jahren abzuzeichnen beginnt und als Kognitionswissenschaft charakterisiert wird. Für diese neue Forschungsrichtung ist ein gemeinsames Interesse mehrerer Disziplinen an Problemen kennzeichnend, die mit Prozessen des Lernens von Bedeutungen, des Erwerbs von Kenntnissen und der Verfügbarkeit und Verarbeitung von Wissen verbunden sind. Die Beherrschung solcher Prozesse bildet die Grundlage intelligenten Verhaltens von (natürlichen wie künstlichen) Systemen, deren Erforschung zunächst fragmentarisch unter jeweils unterschiedlichen Modell- und Theorienbildungen weitgehend isoliert innerhalb der einzelnen Disziplinen erfolgte.

Die semantischen Repräsentationssysteme, die im Rahmen der einschlägigen Forschungen zur Künstlichen Intelligenz, der Kognitionstheorie und der experimentellen Psychologie im Hinblick auf die Darstellung strukturierten Wissens bzw. zur Modellierung von Gedächtnisstrukturen entwickelt wurden, bilden Bedeutungen und deren Zusammenhänge formal als gerichtete Graphen ab. Bei allen durch Themen-, Frage- und Problemstellung sowie den beschrittenen Lösungswegen diktierten Unterschieden, ist diesen Wissensrepräsentationen durchweg gemeinsam, daß sie die Kanten (Bedeutungsbeziehungen) zwischen ihren dargestellten Knoten (Bedeutungselementen) nach Art und Weise ihres Gegebenseins als statische und weitgehend unveränderliche Relationen auffassen.

Der Aufbau dieser Wissensrepräsentationen geschieht dabei intellektuell, d.h. durch Verfahren, welche auf das Verständnis bzw. die Sachkenntnis und/oder Fertigkeiten bei (einem oder mehreren) Spezialisten angewiesen sind. Die so ermittelbaren lexiko-semantischen wie begrifflich-logischen Informationen sind folglich vom sprachlichen Vermögen und/oder Weltwissen des jeweiligen Systementwicklers bzw. der von ihm befragten Spezialisten abhängig. Damit bleiben die auf derartigen Informationen aufgebauten Wissensbasen nicht nur auf den durch die jeweiligen Experten abgedeckten Ausschnitt des Sprach- und Weltwissens beschränkt, sondern diese introspektiv ermittelten Ausschnitte werden darüber hinaus noch eingeschränkt durch die vorgegebene (meist auf prädikaten-logische Form festgelegte) Struktur der Abbildung ausschließlich solchen Wissens, das propositional ausdrückbar ist. Daher sind derartige Repräsentationen nur begrenzt geeignet, die Unschärfen und Unbestimmtheiten von Wissen aufgrund unvollständiger oder unsicherer Kenntnislage, und deren Veränderungen aufgrund hinzukommender neuer oder überdeckter alter Bedeutungen adäquat darzustellen.

Neuere Entwicklungen auf kognitionswissenschaftlichem Gebiet zeigen jedoch, daß eine empirisch ausgerichtete computerlinguistische Semantikforschung einzelwissenschaftliche Ansätze auf diesem Gebiet integrieren und Lösungen gerade in bezug auf solche Probleme anbieten kann, die sich aus einer der augenfälligsten Besonderheiten natürlich-sprachlicher Bedeutungen als dem Resultat regelgeleiteter Verwendung von Sprachzeichen in Kommunikationssituationen ergeben: der Vagheit.

Nach der einleitenden, aus semiotischer Sicht formulierten Kritik an der strukturalistischen Statik linguistischer Theorien und Beschreibungsmodelle (Kapitel I) werden vor diesem Hintergrund im ersten Teil der Arbeit die zusätzlichen Begründungszusammenhänge für eine den Prozeß der Sprachverwendung einbeziehende empirische Modellbildung in der Semantik entwickelt, die sich aus den bisherigen Ergebnissen Kognitions-theoretischer und Informations-verarbeitender Forschungsansätze ergeben. In einem Überblick über die bisherige sprachphilosophische, sprachlogische und sprachwissenschaftliche Auseinandersetzung mit dem Phänomen semantischer Unschärfe (Kapitel II und III) und einer methodologischen Grundlegung Performanz-linguistischer Untersuchungen anhand statistischer Corpusanalyse, des Problems der Repräsentativität und des Computereinsatzes (Kapitel IV) wird nachfolgend eine kritische Bewertung der bisher einschlägigen Ergebnisse versucht (Kapitel V) die im Umkreis vornehmlich der experimentellen Psychologie mit ihrer Kognitions- und Verstehens-Forschung sowie der künstlichen Intelligenz mit ihren natürlich-sprachlichen Systemen und Modellen zur Wissensrepräsentation entstanden.

Die im zweiten Teil der Arbeit vorgestellte empirische Rekonstruktion von Wortbedeutungen als semantische Dispositionen unternimmt es, das Format stereotypischer Repräsentationen und die Möglichkeiten prozeduraler Bedeutungsbeschreibung zu verbinden mit empirisch-quantitativen Verfahren der Textanalyse. Hierzu wird zunächst der Rahmen eines (re-)konstruktiven Ansatzes prozeduraler Semantik skizziert (Kapitel VI) in dem die Konzeptionen der Dispositionsstruktur, der Frame-Theorie und der prototypischen Bedeutungsrepräsentation in ihren relevanten Aspekten diskutiert werden. Sie begründen ein auf dem Gebrauch von Wörtern in Texten aufgebautes Modell assoziativ strukturierten Bedeutungs- und Welt-Wissens, dessen formale Entwicklung (Kapitel VII) auf der Theorie der unscharfen (fuzzy) Mengen sowie der daraus abgeleiteten Referenzsemantiken basiert. Im Unterschied dazu (Kapitel VIII) bietet die statistische Analyse der Verwendungsregularitäten lexikalischer Einheiten in sprachlichen Texten die Möglichkeit eines empirischen Ansatzes der quantitativen Beschreibung von Wortbedeutungen als System. Diese (metrische) Raumstruktur des semantischen Raums gestattet es, seine Bedeutungselemente so zu repräsentieren, daß deren Positionen semantische Ähnlichkeiten darstellen. Auf ihnen können die Prozeduren (Kapitel IX) operieren, welche die Bedeutung eines sprachlichen Terms algorithmisch als eine Abhängigkeitsstruktur von relevanten Bedeutungselementen generieren. Sie liefert die – je nach variierenden Wissensbasen, Kontexten und Aspekten – unterschiedlichen, dabei veränderlichen semantischen Dispositionen. Diese können als Grundlage gelten nicht nur für eine perspektivische je nach inhaltlichem Aspekt variierende Abhängigkeits- und Relevanz-Beziehung zwischen Bedeutungskomponenten, wodurch gleichen Lexemen unterschiedliche Bedeutungen und/oder Interpretationen zugewiesen werden, sondern diese dynamischen und Aspekt-abhängigen Relevanzstrukturen können darüber hinaus auch – ähnlich den Mengen- und Begriffs-hierarchischen Beziehungen bei logisch-deduktiven Schlußprozessen – als Grundlage gelten für eine durch Inhalte gesteuerte algorithmische Simulation analog-assoziativer Folgerungen.

Beispiele aus der Untersuchung eines Corpus deutscher Zeitungstexte veranschaulichen abschließend die in dem hier beschriebenen und vorgestellten computerlinguistischen Analysesystem entwickelten Verfahren und Mechanismen.