Die von Frau Kathrin Gieseking im Fach Linguistische Datenverarbeitung (LDV) vorgelegte computerlinguistische Dissertation mit

Die Gieseking’sche Dissertation

Frequenzbasiertes Parsing als Modell meschlicher Syntaxanalyse

widmet sich einer sprachpsychologisch orientierten Thematik unter deutlich interdisziplinärer Problemstellung.

Die Charakterisierung der Strukturanalyse sprachlicher Äußerungen (Parsing) als eines bei muttersprachlichen Sprechern völlig automatisch ablaufenden, weitgehend reflexartig sich vollziehenden Prozesses stehen die computerlinguistischen Modellierungen dieses Prozesses gegenüber. Kompetenztheoretisch orientierte Computerlinguisten fassen diesen Prozeß – im Rahmen eines modularen Aufbaus menschlichen Sprachverstehens über alle semiotischen Ebenen hinweg – als (mehr oder weniger) bewußte syntaktische Verarbeitungsleistung auf. Danach wird einer linearen Abfolge sprachlicher Elemente (inkrementelle Eingabe) aufgrund eines regelbasierten Mechanismusses (Grammatik) eine formale Strukturbeschreibung (inkrementelle Ausgabe) zugeordnet, wobei es im Verlauf der Verarbeitung zum Aufbau von Strukturbeschreibungen (initial parse) kommt, welche bei fortschreitender Verarbeitung weiterer Eingabeteile sich als revisionsbedürftig erweisen können.

Performanztheoretisch motivierte computerlinguistische Modellierungen versuchen nun, diese Eigenschaft des Verarbeitungsmodells für syntaktische Strukturen mit Eigenschaften derjenigen Verarbeitungsweisen zu identifizieren, wie sie die experimentelle Sprachpsychologie für die menschliche Sprachverarbeitung (MSVA) herausgearbeitet hat. Grundlage solcher Identifikation bilden empirische Untersuchungen mit Testpersonen, die hierzu gezielt mit konstruiertem und isoliert dargebotenem Satzmaterial konfrontiert und unter wohldefinierten Aufgabenstellungen zur Verarbeitung dieses Materials aufgefordert wurden. Die so erhobenen Daten werden dabei gewöhnlich zur Überprüfung von Hypothesen herangezogen, welche eine bestimmte Verarbeitung der dem gewählten Grammatikmodell zugrundeliegenden Strukturen erst nahelegt, ohne den Status solcher Verarbeitungsstrukturen (Eigenschaft des Modells oder des Originals zu sein) zu berühren. Nun lassen die meisten dieser Studien ein wissenschaftstheoretische Reflexionsniveau vermissen, das es erlaubte, eine der ohnehin schwierigsten Entscheidungen in modellbasierten Disziplinen empirischer Wissenschaften zu fällen, nämlich wann eine Identifikation von Eigenschaften des Modells mit denen des zu modellierenden Originals gerechtfertigt erscheint und damit einen Erkenntnisgewinn begründet.

Vor diesem Hintergrund ist der computerlinguistische Neuansatz der Autorin einleuchtend und überzeugend, den in einigen Modellen sichtbaren – aber in den bisherigen Studien nicht thematisierten – Einfluß der Frequenz auf die syntaktischen Verarbeitungsweisen von Sätzen systematisch zu untersuchen und für ihre eigene Modellbildung fruchtbar zu machen. Ihre Überlegung, hierzu die empirischen Zeit- und Häufigkeitsparameter der psycholinguistischen Probandentests (erfahrungsbasierte Modelle) durch die Häufigkeitsausprägungen von wohldefinierten syntaktischen Strukturen zu ersetzen, welche in sehr großen Korpora (deutscher) Zeitungstexte belegt und damit auch quantitativ charakterisierbar sind (frequenzbasiertes Modell), kann daher aus der Sicht einer quantitativ arbeitenden Computerlinguistik durchaus als naheliegende und wissenschaftlich attraktive empirische Fundierung gewertet werden. Zu ihrer Erarbeitung hat sich die Autorin mit experimentalpsychologischen und kognitionswissenschaftlichen Methoden und Inhalten der Forschungen zum menschlichen Sprachverstehen – insbesondere der Modellierung von Satzverarbeitung – auseinandergesetzt und in beeindruckendem Umfang auch systematisiert und dargelegt. Gleichzeitig waren von ihr z.T. beträchtliche Programmentwicklungs- und Implementationsarbeiten zu leisten, die bei jeder computerlinguistischen Verarbeitung großer, schriftsprachlicher Datenmengen erforderlich werden.

Mit der vorliegenden Dissertation wird erstmals ein Überblick und eine kritische Evaluation bisheriger Modellentwicklungen zur menschlichen Satzverarbeitung geboten, der/die nicht nur syntaxtheoretisch über die verwendeten grammatikalischen Beschreibungsansätze (Prinzipienbasiertheit) motiviert ist, sondern anhand von quantitativen Analysen tatsächlichen Sprachgebrauchs (Erfahrungsbasiertheit) empirisch begründet wird. Aus der einsichtig formulierten Kritik an den bisherigen Ansätzen entwickelt die Autorin sodann ein eigenes, abstraktes Basismodell der menschlichen Satzverarbeitung (MSVA) mit einer neuen Komponente frequenzgesteuerter Parametrisierung (optimized frequency constraint) der Wahl und Verarbeitung syntaktischer (Teil-) Strukturen. Die aus diesem Modell abgeleiteten Vorhersagen zum Analyseverhalten scheinen – bei den gleichen Test- und Bewertungskriterien wie für die älteren Modelle – die Kernhypothese der Autorin zu bestätigen. Danach besteht ein Zusammenhang zwischen den Häufigkeiten bestimmter syntaktischer Konstruktionen, wie sie die Autorin in schriftsprachlichen Textkorpora beobachtet hat, mit den Geschwindigkeiten ihrer Verarbeitung durch den Menschen, die in sprachpsychologischen Experimenten gemessen wurden: „Häufige Lesarten ambiger Konstruktionen werden schneller verarbeitet als seltene.“ Die OFC-Komponente Giesekings erklärt, warum das so ist.