Burghard Rieger
Lehrstuhl für Computerlinguistik
Fachbereich II: Linguistische Datenverarbeitung
Universität Trier
Wenn man annimmt, daß Bedeutungen sprachlicher Einheiten als Resultate von Prozessen verstanden werden können, die nach dem Grundsatz meaning implies choice Beschränkungsfunktion haben, dann ist zu ihrer Modellierung zunächst zu klären, auf welcher Grundlage welche Wahlmöglichkeiten durch welche Prozesse eingeschränkt werden. Sodann ist - in einem nachfolgenden Überblick - aufzuzeigen, welche Möglichkeiten der Analyse und Repräsentation sich hierzu anbieten.
Während jener nämlich zu einer quantitativen Bestimmung von Information als Funktion der Anzahl der ausgeschlossenen Wahlmöglichkeiten Anlaß gab, geht es bei einer semiotischen Verallgemeinerung gerade um den qualitativen Aspekt, d.h. um die [inhaltliche] Frage nach Bedeutung als Funktion jener Wahlmöglichkeiten, die in Abhängigkeit von bestimmten Bedingungen, Voraussetzungen und Umständen überhaupt abgebaut werden können. (Rieger 1977, S.60)
2.2.1 Das läuft auf eine Zweistufigkeit hinaus, welche die
(Re-)Konstruktion von Wissensbasen betrifft, die Inhalte nicht
mehr symbolisch, sondern nach Struktur und Umfang solcher
Wahlmöglichkeiten repräsentieren, und geeignete, auf ihnen
operierende Prozeduren vorsehen, die durch relevante Auswahl
Struktur und Umfang einschränken und als Ergebnis entsprechend
repräsentieren. Derartige Repräsentationen unterliegen dabei
Veränderungen, die sich zum einen als das Ergebnis der Einwirkung
äußerer Einflüsse9 in den (re-)konstruierten Wissensbasen
niederschlagen und zum anderen auch als interne
Auswirkungen10 von
Auswahlprozessen ergeben, die als Algorithmen auf den Wissensbasen
operieren. Sowohl extern als auch intern angestoßene Einflüsse
bewirken derart Zustandsveränderungen (der Wissensbasis) des
künstlichen informationsverarbeitenden Systems, die in ihrem
Zusammenwirken Teil und Eigenschaft der Modellierung dessen sind,
was - im Original möglicherweise durchaus anders realisiert -
den semiotischen Prozeß der Konstitution und des Verstehens von
(natürlichsprachlichen) Bedeutungen durch Menschen ausmacht.
2.2.2 Daß die formale Repräsentation von Wissen eines der
zentralen Problembereiche bildete, die auch in der automatischen
Sprachverarbeitung der künstlichen Intelligenzforschung (KI)
thematisiert wurden, hat meist übersehen lassen, daß KI nicht
Sprachverstehen modelliert, sondern die maschinelle Verarbeitung
von komplexer Information, die ebenfalls als wissensbasierte
Prozesse konzipiert wurde. Zur Repräsentation des hierzu
erforderlichen (Welt- und/oder Sprach-)Wissens, das erstmals als
Kombination von Typen von Datenstrukturen mit den sie
interpretierenden Typen von Prozeduren modelliert wird, wurden -
und werden bis heute - die verschiedensten Formate, Strukturen
und Prozeduren als ihre Instantiierungen entwickelt und
eingesetzt, die in ebenso unterschiedlichen
programmiersprachlichen Implementationen intelligentes
Systemverhalten simulieren sollen11. Wissensrepräsentation
erscheint so als ein unterschiedlich instantiierbarer Typus von
Organisationsstruktur, durch die Paare ontisch verschiedener
Entitäten, die zueinander in Beziehung stehen oder treten
(können), formal als (binäre) Relationen repräsentiert werden.
Während aber Aufbau und Veränderungen von statischen
(nicht-lernenden) Wissensbasen mit symbolischen
Repräsentationsformaten durch die Systementwickler
vorgenommen werden (müssen), sind die auf verteilten,
sub-symbolischen Repräsentationen von Wissen operierenden
Verarbeitungsprozesse in den dynamischen (selbst-lernenden)
Strukturen geradezu durch die Zustandsänderung charakterisiert,
die sie als Ergebnis und
Resultat in der Wissensbasis bewirken.
Frühere Untersuchungen zur Analyse vager Bedeutungen [Rie81b,
Rie81c] sowie zur prozeduralen Verarbeitung unscharfer (
fuzzy) Bedeutungsrepräsentationen [Rie84, Rie85] verwenden solche
verteilten Repräsentationen aber mit symbolischer Identifikation.
Sie waren dabei von einer strukturalsemantischen Möglichkeit der
Verwendung der FST ausgegangen, die Zadeh in einem seiner
weniger zitierten Aufsätze [Zad71] auch für seinen
referenzsemantischen Ansatz schon angedeutet hatte. Danach
erlauben natürliche Sprachen - im Unterschied zu formalen
Sprachen und Notationssystemen - zwar keine präzise Kennzeichnung
ihrer Funktionen, weder auf der syntaktischen noch auf der
semantischen, geschweige denn auf der pragmatischen
Beschreibungsebene. Sie werden aber implizit von Äquivalenten
dieser Funktionen strukturiert, die als unscharfe Beschränkungen
(fuzzy constraints) im Rahmen eines dynamischen
Organisationsprinzips (elastic constraints, granulation)
expliziert werden können.
Diese unscharfe Relation L:={((z,x), mL(z,x))} induziert dabei eine zweiseitige Korrespondenz (Abb. 1) der unscharfen Beschränkungen, über die
2.3.2 Die Operationalisierung dieser formalen
Rekonstruktion stößt aber auf Schwierigkeiten, weil sie die
empirische Zugänglichkeit von T und U voraussetzt und die
Kenntnis der als mL bezeichneten Funktion. Diese sind in
aller Regel nicht gegeben, da außer für kleine Fragmente einer
natürlichen Sprache sowohl die Menge aller Terme als Potenzmenge
P(T) der grammatikalischen Verkettungen A(z) ihrer
Elemente z Î T als auch die (Teil-)Mengen X der Entitäten x
des Diskursuniversums x Î X Ì U, auf die mittels L
verwiesen wird, weder beobachtbar vorliegen noch generierbar sind.
Deshalb fehlen konkrete Vorstellungen auch darüber, welche
Koeffizienten den Funktionen mL und mL-1 zugeordnet
werden (können), die die faktische Messung von
Zugehörigkeitswerten ermöglichten14.
Eine Operationalisierung der FST-basierten, referenzsemantischen
Modellierungen steht jedenfalls noch aus, obwohl (oder weil) diese
zunächst ingenieurwissenschaftliche Anwendungsbereiche betrafen,
in denen ad hoc Festlegungen von m-Werten mit (bestenfalls)
intersubjektiver Plausibilität schon zu beachtlichen Erfolgen
gegenüber konkurrierenden klassischen Modellierungen
führten15.
Anwendungen der FST in der linguistischen Semantik ließen dagegen
früh vermuten [Rie74], daß M(z¢) bzw. D(x¢) referenzsemantisch
nicht unmittelbar gemessen werden könnten und deswegen als
mengentheoretische Komposition solcher unscharfer Relationen zu
rekonstruieren seien, für die empirisch-operationale Korrelate in
Form von zugänglichen Daten und operablen Meßfunktionen gefunden
werden können. Deren Ergebnisse [Rie89] funktionieren dabei - was
der Annahme einer granularen Struktur entspricht - wie
Zwischenrepräsentationen, aus denen sich die Relationen der
Referenz Ref Í L und der Beschreibung Dsc Í L-1 kompositorisch ableiten lassen (vgl. unten unter
3.3.1).
Das menschliche Vermögen zum effizienten Umgang mit Vagheit und Unschärfe ist durch ein Strukturierungsprinzip aller Prozesse menschlicher Kognition charakterisierbar, das sich exemplarisch in den Erscheinungsformen natürlichsprachlicher Bedeutungen, ihrer konzeptuellen Organisation und ihrer Verarbeitung (Produzieren und Verstehen von Propositionen) zeigt und sich im Kern als Informationsverarbeitung mit unscharfen Entitäten analysieren, explizieren und modellieren läßt. Als eine universelle Form ökonomischer Datenkompression sonst nicht bewältigbarer Signalfluten erscheint dieses Strukturierungsprinzip als variable Körnung oder elastische Granulation.
Informally, granulation of an object A results in a collection of granules of A, with a granule being a clump of objects (or points) which are drawn together by indistinguishability, similarity, proximity, or functionality. In this sense, the granules of a human body are the head, neck, arms, chest, etc. In turn, the granules of a head are the forehead, cheeks, nose, ears, eyes, hair, etc. In general, granulation is hierarchical in nature. [...] In human cognition, fuzziness of granules is a direct consequence of fuzziness of the concepts of indistinguishability, similarity, proximity, and functionality. Furthermore, it is entailed in the finite capacity of the human mind and sensory organs to resolve detail and store information. (Zadeh 1997, S.112f; Hervorhebungen - B.R.)
Granulation kann damit als ein abstrakter Typ von
Organisationsstruktur verstanden werden, deren Elemente und deren
Relationen zueinander unterspezifiziert sind und erst durch
Instantiierung festgelegt werden, von welcher Art die Elemente und
Relationen sind. Diese generalisierende Abstraktion erlaubt es,
traditionelle Wissensrepräsentationen, die mit Hilfe von
Teil-Ganzes-Beziehungen, Konstituenten-Konstitut-Relationen,
komponentielle Zerlegungen, semantische Markierungen, konzeptuelle
Dependenzen, etc. Gebrauch machen als Instanzen ebenso zu
subsumieren, wie die neueren, nicht-kategorialen und prozedural
definierenden Ansätze unscharfer, dynamisch veränderlicher und
kontextsensitiver
Modellierungen von Bedeutung und Wissen.
Unscharfe (fuzzy) Granulation als dynamisches,
kontextsensitives Organisationsprinzip erlaubt daher nicht nur
kognitiv höchst relevante Strukturierung von Umgebungsinformation,
sondern führt auch zu lexikalisch organisierten
Begriffszusammenhängen, auf deren Grundlage sich Konzepte
überhaupt erst sprachlich aktivieren (lexematische Identifikation)
und propositional kennzeichnen lassen (prädikative
Unterscheidung). Daß die systematische Verkettungen von
Propositionen zu Texten als Systemen unscharfer Beschränkungen
auch das, was sie einschränken, selbst konstituieren (können), ist
im Hinblick auf die Dynamik der sprachlichen
Bedeutungskonstitution [Rie77a] ebenso hervorzuheben wie
angesichts der Probleme einer algorithmischen Überführung der von
natürlichsprachlichen Zeichenketten aktivierten Konzeptstrukturen
in formale Bedeutungsrepräsentationen.
The point of departure in CW is the observation that in a natural language words play the role of labels of fuzzy granules. In computing with words, a proposition is viewed as an implicit fuzzy constraint on an implicit variable. The meaning of a proposition is the constraint which it represents. (Zadeh 97, S. 115)
Obwohl auch für Wörter gilt, daß ihre Bedeutungen die unscharfen
Beschränkungen sind, die durch sie repräsentiert werden, soll
dieser Zusammenhang zunächst an Propositionen verdeutlicht
werden.
3.1.2 Für Propositionen des allgemeinen Typs x is P,
wo x Î X Í U ein Element einer durch eine
(linguistische) Variable P bezeichneten unscharfen (Teil-) Menge
XP des (sprachunabhängigen) Referenzuniversums U und P der
sprachlicher Ausdruck derjenigen Eigenschaft oder Intension ist,
die dem Element x zugesprochen wird, wurden die folgenden zwei
Bestimmungen von Unschärfe als Unsicherheiten der Bewertung dieser
Prädikation unterschieden [Kli97]:
3.1.3 Versucht man diese beiden Bestimmungen von Unschärfe auf die in Abb.1 illustrierte wechselseitige Korrespondenz mL und mL-1 zu übertragen, so wird deutlich, daß - selbst ohne Berücksichtigung der unterschiedlichen Interpretation von P als sprachlich unscharfe, intensionale Eigenschaft XP Ì U und als scharfe extensionale Eigenschaft AP Ì U - durchaus nicht klar ist, wie sprachliche Elemente z Î T zu den Eigenschaften P in Beziehung stehen, die Teilmengen X Î U einschränken. Der Unklarheit entspricht eine offensichtliche Asymmetrie in der Fundierung von Unschärfe in unterschiedlichen - aber nicht unterschiedenen - (Wissens-)Repräsentations- bzw. Operationsbasen. Um diese zu verdeutlichen, sind (in Abb.2) neben der Menge sprachlicher Terme T und des Diskursuniversums U noch das System konzeptueller Strukturen als Zwischenrepräsentation MS sowie die Menge der Meßoperationen FM ergänzend hinzugefügt. Sie stellen notwendige - aber so bisher nicht explizit eingeführte - Vermittlungsebenen dar für die adäquate Erklärung der jeweiligen Zusammenhänge zwischen
Damit läßt sich zumindest eine erste Klärung der begrifflichen Unterscheidungen und der ihnen zugeordneten mengentheoretischen Konstruktionen herbeiführen, die in den auf FST und FL fußenden referenzsemantischen Anwendungen bisher unterblieb. Weiterhin ungeklärt bleibt an diesem Punkt, wie eine prozedurale Rekonstruktion der in MS postulierten Strukturen - außer durch introspektiven Rekurs auf das Sprachvermögen des kompetenten Sprechers, der natürlichsprachliche Ausdrücke versteht, ehe er sie umformt - aussehen könnte23.
3.1.4 Die für realistische Semantiktheorien konstitutive Referenz wird demnach als mengentheoretische Komposition Dn°Ds rekonstruiert werden müssen
Aus diesen Definitionen wird ersichtlich, daß die referenzsemantische Modellierung der Denotation einer sprachlich unscharf bezeichneten Eigenschaft oder Intension P als mXP(x) Î Dn, ebenso wie die Bewertung mx( AP) Î Bf, die den Grad angibt, mit dem die sprachliche Kennzeichnung P einer bekannten Eigenschaft von x Î AP Ì U zukommt, auf Strukturen (oder Zwischenrepräsentationen) MS und FM angewiesen sind, die dem konzeptuell strukturierten Wissen entsprechen, das die Zuordnungen zu machen erlaubt. Es ist also zu fragen, ob - und wenn ja wie - diese als Resultate von Prozessen modelliert werden können, denen Prozeduren zugrunde liegen, die es nicht nur zu entwickeln sondern (über ihre Algorithmisierung und Programmierung) auch zu implementieren gilt, damit eine solche prozedurale Modellierung der Bedeutungskonstitution im Rechner realisiert werden kann. Denn für ein eher semiotisch-kognitives Verständnis von Informationsverarbeitung, als dessen Kern die Bedeutungskonstitution [Rie77a] identifiziert wurde, bildet die Modellierung des Übergangs (der Assoziation, Zuordnung, Verbindung) von den sprachlichen Zeichen zu den durch sie designierten Konzeptstrukturen und deren Denotate im Diskursuniversum das Zentrum des (re-)konstruktiven Interesses.
In Erweiterung des Grundgedankens der Explikation von Bedeutung
als Beschränkung, wonach der (kognitive) Prozeß des Verstehens als
Abbau vorhandener Ungewißheiten oder Wahlmöglichkeiten sich deuten
läßt, war gerade im Zusammenhang der FST- und FL-basierten
Bedeutungs- und Wissensrepräsentation eine weitreichende
Verallgemeinerung dieser Beschränkungsfunktionen [Zad86]
vorgeschlagen worden. Diese Neufassung versucht dabei nicht nur
verschiedene Quellen referenzieller Unschärfe zu erfassen, sondern
läßt möglicherweise auch solche Fälle struktureller Ungewißheit
einbeziehen, die eher in der Spezifik natürlichsprachlicher
Strukturen und ihrer semiotischen Funktionen begründet sind.
Die Formulierung der verallgemeinerten Beschränkung (
generalized constraint) im Rahmen der TFIG [Zad97] besteht in
einer funktionalen Ergänzung der Kopula mit einer modifizierenden
Typenvariable, welche mögliche Interpretationen steuert. Hierdurch
wird die semantische Ausdrucksstärke propositionaler Prädikationen
beträchtlich erweitert, so daß deren herkömmliche
Wahrheitsfunktionalität nurmehr eine der Instantiierungen
semantischer Bewertbarkeit (unter vielen anderen) bildet.
3.2.1 Sei X eine Variable, die Werte im
(sprachunabhängigen) Universums x Î U annimmt, dann ist X isr R der propositionale Ausdruck der verallgemeinerten
Beschränkung (generalized constraint), der angibt, wie die
Werte von X durch die Relation R über die variable Kopula
isr eingeschränkt werden. Dabei ist der Typ
r={e,Æ,v,p} eine diskrete Variable, deren Wert die Art
der Beschränkung festlegt, wie die Relation R, die als eine
Teilmenge der konzeptualisierten Wissensstruktur zu verstehen ist,
die Werte von X restringiert. ZADEH [Zad96, 12ff]
unterscheidet zahlreiche Instantiierungen solcher
constraints, von denen hier exemplarisch nur vier vorgestellt
werden sollen:
gleichbedeutend ist mit X=a, d.h. X ist (gleich) a.
soviel bedeutet wie R wird als graduelle Wahrheitsverteilung von X={x1,x2,¼,xn} interpretiert, oder genauer X isv R® Ver{X=u}=mR(u),u Î U, d.h. X ist wahr mit den Werten mR(u1)+mR(u2)+¼mR(un) .
3.2.2 Diese typisierte Erweiterung bedeutungserklärender Propositionen bietet - als verallgemeinerte Neuformulierung der Grundidee, wonach Bedeutungsexplikation durch Angabe der Beschränkungen von Wahlmöglichkeiten geleistet wird - einen vereinheitlichenden Rahmen. Um zu verdeutlichen (Abb. 3), daß die Instantiierungen von r dabei nicht die strukturelle Unschärfe der Referenzrelation
selbst betrifft, sondern die Art und Weise, wie eine Instanz r von r den prädikativen Modus der Kopula verändert, erscheint r als eine Produktvariable, welche der Komposition mL, nicht die sie konstituierenden Relationen modifiziert, so daß
Obwohl eine prozedurale Formulierung der Instanzen r von r nicht zu erwarten ist, wird gleichwohl mit der beschriebenen konstruktiven Erweiterung der prädikativen Ausdrucksstärke der Kopula erstmals die Bedingung dafür geschaffen, die explikative Nutzung der Prädikation von der Modellierung des Prozesses zu unterscheiden, durch den der Prädikation diese Qualität in unterschiedlicher Weiser zukommt: Prädikation wird zu einer sehr allgemeinen Art (Typ) von (ontologischer) Eigenschaftszuschreibung erklärt, die durch (ontisch) unterschiedliche Zuordnungsweisen (Instanzen) realisiert erscheint. Diese übergreifende Vereinheitlichung eröffnet - wie unten unter 4.2 gezeigt wird - die Chance, Sichtweisen und Ergebnisse referenzsemantischer und strukturalsemantische Ansätze miteinander zu verbinden.
Anders als die realistischen Semantiken, die die Bedeutung einer
Sprache L als Beziehung zLx zwischen sprachlichen Termen z Î T und außersprachlichen Entitäten x Î U erklären, geht die
empirisch-strukturale Semantik von Teilmengen V Ì T aus und
setzt S Ì MS an. Anhand der in Situationen kommunikativen
Sprachgebrauchs beobachtbaren sprachmaterialen Regularitäten in
Texten rekonstruiert diese Semantik Bedeutungen ebenfalls
relational, aber sprachintern als Beziehung z L p zwischen
sprachlichen Zeichen z Î V und Bedeutungsrepräsentationen p Î S. Der semantische Raum S Ì MS wird dabei als System
konzeptueller Strukturierung des Worüber-der-Rede nicht
vorausgesetzt, sondern konstituiert sich - als sprachlich
etikettierte (labeled) Vektoren oder Intensionen von U
(universe of discourse) - erst im Verlauf der Verarbeitung
(Analyse, Repräsentation, Organisation) der Texte, quasi als
prozedurale Modellierung ihres Verstehens durch einen
informationsverarbeitenden kognitiven Agenten. Die so
konstituierte Struktur des semantischen Raums áS,zñ erlaubt neuartige, prozedurale Instantiierungen
unscharfer Granulation, die an die Stelle der Kopula
restringierende Operationen25 setzen, welche
auf Zeichen und Zeichenstrukturen repräsentierenden Strukturen
operieren und darin den dynamischen und kontextsensitiven
Charakter des semiotischen Organisationsprinzips unterschiedlich
spezifizieren.
3.3.1 Durch prozedurale Definition der
syntagmatischen, paradigmatischen und topologischen
Beschränkungen, die als elementare Restriktionen
a|zi,d|yi und z|pi auf den unscharfen
Relationen a, d und z der cartesischen
Produkte des Vokabulars z Î V, der Korpuspunkte y Î C und
der Bedeutungspunkte p Î S rekonstruiert wurden (vgl. [Rie89],
S. 181ff)
ergeben sich mengentheoretische Definitionen der
syntagmatischen Beziehung Sy Í V×C und der
paradigmatischen Beziehung Pa Í C×S als unscharfe
Relationen, deren Komposition Pa°Sy Í V×S die
Beziehung der (referenzsemantischen) Designation (von V
nach S Í MS) modelliert.
Damit wird die 'Bedeutungen konstituierende' unscharfe Relation
L als Komposition der syntagmatischen und
paradigmatischen Beschränkungen Pa°Sy aus d|yi und
a|zi erklärt
die - wie Abb. 4 verdeutlicht - jedem Wort zi Î V
seinen Bedeutungspunkt pi Î S (gleichen labels) sowie
dessen topologische Umgebung Ei Í áS,zñ
zuordnet.
Sei Z eine Variable, die Werte zi Î V[( Ù) || =]pi Î S im (sprachintern konstituierten)
semantischen Raum annimmt, dann ist Z opr S der
(non-propositionale) Ausdruck der semiotisch generalisierten
Beschränkung [Rie99c], der angibt, wie die Werte von Z durch
eine variable Operation opr den semantischen Raum áS,zñ auf Teilstrukturen einschränkt, die r
spezifiziert. Dabei ist der Typ r={env, clu, dep,¼} eine
diskrete Variable, deren Wert die betreffenden Selektionsprozesse
instantiiert, welche prozedural definierte Teilstrukturen E,
Cl und DDS des semantischen Raums rekursiv selektieren, die
durch Werte von Z aktiviert werden.
3.3.2 Die formal über mL rekonstruierte Beziehung
26 zwischen
Wörtern z Î V und den Repräsentationen ihrer Bedeutungen p Î S, läßt in S Í MS ein System áS,zñ
entstehen, dessen Metrik z die Unterschiede von Bedeutungen
als Distanzen zwischen Bedeutungspunkten zu erfassen erlaubt.
Diese Distanzen bilden die Grundlage der topologischen
Umgebungen E(pi) von Bedeutungspunkten pi Î áS,zñ, welche zu einem beliebigen, als zentral gewählten
Bedeutungspunkt pc alle übrigen pm-1 nach
zunehmender Distanz geordnet bis zu einem Schwellenwert s
auflisten (vgl. [Rie89] S.204ff). Wegen der Gleichheit von
i=j=1,¼,n für alle zi und pj heißen sie
semantische Umgebungen E(zi), wenn dem zentralen
Bedeutungspunkt pc das ihm zugeordnete Wort zi Î V
entspricht und die in E(zi) Í áS,zñ
aufgelisteten Bedeutungspunkte des semantischen Raums damit die
konnotativeBedeutung von zi repräsentieren.
Topologische bzw. (intensional) semantische Umgebungen entsprechen
dem Beschränkungstyp r=env im Ausdruck Z opr S der
semiotischen Generalisierung, so daß
Die semantische Umgebung E(zi,s) eines
beliebigen Wortes zi Î V spezifiziert daher die
Konnotation des Wortes zi distanzrelational im Umfang s. Sie
umfaßt die nach zunehmenden Abständen geordnete Menge der Paare
{(zj,z(pc,pj))}, die aus den Namen zj der
Bedeutungspunkte pj mit ihren Distanzwerten z(pc,pj)
bestehen, die innerhalb einer durch den Radius s um den zentralen
Bedeutungspunkt zi[( Ù) || =]pc beschriebenen
(Hyper-)Kugel im semantischen Raum áS,zñ
liegen.
3.3.3 Umgebungen als konnotative Bedeutungen erlauben
unmittelbar keine Beantwortung der Frage, ob - und wenn ja, wie
- die in beliebigen E(zi Í áS,zñ
liegenden Bedeutungspunkte pj Î E(zi) besondere Regionen
höherer Punktdichte (Klumpen) zeigen, die auf besondere
semantische oder inhaltliche Ausprägungen schließen ließen. Dies
leistet die Clusteranalyse durch algorithmische Verfahren
unterschiedlicher numerischer Bemessungskriterien (single,
complete, average etc.) bei der Bewertung von Ähnlichkeiten von
(Teil-)Klassen (Partitionen A) beliebiger Mengen von
Elementen (Objektmenge S), die - auf unterschiedlichen
Stufen durchgeführt - zum schrittweisen Aufbau v-indizierter
Hierarchien (Dendrogramme) führen. Dabei werden die Elemente
pj der Objektmenge S mit j=1,¼,m durch das rekursive
(bottom-up) Verfahren aus einer ersten Partition A
(der 0-ten Stufe mit maximaler Anzahl von m Teilmengen als
Einermengen in S) durch schrittweise Fusion v der jeweils
ähnlichsten Teilmengen zur letzten Partition A (der
V-ten Stufe mit minimaler Anzahl von m- V=1 Teilmengen)
überführt, d.h. in eine Klasse, die alle Elemente von S umfaßt.
Für Bedeutungspunkte pj Î E(zi,s) Í áS,zñ des semantischen Raums ergibt sich (in Tab.
1) eine Clusterhierarchie von V Partitionen folgender
A(hv) Ähnlichkeitsklassen Av:
Eine solche Clusterhierarchie mit h Fusionsstufen - die in Form eines Dendrogramms oder Fusionsbaums (vgl. [Rie89] S. 213ff) repräsentiert wird - entspricht dem Beschränkungstyp r=clu in der semiotischen Generalisierung Z opr S, so daß
3.3.4 Die vektoriell bestimmte Struktur des semantischen
Raumes ist informationell weit reicher, als dies die Lage und
Position jedes einzelnen Bedeutungspunktes in E(zi,s) erkennen
läßt. Definitionsgemäß als Beziehungsstruktur aus sämtlichen
Unterschieden aller Verwendungsregularitäten jedes einzelnen
Wortes mit sämtlichen anderen in den analysierten Texte berechnet,
läßt die komplexe Topologie der Lagen und Positionen solcher
Bedeutungsrepräsentationen vielfältige Nachbarschaften,
Gemeinsamkeiten und Unterschiede erwarten, die sich - über
Umgebungen und Clusterstrukturen hinaus - erst durch veränderte
Perspektivenwahl und damit verbundenen restringierenden
Selektionen - im Prozeß der einschränkenden Auswahl realisieren
und erkennen lassen. Dies leistet eine hierzu entwickelte,
rekursiv definierte Prozedur (vgl. [Rie89], S. 244ff), die Pfade
hierarchisch geordneter Bedeutungspunkte (Pfad- oder
Dependenzknoten) in Abhängigkeit eines vorgegebenen Aspekts (
Start- oder Wurzelknoten) erzeugt und in sog.
dispositionellen Dependenzstrukturen (DDS) als
Dependenzbaum repräsentiert.
Der implementierte Algorithmus operiert auf der Datenstruktur des
semantischen Raums áS,zñ, der selbst ein
vollständiger, gewichteter, ungerichteter Graph27
G=áV,K,jñ der Ordnung m > 1 ist. Sei p Î S ein beliebiger Bedeutungspunkt und z Î V sein entsprechender
Name, so daß die Knotenmenge V=S mit z=p, seien weiter die
Kantenmenge K={{z,z¢}|p,p¢ Î S,p ¹ p¢} mit k Î K für
alle z,z¢ Î V bzw. p,p¢ Î S, die Gewichtungsfunktion
j:K® R mit j({z,z¢})=z(p,p¢) und die
topologische Umgebung E(p) entsprechend E(z) Í V oder
Ez Í V, dann bezeichnet die Menge DepE(z)={z¢ Î Ez|j({z,z¢})= min[v Î Ez,{z,v} Î K(z)]
{j({z,v})}} alle Knoten aus Ez, die durch
minimales Gewicht j dem Verkettungskriterium der Dependenz
genügen. Der Dependenzbaum D(z)=áV,K,wñ von z in G entsteht
danach wie folgt28:
3.3.5 Der granulare Charakter dieser prozeduralen
(Re-)Konstruktion der Beschränkungsfunktion, die als Kern
bedeutungskonstituierender Prozesse gilt, soll anhand von
Ausschnitten aus nur drei DDS-Bäumen D(Alp),
D(Sprache) und D(Wort)
illustriert werden. Dabei bilden die an die jeweiligen
Wurzelknoten über Kanten angehängten Dependenzknoten
granulare Komponenten (Granule), deren dynamische und
kontextuelle Variabilität durch ihre (laterale) Ansammlung in
verschiedenen Knotenebenen und durch ihre (vertikale)
Anordnung in Tiefenpfaden sichtbar und repräsentiert wird.
Obwohl durch ein und dasselbe Vokabularelement z Î V
etikettiert, kennzeichnen die durch den Dependenzalgorithmus
ausgewählten entsprechenden Bedeutungspunkte p Î áS,zñ, die in den verschiedenen Dependenzbäumen
aufgelistet sind, sehr unterschiedliche Granule, sowohl
lateral auf gleicher
Knotenebene wie auch vertikal in den Knotenpfaden.
Der Ausschnitt30 des DDS-Baums D(Alp) - Abb.
5 - zeigt auf Ebene 2 u.a. das Granul Mensch. Lateral ist ihm Sorge zugeordnet und
vertikal drei Tiefenpfade (von denen aus Platzgründen nur zwei expandiert wurden):
Mensch ®Unglück ® Passagier ®Maschine [Nähe & Sicherheit] ® Flugzeug ®Hubschrauber ® Pilot[ ¼] & Mensch ®Vater ®Gott ®Leben ®Wort ®Rede ®Beziehung.
Der Vergleich mit dem DDS-Baum D(Sprache) - Abb.
6 - macht die Unterschiede (und Anschlußpunkte) deutlich: das
Granul Mensch wiederum auf Ebene 2, lateral zusammen mit gefährlich
& Revolution & Afrika & schaffen. Vertikal vier
Tiefenpfade, von denen wiederum nur zwei teilexpandiert wurden):
Mensch ® Skiläufer ® Alp[Bude] ® Schnee, sowie Mensch ® Passagier ®Unglück[Sicherheit] ® Innsbruck.
Und schließlich der Ausschnitt des DDS D(Wort) -
Abb. 7 - mit dem Granul Mensch auf Ebene 3,
lateral mit überzeugen & Regierungschef und vertikal einem Tiefenpfad (allerdings mit breiter Auffächerung):
1. Mensch ® Anstrengung ® Ausland[& leisten & Sicherheit & Bundespräsident & Zukunft] ® westdeutsch ® Handelsmission ® Leipzig ® Sowjetzone[& eröffnen] ® Flucht[& Anlage] ® Flüchtling® etc.
2. Mensch ® Anstrengung ® leisten ® etc.
3. Mensch ® Anstrengung® Sicherheit ® Pilot[& Passagier] ® etc.
4. Mensch ® Anstrengung ® Bundespräsident ® etc.
5. Mensch ® Anstrengung ® Zukunft ® etc.
Die in DDS-Bäumen selektierten und reorganisierten Bedeutungspunkte werden so zur geeigneten Grundlage einer kontextsensitiven Modellierung semantischer Inferenzen bzw. analoger Schlüsse [Rie85]. Obwohl weder Propositionen und Sätze, noch Prädikate und Eigenschaften wahrheitsfunktional bestimmt oder im Rahmen einer traditionell formal-semantischen Theorie analysiert werden, kann einem SCIP-Agenten, der über Analyse-, Repräsentations- und Kontroll-Mechanismen verfügt, die den a-, d- und z-Funktionen entsprechen, sowie über die Dependenz- und Inferenzprozeduren, die auf den Bedeutungspunkten operieren (vgl. hierzu [Rie99a]), ein quasi kognitives Vermögen zugesprochen werden. Seine Fähigkeit, aus natürlichsprachlichen Eingabetexten und ihrer algorithmischen Verarbeitung eine interne Repräsentationsstruktur selbstorganisierend aufzubauen, die er zur Ableitung von Erwartungen (Dispositionen) nutzen und durch weitere Eingaben verändern und verfeinern kann (Lernen), machen ein solches System zu einem - wenn auch nicht-propositionalen - flachen (shallow) Verstehensmodell.
Mit der Konzeption einer semiotisch kognitiven
Informationsverarbeitung (semiotic cognitive information
processing - SCIP) wird Verstehen von natürlicher Sprache mit
dem Prozeß der Bedeutungskonstitution identifiziert und in
künstlichen Systemen/Agenten so zu modellieren versucht, daß
Bedeutungen von Zeichenstrukturen nicht als Voraussetzung sondern
als Ergebnis dieser Prozesse im Modell erscheinen.
4.1 Akzeptiert man dieses semiotische Konzept einer
prozeduralen Semantik, die von der situierten Verwendung
natürlichsprachlicher Ausdrücke zu kommunikativen Zwecken ausgeht,
verändert sich auch der Blickwinkel, unter dem natürliche Sprachen
untersucht werden können. Sprache erscheint nun nicht mehr nur als
Reservoir linguistischer Strukturen, deren Kenntnis vorauszusetzen
ist bei der Analyse und Entwicklung eines deswegen wissensbasiert
genannten Modells kognitiver Prozesse des Sprachverstehens.
Vielmehr werden natürliche Sprachen und ihre Erscheinungsformen
als ein empirisch zugängliches, besonderes Datenmaterial gesehen,
dessen Strukturiertheit emergentes Resultat von
selbst-organisierenden Prozessen des kommunikativen
Zeichengebrauchs ist, die dieses Wissen aufbauen. Da der
Zeichengebrauch sich veränderten Bedingungen und Erfordernissen
anpaßt, bilden natürlichsprachliche Texte die empirisch
zugängliche und quantitativ analysierbare Datenbasis einer
prozeduralen Semantik, welche Bedeutung als einen dynamischen
Prozeß der Einschränkung von Wahlmöglichkeiten erklärt und mittels
geeigneter Prozeduren im Modell zu realisieren erlaubt.
Dabei ist hervorzuheben, daß diese Form der Bedeutungserklärung -
durch Explikation allgemeiner Beschränkungen von Wahlmöglichkeiten
- den vereinheitlichenden Rahmen liefert, der eine Übertragung
erlaubt auf die Erklärung von Bedeutungen
4.2 Wie schon früher gezeigt wurde (vgl. [Rie99a]), beruht
die prozedurale Modellierung auf Primärdaten aus der Messung von
Unterschieden der Verwendungsweisen von Wörtern (tokens) in
Korpora pragmatisch homogener Texte. Sie kommt über eine
zweistufige Abbildung zur vektoriellen Repräsentation der
(strukturellen) Bedeutungen dieser Wörter (types), die sie
als Punkte im semantischen Raum designieren. Dessen Topologie
erlaubt die algorithmische Überführung in dispositionelle
Dependenzstrukturen (DDS), welche die kontextuellen Abhängigkeiten
unter den Bedeutungspunkten in Form von Baumgraphen granular, d.h.
perspektivisch (unter dem Aspekt eines Wurzelknotens), dynamisch
(mit Menge und Art der verarbeiteten Texte veränderlich) und
kontextsensitiv (in Abhängigkeit von den jeweils umgebenden
Bedeutungspunkten im semantischen Raum) organisieren. Sie stellen
eine neue, andersartige Instantiierung des Typs der
verallgemeinerten Beschränkung dar, der den Kern der Theorie der
unscharfen Informationsgranulation (TFIG) bildet. Um die
Typengleichheit einerseits, die Andersartigkeit der semiotischen
Fundierung andererseits zu verdeutlichen, sind die wesentlichen
Morphismen in einem Schema (Abb. 8) zusammengefaßt, welche
in separaten Schemata für den referenzsemantischen Ansatz (
Abb. 3) und für die strukturalsemantische Modellierung (Abb.
4) im einzelnen eingeführt wurden.
4.2.1 Danach wird Bedeutung relational und
übergreifend als Beziehung zwischen sprachlichen Zeichen V und
intensionalen Konzepten MS einerseits, zwischen sprachlichen
Zeichen V und Entitäten eines sprachunabhängigen Universums U
andererseits expliziert. Die referenzsemantische Beziehung von V
und U wird dabei - der semiotischen Tradition seit Peirce
and Morris entsprechend - nicht als direkte, sondern als
eine über Intensionen und Konzepte in MS vermittelte Relation
gedacht, so daß - vgl. oben unter 3.1.4 -
Designation (von V nach MS) und Denotation (von MS
nach U) zusammenwirken (müssen), um Referenz (von V nach
U) als Komposition beider semiotisch zu realisieren.
Die immensen Schwierigkeiten der (automatischen) Erzeugung von
Wissensbasen aus Expertenwissen, Texten, Datenbanken, etc. sind
hinreichend bekannt. Die dazu entwickelten Formate der Wissens-
und Bedeutungsrepräsentationen, die als MS fungieren, sind
aufgrund intellektueller Verfahren der bewußten Exploration von
schon Verstandenem, d.h. von strukturiertem Wissen entstanden, sie
sind aber keine dieses Verstehen selbst modellierenden Methoden,
die den Prozeß der Bedeutungskonstitution an Automaten zu
delegieren erlauben würden. Auch die Zadeh'schen Semantiken
PRUF und TEST sind von dieser Art, obwohl sie über die Umformung
von Propositionalausdrücken in ihre kanonische Form den höchst
effizienten Mechanismus linguistischer Variablen aufgedeckt und
mit Hilfe des Konzepts der Bedeutung konstituierenden Beschränkung
zu verallgemeinern erlaubt haben.
Die hier vorgetragenen, weitergehende Interpretation der
verallgemeinerten Beschränkung als unterspezifizierten Typs,
der der Instantiierung bedarf, um spezifiziert zu sein,
erlaubt darüber hinaus eine semiotische Generalisierung, durch die
der SCIP Ansatz einer semiotisch-kognitiven,
empirisch-prozeduralen und strukturalsemantischen Modellierung
natürlichsprachlicher Bedeutung mit referenzsemantischen
Vorstellungen in konsistenter Weise verbunden werden kann.
4.2.2 Danach läßt sich natürlichsprachliche Bedeutung
nicht länger mehr als zwar unscharfe aber weitgehend statische
Zuordnung von sprachlichen Zeichen und Strukturen zu mehr oder
weniger fixierten Gegebenheiten einer außersprachlichen Realität
erklären (X isr R), sondern Bedeutung wird als dynamisch
und kontextabhängig veränderliches Resultat
mehrstufiger, auf Wissensbasen operierender
Konstitutionsprozesse rekonstruiert, die diese Wissensbasen
lernend verändern (Z opr S). Deren Relationalität - vgl.
oben unter 3.3.2 - besteht daher (Abb. 8) in der
veränderbaren Zuordnung von etwas Intensional-Begrifflichem
S Í MS zu den Zeichen und Zeichenstrukturen in V, das
ohne diese Konstitutionsprozesse (von V nach C und von C
nach S Í MS) gar nicht in Erscheinung tritt oder faßbar
wäre: ein System von Eigenschaften, die den sprachlichen
Strukturen - über ihre Beobachtbarkeit und empirische
Analysierbarkeit hinaus - als funktionaler Zusammenhang von
Bedeutung in ihren Designationen
zukommt.
Dieser Zusammenhang T ×S wird als unscharfe Komposition
Ds zweier Relationen Pa°Sy mengentheoretisch
rekonstruiert Ds = Pa°Sy Í T×S, wobei beide
Relationen Sy=a| zi Í T ×C und Pa=d|yj Í C×S selber Restriktionen sind und als
syntagmatische und paradigmatische Beschränkungen möglicher
Kombinationen von Elementen erscheinen. Semantische
Designation wird dabei primär nicht definitorisch eingeführt oder
erklärt, sondern aufgrund des kommunikativen Gebrauchs in
Texten usuell verstanden: sie ist daher prozedural analysierbar
und kann auch so expliziert und repräsentiert werden. Denn erst
der systematische Zusammenhang von syntagmatischen und
paradigmatischen Restriktionen in mehrstufiger Kombination
sprachlicher Einheiten zu Strukturen läßt deren Bedeutungen und
Funktionen nicht nur verstehbar, erlernbar, verwendbar und
veränderbar sein, sondern eben auch erkennbar, analysierbar,
(re-)konstruierbar und darstellbar werden.
4.3 Anders als die hier entwickelte Rekonstruktion der
Designation (von V auf über C nach S Í MS) ist
allerdings die prozedurale Modellierung der Denotation (von MS
über ? nach U) noch völlig offen. Die nicht nur aus
Symmetriegründen eingesetzte Zwischenrepräsentation (in Abb.
8 durch das Fragezeichen kenntlich gemacht) liegt insofern nahe,
weil für eine empirisch überprüfbare Rekonstruktion der
Beziehungen, welche intensional durchaus auch unscharf bestimmte
Elemente von Konzeptualisierungen (welchen granularen
Repräsentationsformats auch immer) mit Entitäten der
außersprachlichen (begrifflich schon erfaßten, zu modifizierenden
oder konzeptuell noch amorphen) Welt der Erscheinungen eingehen,
wohl nur über Handlungen und Operationen nicht-sprachlicher Art
erreicht werden können. Denkbar wären Typen und Formen der
intersubjektiven Vergewisserung weitestgehender Homotypien, wie
sie in der Physik durch ihre operationalen Definitionen von
Konzepten erreicht werden. Dabei werden bekanntlich über
Instantiierungen von Meßoperationen unter definierten
Randbedingungen - durch die zu erfüllende Forderung der
prinzipiellen Wiederholbarkeit - für gleiche Meßresultate eine
Art Zustimmungszwang erzeugt, der freilich die Interpretation der
Ergebnisse nicht ersetzt.
Für die semiotisch fundierte, empirisch-semantische Rekonstruktion
der Denotationsbeziehung durch geeignete Prozeduren (von MS über
? nach U in Abb. 8) fehlen bisher noch weiterführende
Intuitionen. Sie sind allerdings eine Voraussetzung dafür, die
oben erwähnte Operationalisierungslücke bei der prozeduralen
Rekonstruktion der semantischen Referenz einmal erfolgreich
schließen zu können.
1Geläufige und viel zitierte Beispiele hierfür sind: Gesichter (Wieder-)Erkennen, Sprachverstehen, Zusammenfassen von Texten, Fahrradeln, Einparken von Autos, Fahren in dichtem Verkehr, Tennisspielen, etc.
2Die (unbestreitbaren) Erfolge wie die (gern verschwiegenen) Fehlschläge der KI-Forschung in den vergangenen 20 Jahren stehen hierfür gleichermaßen als Beleg.
3Zu aktuellen Fragen der Semantikforschung, die von Inge Pohl et.al. organisiert und veranstaltet werden und in den letzten Jahren in Landau stattfanden.
4Begrifflich wird hierzu im folgenden unterschieden zwischen den beiden Typen: Entität und Kennzeichnung, deren Instantiierung einander in einer ontologischen Reihe bzw. epistomologischen Hierarchie vermitteln. Durch verallgemeinernde Subsumption von je vorliegender Vielheiten unter abstraktiv gewonnenen Einheitlichkeiten erscheinen sie sukzessiv auf folgenden Strata: Phänomenebene: Erscheinungen durch übergreifende Beschreibung; Darstellungsebene: Beschreibungen durch gemeinsame Struktur; Konstruktionsebene: Strukturen durch zugrundeliegende Prozesse; Realisationsebene: Prozesse durch sie definierende Prozeduren; Implementationsebene: Prozeduren durch Algorithmen und Programme. - Wissenschaftstheoretisch bisher wenig reflektiert - und u.a. Gegenstand einer separaten Abhandlung, an der Verf. arbeitet - ist der epistemisch bedeutsame Umstand, daß Prozeduren, als von ihrer Zeitlichkeit abstrahierte Prozesse, eine doppelte Seinsweise auszeichnet, die einerseits eine (Form-gebundene aber Zeit-unabhängige) Manipulation und andererseits eine (Zeit-gebundene aber Takt-unabhängige) Überprüfung zuläßt: nämlich einmal als formalsprachliche Notation in Form von Programmen und zum anderen als kontrollierter Ablauf in Form ihrer Exekution im Rechner. Daß eine Prozedur - über ihre (nicht immer mögliche) Algorithmisierung als lauffähiges Programm im Computer implementiert - einen Prozeß realisiert, welcher Strukturen produziert, denen Beschreibungen entsprechen, die auf beobachtbare Erscheinungen zutreffen, macht - bei formaler Korrektheit - die quasi empirische Überprüfbarkeit und die intersubjektive Evaluierbarkeit operational definierter, prozeduraler Modellierungen von beliebigen Entitäten und ihren durchaus nicht beliebigen Kennzeichnungen aus. Dieser Zusammenhang läßt erkennen, daß die Erarbeitung wissenschaftlicher Erkenntnis selbst als ein semiotischer Prozeß rekursiver Bedeutungskonstitution verstanden werden kann.
5Als SW-Agenten werden hier Programmsysteme bezeichnet, die informationsverarbeitende Funktionen zur (relativ) selbständigen Akquisition, Steuerung, Kontrolle und Repräsentation von wissensbasierten Handlungszusammenhängen übernehmen, ohne selber als physikalische Handlungseinheit (Roboter) realisiert zu sein.
6So wird etwa von der Verarbeitung sensuellen Daten durch den Agenten abgesehen, womit auch von den physikalischen Randbedingungen der Gegebenheit der Sprachzeichen wie von anderen Informationsquellen seiner Umgebung abstrahiert wird.
7Obwohl Ergebnisse aus statistischen Analysen korrekt erhobener (sprachmaterialer) Stichproben verallgemeinerbare Aussagen auch über die Grundgesamtheiten erlauben, aus denen sie stammen, sollte man tunlichst vermeiden, diese Stichproben repräsentativ zu nennen (vgl. [Rie79]).
8Dieser Grundgedanke, der von vielen Disziplinen fast gleichzeitig Mitte des letzten Jahrhunderts formuliert wird und in psychologisch-kognitionstheoretischen ebenso wie anthropologisch-soziologischen Ansätzen, in philosophisch-sprachanalytischen ebenso wie strukturalistisch-linguistischen Positionen belegt ist (vgl. [Rie77a], S. 60), hat - wie seine Neuformulierung in der unscharfen (fuzzy) Semantik zeigt - nicht an Aktualität verloren.
9Diese umfassen sowohl analytische Formen der Verständnis- und Wissensexploration über Probanden, Expertenbefragung, Textinterpretation, etc. als auch generierende Formen des algorithmischen Wissenserwerbs aus formatierten Beständen (mining) wie Datenbanken, Informationsbasen, Textsammlungen, etc.
10Hierzu zählen Prozesse der relevanten Auswahl und perspektivischen Reorganisation von Elementen und Strukturen [Rie84], deren Verknüpfung durch Operatoren der FL [Rie81a] und durch prozedurale Inferenzen [Rie85].
11Symbolische, regelbasierte Formate traditioneller und unscharfer Logik, prozedurale und deklarative Repräsentationen, semantische Netzwerke und Produktionssysteme etc. konkurrieren mit sub-symbolischen oder verteilten Repräsentationen, mit künstlichen neuronalen Netzen, mit objektorientierten Typ-Instanz-Strukturen, etc. bei der Lösung von Modellierungsproblemen des Erwerbs, der Auswahl und des Erschließens von Wissen.
12Als Terme werden hier morpho-syntaktisch korrekte, lexiko-semantisch interpretierbare und situativ-pragmatisch angemessene Aggregate A(z) von z Î T bezeichnet.
13Dies sind auch Teilmengen x Î X(z) Ì U des Diskursuniversums.
14Das gelingt erst einem strukturalen semantischen Ansatz [Rie74], der hierzu die in großen Textmengen beobachtbaren syntagmatischen und paradigmatischen Regularitäten natürlichsprachlicher Zeichenaggregation analysiert und repräsentiert [vgl. Rie99a].
15Unscharfe Regelungssysteme (fuzzy controller) für komplexe Steuerungsprobleme sind hier beispielhaft, die anstelle einer physikalisch-numerischen Modellierung (mittels Differenzen- und Differentialgleichungen) eine quasi sprachlich-numerische Modellierung über unscharfe Wenn-Dann-Regeln sehr erfolgreich verwenden.
16Sei beispielsweise ED:=R= PERSON [ Name; Alter; Größe; ¼] + JUNG [Alter; m] + KLEIN [Größe; m] wobei PERSON, JUNG und KLEIN Relationen, Name, Alter, Größe, m Argumente sind und + als Disjunktion gilt.
17Durch Belegung des Arguments Name mit dem Wert 'Tom' und den diese Person charakterisierenden Daten wird die vorliegende ED instantiiert zu EDI= PERSON [ Name=Tom; Alter=22; Größe=177; ¼].
18Eine solche Variable X kann gleichzeitig keine zwei (oder mehr) Werte in U annehmen.
19So wie der Wert einer Ziffer nicht nur durch deren Form bestimmt wird, sondern - im arabischen Zahlensystem - auch von der Position abhängt, an welcher Stelle sie vor oder nach dem Komma steht.
20Das Konzept einer linguistischen Variable [Zad75b] ist ein Zentralbegriff der FST und kennzeichnet die Schnittstelle lexikalisierter Strukturen kognitiver Zusammenhänge mit mengentheoretischen Strukturen mathematischer Formalisierung. Eine linguistische Variable wie LÄNGE hat danach etwa die Werte kurz, lang, sehr lang, überlang etc., die einmal sprachlich durch weitere linguistische Variablen, zum anderen meßtechnisch-operativ über Angabe von Referenzbereichen eingeschränkt werden (können). Kotextuelle Beschränkungen werden dabei attributiv über Relationen wie etwa WEG[LÄNGE; BESCHAFFENHEIT etc.] oder HAAR[LÄNGE; FARBE etc.] bewirkt, die den jeweiligen Wertebereich von LÄNGE kontextuell anpassen und konzeptuell verschieben ( kurze Wege sind generell länger als kurze Haare ). Die Angabe von Referenzobjekten (etwa als Name einer Person) wie HAAR(Tom)[LÄNGE = kurz; FARBE = blond; etc.] partikularisiert die Relation und schränkt sie - möglicherweise über andere linguistische Variablenwerte - weiter ein auf die entsprechenden Possibilitätsverteilungen wie Pkurz (LÄNGE (HAAR (Tom))) ={ > 0-20mm\0.9 + > 20-40mm\1.0+ > 4-10cm\0.7 + > 10-30cm \0.5, + ¼}, welche die Angemessenheit des Prädikats kurz für Toms Haarlänge als numerischen Wert 0 £ mkurz(x) £ 1 zu fassen erlaubt.
21Nach Überführung des Satzes Tom hat kurzes Haar in die der kanonischen Form pros® X is R entsprechende Proposition: Toms Haar ist kurz bildet die Länge von Toms Haar die einzuschränkende Variable X und seine Kürze die sie einschränkende Relation R. Das führt - auf der Grundlage der oben gegebenen ED und EDI - zur formalen Explikation von
X = | LÄNGE ( HAAR (Tom)) | =LÄNGE(HAAR) PERSON [ Name=Tom] |
=LÄNGE *1.1cm HAAR [ Länge=kurz]; | ||
R = | KURZ [ > 0-20mm\0.9 + > 20-40mm\1.0 + > 4-10cm\0.7 + > 10-30cm\0.5, +¼] |
22Dieser Teilbereich des sog. soft computing konkurriert darin mit einem Grundanliegen auch der theoretischen Linguisten, insbesondere in der Computerlinguistik, unterscheidet sich aber von diesen durch seine Fundierung in FST und FL sowie durch die Radikalität seiner kognitiven Anwendungsorientierung.
23Die zahlreichen von Zadeh in verschiedenen Aufsätzen [Yag87; Kli96] vorgeschlagenen Übersetzungsregeln natürlichsprachlicher Ausdrücke in Propositionen kanonischer Form als Vorstufe von Möglichkeitsverteilungen PX erlauben keine Algorithmisierung der Identifikation der Basisvariablen X in natürlichsprachlichen Ausdrücken. Der Prozeß, der Elemente z Î T mit x Î U assoziiert bzw. die unscharfen Relationen P Ì T sprachlicher Bezeichnungen den unscharfen Teilmengen X Ì U des Bezeichneten zuordnet, ist höchst klärungsbedürftig, weil er die Bedeutungskonstitution betrifft. At this juncture in the development of PRUF, we do not have an algorithm for identifying the base variables in a given proposition. However, experience has shown that it is not difficult for a human subject to acquire a facility for translating any proposition within a broad class of propositions into a possibility assignment equation. (Zadeh 81, S.288)
24Durch leeres Symbol Æ deswegen gekennzeichnet, weil PX als Basistyp natürlichsprachlicher Bedeutungsexplikation in TFIG gilt.
25Auf diese Möglichkeit weist auch Zadeh hin: In addition to the types of constraints defined above there are many others that are more specialized and less common. A question that arises is: What purpose is served by having a large variety of constraints to choose from? A basic reason is that, in a general setting, information may be viewed as a constraint on a variable. (Zadeh 97, S.117)
26Sie kann als Funktion aller Unterschiede der Verwendungsweisen aller Wörter in den zugrunde gelegten Texten gedeutet werden, weil dies die in Sy und Pa modellierten und empirisch analysierten Einschränkungen von Wahlmöglichkeiten der (theoretischen) Kombinierbarkeit von Wörtern sind.
27Als Metrik ist z Allrelation in S×S und setzt sämtliche Bedeutungspunkte pj Î áS,zñ zueinander in Beziehung (Vollständigkeit), bemißt diese numerisch als Distanzen (Gewichtung) mit der Eigenschaft der Symmetrie (Ungerichtetheit).
28Der Algorithmus aus [Rie89, S.245f] wird hier in seiner heute üblichen, graphentheoretisch verallgemeinerten Form (vgl. [Meh01], S. 318f) notiert.
29Die Unterscheidung von j und w, die in der vorliegenden Generierung der DDS-Bäume mit z identisch sind, ist sinnvoll, weil sowohl für die Metrik von S und/oder die Gewichtung von K, als auch für das Verkettungskriterium der Dependenz Dep durchaus unterschiedliche Koeffizienten eingesetzt werden können.
30Die Textgrundlage bildet ein Teilkorpus deutscher Zeitungstexte (DIE WELT 1964) aus [Rie89], dessen maschinelle Lemmatisierung auf der Basis des CELEX Wörterbuchs zu leichten Abweichungen gegenüber den in [Rie99a] abgedruckten DDS-Bäumen führte.