Die Wegner'sche Dissertation

Nachbarschaften im semantischen Raum

untersucht die mathematischen Methoden und algorithmischen Verfahren der Clusteranalyse im Hinblick auf Bedeutungsrepräsentationen. Im Rahmen der deskriptiven und explorativen Datenanalyse werden die Voraussetzungen und Bedingungen des clusteranalytischen Ansatzes und die Möglichkeiten seiner Anwendung in der emprirsch Semantik diskutiert. Diese analysiert große Mengen natürlichsprachlicher Texte mit Hilfe quantitativ-statistischer Verfahren, die zur adäquaten Ermittlung und Beschreibung von Gruppierungen von Bedeutungspunkten verwendet werden, um aufgrund ihrer Lage, Zusammensetzung und Nachbarschaften (Cluster) im semantischen Raum die Ähnlichkeiten und Verwandtschaften von Bedeutungen sprachlicher Zeichen (Wörter) in Texten abzubilden, deren gebrauchssemantisches Analyseresultat sie darstellen. Die große Anzahl frei wählbarer Parameter ebenso wie der Einfluß, den jede Wahl eines der bekannten clusteranalytischen Verfahrens und die vorauszusetzenden Vorkenntnisse von der Struktur der zu untersuchenden Daten auf die Güte der erwartbaren Ergebnisse haben, bilden dabei die bekannten erkenntnistheoretischen Schwäche der Clusteranalyse. Sie belasten – weit über die quantitativ-linguistischen Untersuchungen in der Gebrauchssemantik hinaus – die Abschätzbarkeit von Erfolg und/oder Adäquatheit unüberwachter Klassifikationsverfahren allgemein. Die hier vorgelegte Neuentwicklung und praktische Erprobung eines hoch versatilen Clusterverfahrens, welches den analysierten Daten in geringerem Maße als bisher Strukturen (quasi extrinsisch) aufprägt und in höherem Maße als bisher von den analysierten Daten und ihren Strukturen (quasi intrinsisch) gesteuert wird, ist daher überaus aktuell und trifft auf ein generelles Interesse.

 

Die Dissertation liefert beides: sowohl eine umfassende Einführung in die Grundlagen und Begriffsbildungen der Modellierungen zur unüberwachten Klassifikation, als auch  eine exzellente Darstellung der Clustertechnologie, wie sie sich anhand der Entwicklung der letzten Jahrzehnte überblicken läßt. Dem Autor gelingt eine transparente, selbst frühe Ansätze berücksichtigende Aufarbeitung klug ausgewählter Veröffentlichungen in diesem seit rund drei Jahrzehnten sich stürmisch entwickelnden interdisziplinären Gebiet zwischen angewandter Mathematik, Algorithmentheorie und Operations Research. Die Darstellung ist bei aller Komplexität des Gegenstandsbereichs und der Abstraktheit der mathematischen Formalismen sowie ihrer prozeduralen Umsetzung in Algorithmen von bestechender Klarheit. Sie zeichnet sich sprachlich durch bündige Formulierung bei treffender Wortwahl und sicherem Stil aus. Besonders hervorzuheben ist dabei, daß der Autor die Forschung und Entwicklung in ihren Ergebnissen nicht nur beschreibend referiert, sondern diese in ihrem Zustandekommen und ihrem Leistungsvermögen charakterisiert und kenntnisreich kommentiert. Seine konzisen Darlegungen und Erläuterungen der z.T. überaus differenzierten Methoden und vielschichtigen Verfahren der algorithmischen Clustertechnologie werden dabei gezielt mit relevanten Resultaten von Berechnungen belegt und illustriert, die der Autor aufgrund seiner vereinheitlichenden Parametrisierung sowie der hierzu – z.T. erstmaligen – Implementation und praktischen Erprobung der Algorithmen vorlegen kann.

 

Als selbststabilisierenden k-Nearest-Neighbor-Algorithmus  stellt der Autor schließlich das von ihm entwickelte, neue Clusterverfahren vor. Es stützt sich auf solche (intrinsischen) Strukturteigenschaften als Kriterien, die weitestgehend vom inneren Zusammenhalt der untersuchten Elemente bestimmt werden. Das agglomerative Verfahren, dessen interne Stopbedingung als lokale Optimalitätseigenschaft nicht nur selbsttätig eine scharfe Partition sondern gleichzeitig auch die Anzahl stabiler Cluster und Clusterprototypen ermittelt, basiert nicht auf Distanzen sondern auf sog. k-Nachbar­schaften und der physikalischen Dichte von Elementpunkten, die der Autor sehr einfallsreich bestimmt. Die Cluster werden dabei anhand der Punktdichten der Umgebungen prototypischer Punkte und der Abstände der Bedeutungspunkte des semantischen Raums berechnet, wobei auch die Radien für die Dichtemessungen, welche die Nachbarschaften der Punkte bestimmen, automatisch ermittelt werden. Der einzige verbleibende freie Parameter ist die – eine unscharfe Menge definierende – Z-Funktion, mit der die Dichten in geeigneter Weise aus den Punktabständen errechnet werden. Anhand unterschiedlicher Radien und Punktverteilungen in der Ebene kann der Autor die Auswirkungen illustrieren, welche die Wahl verschiedener Werte für die Z-Funktion hat. Als Prototyp eines Clusters gilt dabei das Element mit der höchsten Dichte, stabil heißt ein Cluster, wenn die meisten nächsten Nachbarn seines Prototyps im Cluster selbst liegen, es also keine „Vereinigungstendenz“ mit anderen (mehr) zeigt.  Obwohl das selbststabilisierende Verfahren  mit der feinsten Anfangspartition beginnt, faßt es sukzessive benachbarte unstabile Cluster so zusammen, daß zuletzt nur noch stabile übrigbleiben. Das Verfahren erkennt selbstständig die Prototypen und ermittelt automatisch eine scharfe Partitionierung auch in unscharfen Datensätzen. Allerdings ordnet es Randpunkte nur unbefriedigend zu, was durch eine nachträgliche Fuzzifikation über ein unscharfes Analyseverfahren ausgeglichen werden kann, das die scharfe in eine unscharfe Partition überführt und auch den Randpunkten plausible Zugehörigkeiten zuweist.