Die
Wegner'sche Dissertation
Nachbarschaften im
semantischen Raum
untersucht
die mathematischen Methoden und algorithmischen Verfahren der Clusteranalyse im
Hinblick auf Bedeutungsrepräsentationen. Im Rahmen der deskriptiven und
explorativen Datenanalyse werden die Voraussetzungen und Bedingungen des
clusteranalytischen Ansatzes und die Möglichkeiten seiner Anwendung in der emprirsch Semantik diskutiert. Diese analysiert große
Mengen natürlichsprachlicher Texte mit Hilfe quantitativ-statistischer
Verfahren, die zur adäquaten Ermittlung und Beschreibung von Gruppierungen von Bedeutungspunkten
verwendet werden, um aufgrund ihrer Lage, Zusammensetzung und Nachbarschaften
(Cluster) im semantischen Raum die Ähnlichkeiten und Verwandtschaften
von Bedeutungen sprachlicher Zeichen (Wörter) in Texten abzubilden,
deren gebrauchssemantisches Analyseresultat sie darstellen. Die große Anzahl
frei wählbarer Parameter ebenso wie der Einfluß, den jede Wahl eines der
bekannten clusteranalytischen Verfahrens und die vorauszusetzenden
Vorkenntnisse von der Struktur der zu untersuchenden Daten auf die Güte der
erwartbaren Ergebnisse haben, bilden dabei die bekannten
erkenntnistheoretischen Schwäche der Clusteranalyse. Sie belasten – weit
über die quantitativ-linguistischen Untersuchungen in der Gebrauchssemantik
hinaus – die Abschätzbarkeit von Erfolg und/oder Adäquatheit unüberwachter
Klassifikationsverfahren allgemein. Die hier vorgelegte Neuentwicklung und
praktische Erprobung eines hoch versatilen Clusterverfahrens,
welches den analysierten Daten in geringerem Maße als bisher Strukturen (quasi extrinsisch)
aufprägt und in höherem Maße als bisher von den analysierten Daten und ihren
Strukturen (quasi intrinsisch) gesteuert wird, ist daher überaus aktuell
und trifft auf ein generelles Interesse.
Die
Dissertation liefert beides: sowohl eine umfassende Einführung in die Grundlagen
und Begriffsbildungen der Modellierungen zur unüberwachten
Klassifikation, als auch eine
exzellente Darstellung der Clustertechnologie, wie sie sich anhand der
Entwicklung der letzten Jahrzehnte überblicken läßt. Dem Autor gelingt eine
transparente, selbst frühe Ansätze berücksichtigende Aufarbeitung klug
ausgewählter Veröffentlichungen in diesem seit rund drei Jahrzehnten sich
stürmisch entwickelnden interdisziplinären Gebiet zwischen angewandter
Mathematik, Algorithmentheorie und Operations Research. Die Darstellung ist bei
aller Komplexität des Gegenstandsbereichs und der Abstraktheit der
mathematischen Formalismen sowie ihrer prozeduralen Umsetzung in Algorithmen
von bestechender Klarheit. Sie zeichnet sich sprachlich durch bündige
Formulierung bei treffender Wortwahl und sicherem Stil aus. Besonders
hervorzuheben ist dabei, daß der Autor die Forschung und Entwicklung in ihren
Ergebnissen nicht nur beschreibend referiert, sondern diese in ihrem Zustandekommen
und ihrem Leistungsvermögen charakterisiert und kenntnisreich kommentiert.
Seine konzisen Darlegungen und Erläuterungen der z.T. überaus differenzierten
Methoden und vielschichtigen Verfahren der algorithmischen Clustertechnologie werden
dabei gezielt mit relevanten Resultaten von Berechnungen belegt und illustriert,
die der Autor aufgrund seiner vereinheitlichenden Parametrisierung sowie der hierzu
– z.T. erstmaligen – Implementation und praktischen Erprobung der Algorithmen vorlegen
kann.
Als selbststabilisierenden k-Nearest-Neighbor-Algorithmus
stellt der Autor schließlich das von ihm
entwickelte, neue Clusterverfahren vor. Es stützt sich auf solche (intrinsischen)
Strukturteigenschaften als Kriterien, die weitestgehend vom inneren Zusammenhalt
der untersuchten Elemente bestimmt werden. Das agglomerative Verfahren, dessen
interne Stopbedingung als lokale Optimalitätseigenschaft nicht nur selbsttätig
eine scharfe Partition sondern gleichzeitig auch die Anzahl stabiler Cluster
und Clusterprototypen ermittelt, basiert nicht auf Distanzen sondern auf sog. k-Nachbarschaften und der physikalischen
Dichte von Elementpunkten, die der
Autor sehr einfallsreich bestimmt. Die Cluster
werden dabei anhand der Punktdichten der Umgebungen
prototypischer Punkte und der Abstände der Bedeutungspunkte des semantischen
Raums berechnet, wobei auch die Radien
für die Dichtemessungen, welche die Nachbarschaften der Punkte bestimmen,
automatisch ermittelt werden. Der einzige verbleibende freie Parameter ist die – eine unscharfe Menge definierende – Z-Funktion, mit der die Dichten in
geeigneter Weise aus den Punktabständen errechnet werden. Anhand
unterschiedlicher Radien und Punktverteilungen in der Ebene kann der Autor die
Auswirkungen illustrieren, welche die Wahl verschiedener Werte für die Z-Funktion hat. Als Prototyp eines Clusters gilt dabei das Element mit der höchsten
Dichte, stabil heißt ein Cluster,
wenn die meisten nächsten Nachbarn seines Prototyps im Cluster selbst liegen,
es also keine „Vereinigungstendenz“ mit anderen (mehr) zeigt. Obwohl das selbststabilisierende
Verfahren mit der feinsten
Anfangspartition beginnt, faßt es sukzessive benachbarte unstabile Cluster so
zusammen, daß zuletzt nur noch stabile übrigbleiben. Das Verfahren erkennt
selbstständig die Prototypen und ermittelt automatisch eine scharfe
Partitionierung auch in unscharfen Datensätzen. Allerdings ordnet es Randpunkte
nur unbefriedigend zu, was durch eine nachträgliche Fuzzifikation über ein
unscharfes Analyseverfahren ausgeglichen werden kann, das die scharfe in eine
unscharfe Partition überführt und auch den Randpunkten plausible
Zugehörigkeiten zuweist.