Die Badry’sche
Dissertation
OFNN:
Orthographieerkennung und -korrektur mit
Hilfe eines Fuzzy Neuronalen Netzes
stellt ein von der Autorin
entwickeltes System zur automatischer Fehlererkennung und Korrektur für das
Deutsche vor. Diese Entwicklung betritt Neuland, da hierzu erstmals
Modellierungstechniken aus dem Bereich der sogenannten künstlichen neuronalen
Netze in Verbindung mit unscharfen (fuzzy) Wenn-Dann-Regeln zur
automatischen Erkennung orthographischer Fehler in Wörtern (ab einer bestimmten
Länge) für beliebige, durch Graphemfolgen notierte, natürliche Sprachen
erfolgreich eingesetzt und zur automatische Generierung möglicher Korrekturen
ausgewertet werden konnte. Das vorgelegte, in C programmierte Erkennungs- und
Korrektursystem OFNN wurde an einem Ausschnitt des Deutschen (rund 500.000 laufende Worte des Trierer
Textkorpus der Deutschen Presseagentur) getestet und evaluiert, seine
beeindruckenden Ergebnisse werden abschließend vorgestellt und diskutiert.
Angesichts der beträchtlichen
Probleme, die insbesondere sehr große, aber fehlerhafte Korpora natürlichsprachlicher
Texte bei der maschinellen Be- und Verarbeitung des in ihnen repräsentierten Wissens
aufwerfen, kann diese Entwicklung eines adaptiven, selbst-lernenden Fehler- und
Korrektursystems auf der Basis weich formulierter Regeln als wichtiger Beitrag
zur Lösung solcher Teilproblem gelten, die als Folge unsauberer Datenbasen
deren computerlinguistische Weiterverarbeitung bisher erschwerten oder gar unmöglich
erscheinen ließen.
Grundidee der Autorin
hierbei ist, jedes Wort in seine möglichen Graphemfolgen zu zerlegen, um diese
als Fragmente von Mustern korrekter Wortschreibungen zu deuten. Solche
Graphemfolgen enthalten genügend strukturelle Information, die zur Gewichtung
von Zugehörigkeiten und zur Identifikation korrekter (wie fehlerhafter)
Schreibungen verwendet werden kann. Voraussetzung der Ermittlung und Berechnung
derartiger Zugehörigkeitswerte ist eine unscharfe Modellierung positionaler Graphemübergänge, die von Oerder[1] für
wachsende (N=1,...,7) Graphem-Agglomerationen im Wortbestand des Deutschen
ermittelt und als Übergangsneigungen
(Zugehörigkeitswerte) von Graphemen in (als Baumgraphen strukturierten)
unscharfen Mengen repräsentiert wurden. Die Zugehörigkeitswerte solcher agglomerierter N-Gramme bilden die unscharfen
Eingabewerte des Trainingsmaterials in das OFNN, das über fünf Ebenen hinweg
zur automatischen Erkennung beliebiger Wörter führt. Diese Verarbeitung wird
von den maximal 150 Eingabeknoten (1), über die fuzzifizierte Termeingabe (2),
die unscharfen Regelknoten mit Inferenzen (3), die defuzzifizierende
Termausgabe (4) bis zur scharfen Ergebnisausgabe (5) durch Listen, Tabellen und
Zwischenrepräsentationen illustriert und vor dem Hintergrund der früher
eingeführten Funktionsweisen nachvollziehbar dargestellt.
Nach Abschluß der
Trainingsphase, deren abnehmende Fehlerrate und moderater Zeitaufwand bei 10000
Verarbeitungszyklen durchaus befriedigend ist, sind die Teilnetze des OFNN in
der Lage, aufgrund der erlernten Zugehörigkeitsfunktionen und Inferenzregeln selbständig zu entscheiden, ob eine
beliebige Graphemfolge korrekt oder fehlerhaft ist, und daß es sich –
gegebenenfalls – dabei um angezeigte interne Einfach- oder auch Mehrfachfehler
handelt. Die Erkennungsleistung des Netzes (am Beispiel zweier Testkorpora von
je rund 20000 Wörtern der Länge 8 bis 12 Graphemen) ist mit insgesamt 99.96
Prozent korrekter Entscheidungen ausgezeichnet und beeindruckend. Für Wörter
der Längen 5 bis 7 erwartet die Autorin vergleichbar gute Erkennungsraten, ohne
jedoch den Nachweis durch Training und eperimentelle
Ergebnisse der betreffenden Teilnetze des OFNN erbringen zu können.
[1] Oerder, Beate: Untersuchungen der
Silbenkonstitution im Deutschen und ihre unscharfe Modellierung. LDV-Magisterarbeit, Trier 1993