Die von Frau Petra Badry im Fach Linguistische Datenverarbeitung (LDV) vorgelegte computerlinguistische Dissertation mit dem T

Die Badry’sche Dissertation

OFNN: Orthographieerkennung und -korrektur mit Hilfe eines Fuzzy Neuronalen Netzes

stellt ein von der Autorin entwickeltes System zur automatischer Fehlererkennung und Korrektur für das Deutsche vor. Diese Entwicklung betritt Neuland, da hierzu erstmals Modellierungstechniken aus dem Bereich der sogenannten künstlichen neuronalen Netze in Verbindung mit unscharfen (fuzzy) Wenn-Dann-Regeln zur automatischen Erkennung orthographischer Fehler in Wörtern (ab einer bestimmten Länge) für beliebige, durch Graphemfolgen notierte, natürliche Sprachen erfolgreich eingesetzt und zur automatische Generierung möglicher Korrekturen ausgewertet werden konnte. Das vorgelegte, in C programmierte Erkennungs- und Korrektursystem OFNN wurde an einem Ausschnitt des Deutschen (rund 500.000 laufende Worte des Trierer Textkorpus der Deutschen Presseagentur) getestet und evaluiert, seine beeindruckenden Ergebnisse werden abschließend vorgestellt und diskutiert.

Angesichts der beträchtlichen Probleme, die insbesondere sehr große, aber fehlerhafte Korpora natürlichsprachlicher Texte bei der maschinellen Be- und Verarbeitung des in ihnen repräsentierten Wissens aufwerfen, kann diese Entwicklung eines adaptiven, selbst-lernenden Fehler- und Korrektursystems auf der Basis weich formulierter Regeln als wichtiger Beitrag zur Lösung solcher Teilproblem gelten, die als Folge unsauberer Datenbasen deren computerlinguistische Weiterverarbeitung bisher erschwerten oder gar unmöglich erscheinen ließen.

Grundidee der Autorin hierbei ist, jedes Wort in seine möglichen Graphemfolgen zu zerlegen, um diese als Fragmente von Mustern korrekter Wortschreibungen zu deuten. Solche Graphemfolgen enthalten genügend strukturelle Information, die zur Gewichtung von Zugehörigkeiten und zur Identifikation korrekter (wie fehlerhafter) Schreibungen verwendet werden kann. Voraussetzung der Ermittlung und Berechnung derartiger Zugehörigkeitswerte ist eine unscharfe Modellierung positionaler Graphemübergänge, die von Oerder[1] für wachsende (N=1,...,7) Graphem-Agglomerationen im Wortbestand des Deutschen ermittelt und als Übergangsneigungen (Zugehörigkeitswerte) von Graphemen in (als Baumgraphen strukturierten) unscharfen Mengen repräsentiert wurden. Die Zugehörigkeitswerte solcher agglomerierter N-Gramme bilden die unscharfen Eingabewerte des Trainingsmaterials in das OFNN, das über fünf Ebenen hinweg zur automatischen Erkennung beliebiger Wörter führt. Diese Verarbeitung wird von den maximal 150 Eingabeknoten (1), über die fuzzifizierte Termeingabe (2), die unscharfen Regelknoten mit Inferenzen (3), die defuzzifizierende Termausgabe (4) bis zur scharfen Ergebnisausgabe (5) durch Listen, Tabellen und Zwischenrepräsentationen illustriert und vor dem Hintergrund der früher eingeführten Funktionsweisen nachvollziehbar dargestellt.

Nach Abschluß der Trainingsphase, deren abnehmende Fehlerrate und moderater Zeitaufwand bei 10000 Verarbeitungszyklen durchaus befriedigend ist, sind die Teilnetze des OFNN in der Lage, aufgrund der erlernten Zugehörigkeitsfunktionen und Inferenzregeln selbständig zu entscheiden, ob eine beliebige Graphemfolge korrekt oder fehlerhaft ist, und daß es sich – gegebenenfalls – dabei um angezeigte interne Einfach- oder auch Mehrfachfehler handelt. Die Erkennungsleistung des Netzes (am Beispiel zweier Testkorpora von je rund 20000 Wörtern der Länge 8 bis 12 Graphemen) ist mit insgesamt 99.96 Prozent korrekter Entscheidungen ausgezeichnet und beeindruckend. Für Wörter der Längen 5 bis 7 erwartet die Autorin vergleichbar gute Erkennungsraten, ohne jedoch den Nachweis durch Training und eperimentelle Ergebnisse der betreffenden Teilnetze des OFNN erbringen zu können.

[1] Oerder, Beate: Untersuchungen der Silbenkonstitution im Deutschen und ihre unscharfe Modellierung. LDV-Magisterarbeit, Trier 1993