Sprachtechnologie im täglichen Leben (4)

heute: Warum der Ansatz vom letzten Mal eine Sackgasse ist

Letztes Mal habe ich versucht zu erklären, wie Sätze im Prinzip syntaktisch analysiert werden können. Diese Analyse nennt sich Parsing und lässt sich auch umdrehen, was dann Generierung heißt.

Sprich: Mit einer Grammatikdefinition (S -> NP V etc.) kann man einen echten Satz (wie “Die Frau schläft”) auf ein abstrakte Repräsentation des Satzes zurückführen (wie “S”) oder eine abstrakte Repräsentation auf einen Satz.

Es gibt computerlinguistische Anwendungen, für die das reicht. Und deswegen werden wir das noch etwas vertiefen.

Schon beim letzten Mal sind wir über ein Problem gestolpert, das sich Agreement nennt. In einer Nominalphrase (normalerweise ein Artikel und ein Nomen, evtl. dazwischen noch Adjektive) z.B. müssen die Konstituenten in Kasus (Fall), Numerus (Singular vs. Plural) und Genus (männlich, weiblich, sächlich) übereinstimmen. *der groß katzen ist einfach nicht korrekt. Korrekt wäre die großen katzen oder der große kater oder …

Unsere Grammatik muss das berücksichtigen. Deswegen reichen die die beiden Regeln für NPs vom letzten Mal nicht aus. Damals hatten wir

NP -> D_fem N_fem
NP -> D_mas N_mas

festgelegt. Das muss erweitert werden:

NP_fem_nom_sg -> D_fem_nom_sg N_fem_nom_sg
NP_mas_nom_sg -> D_mas_nom_sg N_mas_nom_sg
NP_neu_nom_sg -> D_neu_nom_sg N_neu_nom_sg
NP_fem_nom_pl -> D_fem_nom_pl N_fem_nom_pl
NP_mas_nom_pl -> D_mas_nom_pl N_mas_nom_pl
NP_neu_nom_pl -> D_neu_nom_pl N_neu_nom_pl

Wir sehen schon, dass die Angelegenheit dadurch nicht schöner wird. Noch unschöner wird es, wenn wir berücksichtigen, dass es auch zwischen Subjekt und Verb eine Übereinstimmung in Person und Numerus geben muss: *die frau schlafen ist genau deswegen falsch. Unsere S -> NP V-Regel müsste also abgewandelt werden:

S -> NP_3_sg V_3_sg
S -> NP_3_pl V_3_pl

Und an dieser Stelle brechen wir das Experiment ab, weil mittlerweile klar sein sollte, dass ein derart gebautes System praktisch unmöglich zu warten oder zu überblicken ist (zudem gibt es Zweifel, ob es theoretisch möglich ist). Denn zusätzlich zu der einfach Subjekt-Verb-Übereinstimmung gibt komplexere Beziehungen, die die Zahl der Regeln jedesmal enorm aufbläht.

Was man stattdessen macht: Man parametrisiert die Regeln[1]. Konkret: Statt unzähliger Regeln wie oben definieren wir nur noch eine einzige:

NP(?gen, ?kas, ?num) -> D(?gen, ?kas, ?num) N(?gen, ?kas, ?num)

Diese Regel würde dem Grammatiksystem sagen, dass, wenn immer es einen Artikel und ein Nomen zu einer NP zusammenwirft, Genus, Kasus und Numerus übereinstimmen müssen (Nicht-Informatiker können sich das als Textersetzungen vorstellen, wobei die mit ? markierten Variablen jeweils übereinstimmen müssen).

Die Satz-Regel würde dann so aussehen:

S(3,?num) -> NP(?_, nom, ?num) V(3, ?num)

In diesem Fall zeigt ?_, dass wir alles erlauben, während ‘nom’ bereits festgelegt ist. Auch erlauben wir Verben nur in der dritten Person, weil Nominalphrasen in der dritten Person sind. Für Sätze wie “Ich schlafe” brauchen wir Pronomen, die unser Lexikon derzeit noch nicht enthält. A propos: Das Lexikon:

V(3, sg) -> schläft
V(3, pl) -> schlafen
D(mas, nom, sg) -> der
D(fem, nom, sg) -> die
D(?_, nom, pl) -> die
N(fem, nom, sg) -> frau
N(fem, nom, pl) -> frauen
N(mas, nom, sg) -> mann
N(mas, nom, pl) -> männer

Damit erkennt unsere Grammatik die folgenden Sätze:

  • die frau schläft
  • die frau schlafen
  • der mann schläft
  • die männer schlafen

Der Satz “die frauen schlafen” sieht dann z.B. so aus:

Mit diesen Zutaten können wir eine einfache Grammatikprüfung programmieren, wie sie in einigen Schreibprogrammen Anwendung findet. Für komplexere (und spannendere) Anwendungen der Computerlinguistik brauchen wir natürlich mehr Informationen, als dass “die frau schläft” ein Satz ist. Und dazu kommen wir beim nächsten Mal (auch weil mich die ganzen schlafenden Leute müde gemacht haben …).

Anmerkungen

[1]: Das ist eine Vereinfachung. Grammatiktheorien wie HPSG oder LFG sind natürlich nicht bloß parametrisierte kontextfreie Grammatiken. Aber ich tue jetzt mal so als ob.

October 28th, 2006 Kategorie: Lehrstück

Leave a Comment

Required

Required, hidden

Some HTML allowed:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Trackback this post  |  Subscribe to the comments via RSS Feed


Werbung

Kategorien

Aktuell

Aktueller Beitrag der Wisskomm-Wochenshow.

Hard Blogging Scientists (Auswahl)

Feeds

Unterstützt von

node3000.com
node3000

Digital Tools Magazine