Sprachtechnologie im täglichen Leben
Nehmen wir an, wir suchen Informationen im Internet, etwa über den Verkauf von Chrysler an Daimler. Das ist kein großes Problem, wir suchen nach verkauf chrysler daimler. Google liefert uns dafür nicht weniger als 465.000 Suchergebnisse, viele davon möchten Autos oder Aktien verkaufen, etwas wie einen Zeitungsartikel über den Verkauf selbst finden wir nicht – zumindest nicht auf den ersten paar Seiten, die für einen Menschen noch erfassbar sind.
Bohlen verlegt Haus könnte eine Überschrift von “Bild” sein. Wir möchten mehr darüber wissen, suchen danach – und finden reihenweise Tipps für Heimwerker, wie man Bohlen in seinem Haus verlegt.
Sicher, beide Beispiele sind zu einem gewissen Maß konstruiert und lassen sich durch Umformulierung und / oder dem Hinzufügen weiterer Stichworte reparieren – ich würde einfach mal wetten, dass jede Leserin und jeder Leser schon des Öfteren Zeit damit vergeudetbraucht hat, die richtige Kombination von Suchbegriffen zu finden.
(photo by nofrills)
Das Problem ist aber eigentlich ein grundsätzliches und hat vor allem damit zu tun, wie wir Menschen Sprache benutzen und wie schwierig das für einen Computer ist. Genau damit beschäftigt sich das Fach “Computerlinguistik” / “Sprachtechnologie”: Mit der Frage, was man alles wissen und tun muss, um Computer in die Lage zu versetzen Sprache so zu verarbeiten und zu produzieren wie Menschen das tun.
Da das das nächste große “Ding” im Bereich Mensch-Maschine-Schnittstelle Sprache sein dürfte (und weil ich es super-interessant finde) möchte ich hier versuchen, in einer kleinen Serie einen Einblick zu geben, mit welchen Problemen man sich als Computerlinguist so herumschlägt und welche Lösungen und Lösungsansätze dafür existieren. Diese Einführung richtet sich dabei ausdrücklich an alle – Fragen und Feedback sind mir herzlich willkommen (auch weil ich zum ersten Mal systematisch versuche, mein Fach zu erklären ;-) ).
Zum Einstieg: Warum gehen die oben skizzierten Beispiele so schief? Im ersten Beispiel fehlt der Suchabfrage die Information, wer wem was verkauft hat. Was wir da bräuchten, wäre eine Angabe, die besagt, dass Daimler der Käufer ist und Chrysler das gekaufte. Dann könnte Google im Internet nach genau dieser Rollenverteilung suchen. Es könnte ja auch genau andersherum sein oder so dass “Chrysler” und “Daimler” nicht als Firmen gemeint sind sondern als Autos der Marke und eben beide verkauft werden.
Im zweiten Beispiel wissen wir ebenfalls nichts über die Rollenverteilung. Dazu kommt aber noch, dass sowohl “Bohlen” als auch “verlegt” mehrdeutig sind. “Bohlen” können eben Holzbohlen oder ein Eigenname sein, “verlegt” kann im Sinne von “Wohnsitz verlegen” oder “Boden verlegen” gebraucht werden.
Für bessere Suchergebnisse braucht man also eine linguistische Analyse, die Rollenzuweisungen vornimmt und Mehrdeutigkeiten nach Möglichkeit auflöst. Mehr Mehrdeutigkeiten gibt’s beim nächsten Mal, sie treten nämlich auf vielen unterschiedlichen Ebenen auf (und werden von Menschen normalerweise oft nichtmal bemerkt).
October 4th, 2006 Kategorie: Lehrstück
1 Comment
1. The original hard bloggin&hellip | October 7th, 2006 at 11:00 pm
[…] Mehrdeutigkeiten – also Wörter, Satzteile oder Satzstrukturen, die mehr als eine Bedeutung haben können – sind ein echtes Problem für alle, die natürliche Sprache verarbeiten wollen. Denn Mehrdeutigkeiten treten nicht nur, wie beim letzten Mal gesehen, in verstümmelten Sätzen oder Stichworten auf. Ganze Sätze können, obwohl sie grammatikalisch wunderbares Deutsch sind, mehrere Bedeutungen haben. […]
Trackback this post