DorfWiki: HansGertGraebe/SeminarWissen/2020-07-09

Hans Gert Graebe / Seminar Wissen /
2020-07-09

Home
Neues
TestSeite
DorfTratsch

Suchen
Teilnehmer
Projekte

Bildung+Begegnung
DorfErneuerung
Dörfer
NeueArbeit
VideoBridge
VillageInnovationTalk

AlleOrdner
AlleSeiten
Hilfe

Einstellungen

SeiteÄndern

Veränderung (letzte Änderung) (Autor, Normalansicht)

Entfernt: 11d10

Seminararbeit

Sprachmodelle im Natural Language Processing

Termin: 9. Juli 2020 15.15 Uhr

Ort: Seminargebäude, SG 3-13 oder virtuell im BBB-Raum https://conf.informatik.uni-leipzig.de/b/gra-y36-wd4

Thema: Franziska Meyer: Sprachmodelle im Natural Language Processing

Folien zum Vortrag
Chat-Protokoll

Ankündigung

Natural Language Processing (NLP) ist bereits fast allgegenwärtig und kann auch in kommenden Jahren viel für verbesserte Interaktivität und Automatisierung sorgen. Entsprechend wird sich im kommenden Vortrag mit NLP genauestens auseinandergesetzt, indem der Ablauf eines NLP Prozesses in seine Einzelteile zerlegt und betrachtet wird. Weiter wird sich damit befasst, welche Rolle Sprachmodellen dabei zukommt. Außerdem werden einige Anwendungsgebiete von NLP in der Praxis vorgestellt, welche sich NLP zu Nutze machen.

Franziska Meyer, 01.07.2020

Anmerkungen

Natural Language Processing (NLP) hat inzwischen, dank der Potenziale von Machine Learning, eine beachtliche Leistungsfähigkeit erreicht. Siri, Alexa und Cortona als die Flaggschiffe großer IT-Firmen zeigen, dass Ein- und Ausgaben sogar in gesprochener Sprache möglich sind und "die Geräte mitdenken". Wem kommt da nicht HAL 9000 in Erinnerung, die kluge und fürsorgliche Raumschiffmaschine in Stanley Kubricks Klassiker "2001: Odyssee im Weltraum"?

Analyse und Synthese gesprochener Sprache ist ein separater Baustein in diesem Prozess, in dem ähnliche Technologien der Mustererkennung wie auch bei OCR zum Einsatz kommen, um "Sprache" zunächst einmal in "Schriftsprache" zu verwandeln. Dieser technisch, nicht aber konzeptionell anspruchsvolle Bereich wurde im Vortrag und der Seminardiskussion ausgeblendet.

Genauer vorgestellt wurden Techniken des Machine Learning, mit denen heute geschriebene Texte analysiert werden. Wesentliche Schritte wie Tokenisierung, lexikalische und morphologische Analyse, syntaktische und semantische Analyse wurden vorgestellt. Offen blieb der theoretische Hintergrund – warum ist Sprache so aufgebaut? Ist jede Sprache so aufgebaut? Der Vortrag ging implizit davon aus "Das wisst ihr ja alle noch aus der Schulzeit". Jenes Wissen bezieht sich natürlich vor allem auf die deutsche Sprache – Worte, Wortstämme, Flexion, Konjugation, Substantive, Verben, Adjektive, Fälle, Steigerungsformen, Satzaufbau, Satzstellung, Grammatik ... Damit haben wir aber gerade einmal den syntaktischen Aufbau einer Sprache im Blick, was auch Computer heute gut beherrschen.

Wie aber kommt mit solchen komplexen syntaktischen Konstrukten Semantik zum Ausdruck? Wie bildet sich Verstehen? Eingangs des Vortrags wurde erläutert, dass dasselbe syntaktische Konstrukt "Bank" sehr verschiedenes bedeuten kann – eine Parkbank oder eine Geldbank. Die Ambiguität habe ich eben durch zwei Sprachzusätze aufgelöst. Aber wie geht das allgemein? Wie funktioniert "Named Entity Recognition"? Muss dazu Kontext analysiert werden (wie gerade im Beispiel)? "Kontext muss erfasst werden" (Folie 6) vs. "Kontextfreie Grammatik als Basis des regelbasierten NLP" (Folie 20) – die Referentin bleibt in der Frage unschlüssig. Wie also können wir nicht nur schlaue, wohlgeformte Sätze bilden oder erkennen, sondern auch solche, die etwas bedeuten? Wieso war Eliza zu ihrer Zeit so erfolgreich, obwohl dem Konstrukteur selbst klar war, dass sie nichts Bedeutendes zu sagen hatte, sondern nur auf plumpem Niveau syntaktisch Korrektes zusammenstellte? Welche Bedeutung hat es, wenn der Kommunikationspartner Bedeutendes erwartet? Ist Sprache ein Medium, das Bedeutung allein überträgt wie die Schallplatte die Musik? Am einen Ende wird die Musik auf das Trägermedium aufgeprägt, am anderen Ende durch Interpretation wieder ausgelesen?

Neben dem Thema "Daten und Information, Interpretationen und Interpretationen von Interpretationen" enthält die Vorlesung einen größeren Teil zum Thema "kooperatives Handeln". Dort wird ein Praxisprozess entwickelt, der sich zwischen begründeten Erwartungen und erfahrenen Ergebnissen bewegt und die beiden Sozialisierungen – der Begründungs- und der Erfahrungsprozesse – genauer beleuchtet. In jenem Teil des Kurses wird ein Thema der ersten Vorlesung aufgenommen, der Zusammenhang von Technik und Sprache. Technik wird in jener ersten Vorlesung als "geronnene Sprache" charakterisiert, der "Stand der Technik" als ein auch gerichtsrelevanter Begriff, welche Verstehenshöhe im Alltag von einer voll geschäftsfähigen Person erwartet wird. Was hat das alles mit NLP und Maschinen zu tun, von denen nun auf einmal auch "Verstehen" erwartet wird? Leider hat das Teslaauto 2016 nicht "verstanden", dass das weiße Etwas keine Reklametafel, sondern ein LKW-Anhänger war ... Seither ist viel passiert ...

Hans-Gert Gräbe, 10.07.2020

OrdnerVeranstaltungen