Vokabularextraktion durch Zwischensprachliches Alignment

Zusammenfassung

Unser Ansatz
Unser Ansatz Zoom

Im Rahmen dieser Arbeit untersuchen wir, wie sich zwischensprachliche Informationen nutzen lassen, um das Vokabular einer ungesehenen Zielsprache zu extrahieren. Zunächst lernen wir das Alignment zwischen der Phonemsequenz in der Zielsprache und der Wortsequenz in der Quellsprache. Dann nutzen wir dieses Alignment, um die Phonemsequenz der Zielsprache in Wörter zu segmentieren und anhand dessen das Vokabular der Zielsprache aufzubauen. Unserer Ansatz benötigt nur einen Phonemerkenner in einer verwandten Quellsprache, geschriebene Sätze in der Quellsprache und deren gesprochene Übersetzungen in der Zielsprache. Wir stellen Methoden zur Bereinigung von Alignment- und Phonemerkennungsfehlern vor. Zur Auswertung unserer Methoden dienten ein neu gesammelter Korpus (Basic Medical Expression Database) aus 200 parallelen Sätzen in Englisch, Deutsch, Kroatisch und Slowenisch und 2,5 Stunden kroatische und slowenische Sprachdaten. Unser Ansatz zielt auf die maschinelle Übersetzung und Spracherkennung von Sprachen ab, die über wenig linguistische Ressourcen verfügen oder keine geschriebene Repräsentation besitzen.

Meine Bachelorarbeit entstand im Rahmen einer Kooperation zwischen dem Karlsruhe Institut für Technologie und der Carnegie Mellon University und während eines Forschungsaufenthalts an dem Qatar Computing Research Institute in Doha.

Downloads