Spracherkennung für Resourcenarme Sprachen

Zusammenfassung

Spracherkennung für nichtgeschriebene Sprachen
Spracherkennung für nichtgeschriebene Sprachen Zoom

In dieser Arbeit untersuchen wir, wie Wörter und ihre Aussprachen unüberwacht aus kontinuierlicher Sprache extrahiert werden können. Dieses Vorgehen ist vor Allem für Spracherkennung in Sprachen interessant, die über wenig Resourcen verfügen oder keine schriftliche Repräsentation besitzen. In diesem Rahmen stellen wir das Konzept von zwischensprachlichen Wort-zu-Phonem Alignments vor, das Wortaussprachen in der Zielsprache mithilfe von Übersetzungen in einer Quellsprache bestimmt. Falls nur die Sprachdaten der Zielsprache existieren, können die Übersetzungen in die Quellsprache von einem menschlichen Übersetzer produziert werden. Andernfalls übersetzt ein menschlicher Sprecher Sätze in der Quellsprache in gesprochene Sätze in der (ungeschriebenen) Zielsprache. Wir nutzen die Sätze der Quellsprache um Wortaussprachen in der Zielsprache zu finden: Durch die automatische Zuordnung von Quellsprachenwörtern zu Phonemen in der Zielsprache segmentieren wir die Phonemsequenz in wortähnliche Stücke (Wortsegmentierung). Die entstehende Segmente interpretieren wir als Wortaussprachen, die jedoch stark durch Alignment- und Phonemerkennungsfehler verrauscht sind. Deswegen entwickeln wir das Alignment Model Model 3P, das speziell für Wort-zu-Phonem Alignments entworfen ist. Aussprachen können entweder quellwortabhängig oder -unabhängig von Alignments extrahiert werden. Bei quellwortunabhängiger Extraktion stellen wir eine Erweiterung des traditionellen k-means Algorithmus vor, die speziell auf Probleme abzielt, die bei der Anwendung von k-means auf eine Menge von Wortaussprachen entstehen. Alle Methoden erweisen sich als effektiv um Alignment- und Phonemerkennungsfehler zu kompensieren. Wir testen unseren Ansatz auf unserem parallelen Korpus aus 15 Übersetzungen in 10 Sprachen von der christlichen Bibel. Auf diesem Korpus gelingt es uns, mit verrauschten Phonemsequenzen in der Zielsprache (45.1% Fehler) und einer spanischen Bibelübersetzung ein Aussprachewörterbuch mit einer Out-Of-Vocabulary Rate von 4.5% zu erstellen, in dem 64\% der Aussprachen nicht mehr als ein falsches Phonem beinhalten. Wir erzielen weitere Verbesserungen wenn wir mehrere Quellsprachen kombinieren. Mittels einer neuen Methode zur Kombination von verrauschten Wortsegmentierungen können wir die Genauigkeit (gemessen in F-Score) um bis zu 11.2% (relativ) verbessern. Letztendlich benutzen wir die extrahierten Wortaussprachen in einem Spracherkenner für die Zielsprache und berichten vielversprechende Wortfehlerraten -- unter der Bedingung dass das Aussprachwörterbuch und das Sprachmodel komplett unüberwacht gelernt werden und kein Schriftsystem in der Zielsprache benötigt wird. Wenn mehrere Quellsprachen eingebunden werden, können wir die Erkennungsleistung um 9.1% relativ verglichen mit dem besten System mit nur eine Quellsprache, und um 50.1% verglichen mit einem monolingualen Wortsegmentierungsansatz verbessern.

Downloads