Dutch speech recognition: various assignments (Dutch only!)

Title:Dutch speech recognition: various assignments (Dutch only!)
Institute:University of Twente (HMI)
Place:Enschede The Netherlands
Type:Capita selecta and Research Topics
End date:not present
HMI ContactLaurens van der Werff

 

(Note: these assignments require some knowledge of Dutch.)

1. Postprocessing van een automatische transcriptie

De Nederlandstalige spraakherkenner van HMI levert resultaten die zich met de beste systemen kunnen meten. Momenteel bestaat de output echter alleen uit de losse woorden, zonder hoofdletters of leestekens. In veel gevallen is het echter mogelijk om zinnen te onderscheiden en soms zelfs natuurlijke pauzes (komma's). Daarnaast worden sommige woorden volgens de Nederlandse spellings- en grammaticaregels, gegeven een context, met een hoofdletter geschreven.

Voor dit project moet er een systeem gemaakt worden dat automatisch een lange reeks woorden met tijdcodes, soms met markeringen voor sprekerbeurten, kan omzetten in zinnen. Eventueel moeten deze nog worden voorzien van leestekens als komma's, dubbele punten, quotes, etc. Bovendien moeten hoofdletters waar nodig geplaatst worden en kunnen losse woorden soms beter als één samengesteld woord geschreven worden. Er zal hierbij gebruik gemaakt worden van traditionele statistische taalanalyse, maar ook het gebruik van op neurale netten gebaseerde methoden wordt aangemoedigd.

2. Verzamelen van kinderspraak

HMI beschikt over een state-of-the-art spraakherkenner voor het Nederlands die gebruik maakt van deep neural networks (DNN).
Machine learning algoritmes zoals gebruikt in DNN's werken het best als er veel data beschikbaar is en als deze data zo veel mogelijk lijkt op de toepassing. Bijvoorbeeld: als we kinderspraak willen herkennen is het onverstandig om onze modellen (uitsluitend) te trainen op volwassenen. De standaard databases waarop we meestal trainen bieden echter weinig diversiteit in gebruikers.

De doelstelling van dit project is de ontwikkeling van een toepassing die kan worden ingezet op een locatie waar kinderen komen (bijvoorbeeld Nemo) zodat op een gecontroleerde wijze kinderspraak kan worden verzameld. Door een slimme taakomschrijving kan dan zoveel mogelijk automatisch een transcriptie van de spraak gegeneerd worden, waarna deze spraak geschikt is om te gebruiken voor het trainen van nieuwe en betere modellen. Zaken die speciaal aandacht verdienen zijn de specifieke capaciteiten van de gebruikers en de presentatie.

3. Automatische verwerving van trainingsmateriaal voor machine-learning toepassingen

De Nederlandstalige spraakherkenner van HMI presteert zeer goed op hoge kwaliteit spraak (Broadcast News). Om echter ook in andere domeinen goede resultaten te behalen is het nodig om meer spraak en taalvoorbeelden te hebben om onze modellen op te trainen. Trainingsmateriaal dat veel lijkt op de toepassing zorgt ervoor dat de herkenner optimaal kan presteren. Veel van dit soort materiaal kan gevonden worden door bijvoorbeeld via internet te zoeken, of ligt reeds opgeslagen in een archief maar is niet direct in een vorm die te gebruiken is voor het trainen van Machine Learning algoritmes.

Voor dit project is het de bedoeling dat je tools ontwikkelt die semi-automatisch bestaande databronnen openen voor gebruik als trainingsmateriaal voor een spraakherkenningssysteem. Voorbeelden zijn het automatisch oplijnen en selecteren van ondertitelde spraak in een beeldarchief, of het oogsten van taalvoorbeelden uit sociale media of andere tekstuele bronnen. Andere ideeën zijn ook welkom.