Capita Selecta bij HMI Over HMI Afstuderen bij HMIStages bij HMI

 

Wouter Joosse

Email:

Homepage: http://wwwhome.ewi.utwente.nl/~joosse


Afstudeeropdracht

Titel: User Trainable Fact Extraction
Instituut:-
Begindatum: 01-01-2007
Voltooid: Ja
Verslag:http://hmi.ewi.utwente.nl/verslagen/afstudeer/JoosseWouterFinalThesis.pdf
Begeleider: Rieks op den Akker
Onderwerpen: Speech and Language Technology, Information Engineering
Beschrijving:
Bedrijf: ParaBotS

De opdracht is een information retrieval systeem te ontwikkelen dat feiten uit documenten kan extraheren, getrained door de gebruiker die in een 5 tot 10-tal documenten door annotaties aangeeft welke gegevens hij interessant vindt. Het systeem zoekt zelf aanverwante documenten en probeert dezelfde soort gegevens te vinden.
In eerste instantie zal er gekeken moeten worden hoe de feiten, de relaties tussen annotaties, gerepresenteerd moeten worden.
Om de gegevens uit de documenten te extraheren is een Information Extraction algoritme nodig. Dit moet in staat zijn om de bekende annotaties te extraheren. Op dit gebied is veel onderzoek gedaan. Er is besloten van twee bestaande algoritmen en een bij ParaBots eerder geïmplementeerd algoritme gebruik te maken voor het UTFE systeem. Ook moet er een programma geïmplementeerd worden welke de annotaties samenvoegt tot een feit.
De focus ligt in eerste instantie op persoonsgegevens: namen van personen en hun beroep, geboortedatum, adres, familierelaties, geboorteplaats, etc. Hierbij worden zowel Engelse als Nederlandse documenten gebruikt.
Er zal onderzocht worden wat de invloed van de gebruiker moet zijn om het systeem optimaal te laten functioneren


Stageopdracht

Titel: User Trainable Fact Extraction
Instituut: Parabots
Plaats: Amsterdam
Land: Nederland
Begindatum: 01-09-2006
Voltooid: Nee
Begeleider: Rieks op den Akker
Begeleider extern:Marten den Uyl
Onderwerpen:
Beschrijving:
Het is de bedoeling om een systeem te ontwerpen dat in staat is gegevens die door de gebruiker aangegeven zijn ook uit andere documenten te extraheren. Om dit te kunnen bewerkstelligen is het noodzakelijk dat er gekeken wordt naar manieren om voorbeeldteksten te kunnen annoteren met behulp van al aanwezige of zelf opgezette annotatie programma’s. Met een annotatie programma is het de bedoeling dat de gebruiker duidelijk kan aangeven welke feiten voor hem van belang zijn. Het systeem hierachter moet op een Machine Learning manier proberen deze annotatie-informatie te gebruiken om soortgelijke feiten ook uit andere documenten te extraheren. Hierbij moet gedacht worden aan methoden die naar de context van de informatie kijken, woordsoorten of eventueel naar opmaak eigenschappen, etc.

Een toepassing van dit systeem kan zijn dat een gebruiker met behulp van het annotatieprogramma op een viertal restaurant sites aangeeft waar de openingstijden en de dagschotel aangegeven staan. Dit is dus de informatie waarin de gebruiker geïnteresseerd is in dit type documenten. Het annotatie programma kan met behulp van de XENON zoekmachine een grote collectie restaurant sites naar voren halen en hier dan de openingstijden en dagschotels uit filteren. Op dit moment is het al mogelijk om deze informatie uit de site te extraheren alleen gaat dit met handmatig ontwikkelde, regelgebaseerde methoden. Er is dus van tevoren bekend welke informatie nodig is en er is onderzocht op welke manier deze informatie het beste uit de documenten gefilterd kan worden. Het doel van user trainable fact extraction is dat het extractieproces automatisch ontwikkeld wordt en er niet handmatig gekeken moet worden op welke manier deze informatie het beste uit de tekst gefilterd kan worden.


Capita Selectaopdracht

Titel: Categorizing news broadcasts with a newspaper classifier
Instituut: University of Twente (HMI)
Plaats: Enschede
Land: Nederland
Begindatum: 24-09-2006
Voltooid: Ja
Verslag:http://hmi.ewi.utwente.nl/verslagen/capita-selecta/CS-Joosse-Wouter.pdf
Begeleider: Roeland Ordelman
Onderwerpen: Multimedia Retrieval, Speech and Language Technology
Beschrijving:
Searching for certain news items about a certain subject in news broadcasts is a difficult task. Usually the broadcasts are indexed by key words. Categorization by subject is done by human annotators and is a time consuming task. Because speech recognition documents of the broadcasts contain too much noise, this paper suggests an alternate approach to categorize the news broadcasts. A classifier trained on newspaper articles will be used to categorize the news broadcasts by their subjects. The ultimate goal is to categorize the news broadcasts by speech recognition, but this paper categorizes the broadcasts by their teletext subtitles. This research shows that the classifier is capable of categorizing the broadcasts, and out performs a simple keyword search algorithm.