 |
Email:
Homepage: http://wwwhome.ewi.utwente.nl/~joosse
|
|
| Beschrijving: |
Bedrijf: ParaBotS
De opdracht is een information retrieval systeem te ontwikkelen dat feiten uit documenten kan extraheren, getrained door de gebruiker die in een 5 tot 10-tal documenten door annotaties aangeeft welke gegevens hij interessant vindt. Het systeem zoekt zelf aanverwante documenten en probeert dezelfde soort gegevens te vinden.
In eerste instantie zal er gekeken moeten worden hoe de feiten, de relaties tussen annotaties, gerepresenteerd moeten worden.
Om de gegevens uit de documenten te extraheren is een Information Extraction algoritme nodig. Dit moet in staat zijn om de bekende annotaties te extraheren. Op dit gebied is veel onderzoek gedaan. Er is besloten van twee bestaande algoritmen en een bij ParaBots eerder geïmplementeerd algoritme gebruik te maken voor het UTFE systeem. Ook moet er een programma geïmplementeerd worden welke de annotaties samenvoegt tot een feit.
De focus ligt in eerste instantie op persoonsgegevens: namen van personen en hun beroep, geboortedatum, adres, familierelaties, geboorteplaats, etc. Hierbij worden zowel Engelse als Nederlandse documenten gebruikt.
Er zal onderzocht worden wat de invloed van de gebruiker moet zijn om het systeem optimaal te laten functioneren
|
Titel: | User Trainable Fact Extraction |
| Instituut: |
Parabots | | Plaats: | Amsterdam |
| Land: | Nederland |
| Begindatum: | 01-09-2006 |
| Voltooid: |
Nee |
| Begeleider: | Rieks op den Akker |
| Begeleider extern: | Marten den Uyl | |
Onderwerpen: | |
|
| Beschrijving: |
Het is de bedoeling om een systeem te ontwerpen dat in staat is gegevens die door de gebruiker aangegeven zijn ook uit andere documenten te extraheren. Om dit te kunnen bewerkstelligen is het noodzakelijk dat er gekeken wordt naar manieren om voorbeeldteksten te kunnen annoteren met behulp van al aanwezige of zelf opgezette annotatie programma’s. Met een annotatie programma is het de bedoeling dat de gebruiker duidelijk kan aangeven welke feiten voor hem van belang zijn. Het systeem hierachter moet op een Machine Learning manier proberen deze annotatie-informatie te gebruiken om soortgelijke feiten ook uit andere documenten te extraheren. Hierbij moet gedacht worden aan methoden die naar de context van de informatie kijken, woordsoorten of eventueel naar opmaak eigenschappen, etc.
Een toepassing van dit systeem kan zijn dat een gebruiker met behulp van het annotatieprogramma op een viertal restaurant sites aangeeft waar de openingstijden en de dagschotel aangegeven staan. Dit is dus de informatie waarin de gebruiker geïnteresseerd is in dit type documenten. Het annotatie programma kan met behulp van de XENON zoekmachine een grote collectie restaurant sites naar voren halen en hier dan de openingstijden en dagschotels uit filteren. Op dit moment is het al mogelijk om deze informatie uit de site te extraheren alleen gaat dit met handmatig ontwikkelde, regelgebaseerde methoden. Er is dus van tevoren bekend welke informatie nodig is en er is onderzocht op welke manier deze informatie het beste uit de documenten gefilterd kan worden. Het doel van user trainable fact extraction is dat het extractieproces automatisch ontwikkeld wordt en er niet handmatig gekeken moet worden op welke manier deze informatie het beste uit de tekst gefilterd kan worden.
|
|
| Beschrijving: |
|
Searching for certain news items about a certain subject in news broadcasts is a difficult task. Usually the broadcasts are indexed by key words. Categorization by subject is done by human annotators and is a time consuming task. Because speech recognition documents of the broadcasts contain too much noise, this paper suggests an alternate approach to categorize the news broadcasts. A classifier trained on newspaper articles will be used to categorize the news broadcasts by their subjects. The ultimate goal is to categorize the news broadcasts by speech recognition, but this paper categorizes the broadcasts by their teletext subtitles. This research shows that the classifier is capable of categorizing the broadcasts, and out performs a simple keyword search algorithm. |
|
|
|