|
Project Name: SoNaR
Abbreviation: SoNaR Start date:
January 1, 2008 End date:
December 1, 2011 Project Description:
Het SoNaR-project beoogt de aanleg van een groot corpus (minimaal
500 miljoen woorden) hedendaags geschreven Nederlands dat als algemene
referentie kan dienen voor allerlei onderzoek naar taal en
taalgebruik. Daarbij valt te denken aan beschrijvend onderzoek (zoals
dat zijn weerslag vindt in bv woordenboeken en grammatica's), maar ook
aan onderzoek op het gebied van de taal- en spraaktechnologie. Voor
dergelijk onderzoek is het van groot belang dat men beschikt over
grote hoeveelheden data met de mogelijkheid deze data met eigen
software te kunnen bewerken.
Het corpus zal worden samengesteld aan de hand van het ontwerp dat
daartoe werd gemaakt in het D-Coi project. In het corpus worden enkel
(standaard) Nederlandstalige teksten opgenomen van na 1954. Dit kunnen
teksten zijn die geschreven werden door moedertaalsprekers van het
Nederlands, maar ook teksten die door professionele vertalers uit een
vreemde taal werden vertaald naar het Nederlands. Er worden teksten
verzameld die afkomstig zijn uit uiteenlopende domeinen en genres,
waarbij tevens gekeken wordt naar een brede afdekking van onderwerpen.
Voor zover mogelijk worden volledige teksten opgenomen. Dit voorkomt
dat op voorhand bepaalde soorten onderzoek worden uitgesloten. In het
corpus worden teksten opgenomen van Nederlandse en ook van Vlaamse
auteurs.
Bij het verzamelen van teksten gaat speciale aandacht uit naar teksten
waar lezers mee in aanraking komen via nieuwe media. Het gaat daarbij
onder meer teksten op websites, sms-berichten, e-mail, en chats. Over
het gebruik van taal in dit soort teksten is nog relatief weinig bekend. |
The following HMI-member(s) is/are coordinator of this Project
Franciska de Jong
Here you can find the publications
|