hmilogo
SoNaR

 

Project Name: SoNaR

Abbreviation: SoNaR

Start date: January 1, 2008

End date: December 1, 2011

Project Description:

Het SoNaR-project beoogt de aanleg van een groot corpus (minimaal 500 miljoen woorden) hedendaags geschreven Nederlands dat als algemene referentie kan dienen voor allerlei onderzoek naar taal en taalgebruik. Daarbij valt te denken aan beschrijvend onderzoek (zoals dat zijn weerslag vindt in bv woordenboeken en grammatica's), maar ook aan onderzoek op het gebied van de taal- en spraaktechnologie. Voor dergelijk onderzoek is het van groot belang dat men beschikt over grote hoeveelheden data met de mogelijkheid deze data met eigen software te kunnen bewerken.

Het corpus zal worden samengesteld aan de hand van het ontwerp dat daartoe werd gemaakt in het D-Coi project. In het corpus worden enkel (standaard) Nederlandstalige teksten opgenomen van na 1954. Dit kunnen teksten zijn die geschreven werden door moedertaalsprekers van het Nederlands, maar ook teksten die door professionele vertalers uit een vreemde taal werden vertaald naar het Nederlands. Er worden teksten verzameld die afkomstig zijn uit uiteenlopende domeinen en genres, waarbij tevens gekeken wordt naar een brede afdekking van onderwerpen. Voor zover mogelijk worden volledige teksten opgenomen. Dit voorkomt dat op voorhand bepaalde soorten onderzoek worden uitgesloten. In het corpus worden teksten opgenomen van Nederlandse en ook van Vlaamse auteurs.

Bij het verzamelen van teksten gaat speciale aandacht uit naar teksten waar lezers mee in aanraking komen via nieuwe media. Het gaat daarbij onder meer teksten op websites, sms-berichten, e-mail, en chats. Over het gebruik van taal in dit soort teksten is nog relatief weinig bekend.

Project-coordinator

The following HMI-member(s) is/are coordinator of this Project

Franciska de Jong

 

Publications

Here you can find the publications

 

 

old Parlevink website   colophon   [Back] .