EO

Grootste raadsel van computationele taalkunde opgelost

23 augustus 2017 om 10:39 uur - Nijmegen

Wist je dat in iedere taal het meest voorkomende woord ongeveer twee keer zo vaak voorkomt als het op een na meest voorkomende woord? Deze wet genaamd ‘Zipf's law' is al ruim een eeuw oud, maar tot nu toe lukte het wetenschappers niet om het verschijnsel precies te verklaren. Taalwetenschapper Sander Lestrade van de Radboud Universiteit publiceerde een oplossing in het wetenschappelijk tijdschrift Plos One.


De wet van Zipf ofwel Zipf's law beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van zijn rangorde in een frequentietelling. Het meeste voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende woord, drie keer zo vaak als het woord daarna, en zo door tot aan het minst voorkomende woord. Dit geldt voor een hele taal maar ook voor langere teksten.
De wetmatigheid is vernoemd naar de Amerikaanse linguïst George Kingsley Zipf die deze rond 1935 als eerste probeerde te verklaren.

 

Grootste raadsel

"Ik denk dat je best kunt stellen dat Zipf's law het grootste raadsel van de computationele taalkunde is", aldus Sander Lestrade, taalwetenschapper aan de Radboud Universiteit. "Tot nu toe is de wet nooit degelijk taalkundig onderbouwd."

zipf

Zipfiaanse verdeling van de frequentie (verticale as) en rangorde (horizontale as) van Melvilles Moby Dick. De lijn is door Zipf voorspeld, de puntjes geven de daadwerkelijk gevonden frequenties in de tekst.

 

Lestrade toont nu aan dat Zipf's law te verklaren is door de interactie tussen de zinsbouw en regels (syntaxis) en de betekenis van woorden (semantiek) in een tekst. Met behulp van computersimulaties toont de onderzoeker aan dat syntaxis of semantiek op zichzelf geen Zipfiaanse distributie in een tekst tot stand kunnen brengen, maar dat ze elkaar daarvoor nodig hebben.

 

"In de Nederlandse taal, en trouwens ook in de Engelse, zijn er bijvoorbeeld slechts drie lidwoorden, maar tienduizenden zelfstandige naamwoorden", legt Lestrade uit. "Je gebruikt voor bijna ieder zelfstandig naamwoord een lidwoord, en dus komen lidwoorden gemiddeld veel vaker voor dan zelfstandige naamwoorden."

Maar dat is niet voldoende om Zipf's law te verklaren. "Binnen de zelfstandige naamwoorden heb je ook weer grote verschillen. ‘Ding' is bijvoorbeeld veel algemener dan ‘onderzeeboot', en kan dus in principe vaker worden gebruikt. Maar om daadwerkelijk frequent voor te komen, moet een woord ook weer niet te algemeen zijn. Als je de betekenisverschillen binnen woordklassen ‘vermenigvuldigt' met de behoefte aan iedere klasse, dan krijg je een schitterende Zipfiaanse verdeling, die precies zo afwijkt van het Zipfiaanse ideaal als natuurlijke taal doet. Want Zipf's law klopt eigenlijk nét niet helemaal, zoals je kunt zien in de grafiek. De voorspelling en de natuurlijke taal komen heel dicht bij elkaar, maar niet helemaal overeen."

Voorspellingen op basis van Lestrades nieuwe model blijken volledig overeen te komen met verschijnselen in natuurlijke taal. "En mijn theorie geldt voor grofweg alle talen, dus niet alleen voor het Nederlands of het Engels", stelt hij. "Ik vind deze vondst echt heel leuk, en ben overtuigd van mijn oplossing. Maar, de bevestiging moet natuurlijk van andere taalkundigen komen."

 

Lestrade S (2017) Unzipping Zipf's law. PLos One 12(8): e0181987. https://doi.org/10.1371/journal.pone.0181987

 

 

 

Gerelateerd nieuws

david

Rechte nanodraden verklaard in drie minuten (video)

Nanodraden zijn de bouwstenen van kwantumcomputers en dank zij Lucas Güniat zijn hun geheimen nu onthuld. Deze getalenteerde spreker besprak de resultaten van zijn doctoraalstudie over nanodraden in de wedstrijd ‘My…

zorgrobot

Vlaamse zorgrobot werkt samen met zorgverleners (video)

Imec staat mee aan de wieg van de eerste zorgrobot die gericht en persoonlijk kan samenwerken met rusthuisbewoners. De zorgrobot werd gedemonstreerd bij de presentatie van de resultaten van het imec.icon-project Wonder,…

hitomi

Kosmisch recept voor elementen lijkt universeel

Hoe zijn alle elementen precies ontstaan in het heelal? Onderzoek daarnaar springt vooruit dankzij nieuwe telescopen en betere modellen voor analyse van de waarnemingen. Leerden we nog kortgeleden dat er aardmassa's…

Gratis nieuwsbrief

EOL

 

Focus op

ABB BV
ABB BV

Machineveiligheid, systemen en componenten

B&R Industriële Automatisering BV
B&R Industriële Automatisering BV

Perfection in Automation

Pilz Nederland
Pilz Nederland

Voor industriële (veilige) automatiseringsoplossingen

Rotero Holland BV
Rotero Holland BV

Stappenmotor - Servomotor - Elektro Magneet

Product van de maand

RSS
Lichtschermen PSENopt slim – Beveiliging voor krappe ruimtes

Pilz breidt zijn aanbod lichtschermen uit met de familie PSENopt slim. Deze lichtschermen zijn met hun smalle formaat...

Download gratis engineering boeken

A gratis boeken downloaden

 

Agenda

23 november 2017, Amersfoort

Opgeruimd denken en dan schrijven voor ingenieurs

Training wordt verzorgd door: PAO Techniek en Management Postbus 5048, 2600 GA Delft Tel: ...

23 november 2017, Amersfoort

Toxicologie

Giftige stoffen: van blootstelling tot risicoschatting

28 november 2017, Neurenberg

SPS IPC Drives

Elektrische automatisering - systemen en componenten

Meer agendapunten »