Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.
- Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
- Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.
Karakterfrequentie
Karakterfrequentie of letterfrequentie geeft aan hoe vaak een karakter of letter wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter e hoger zijn dan die van de letter x. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke spellingcontrole.
De onderzoeksmethode bepaalt sterk de gevonden resultaten. Bij de opzet van het hieronder beschreven onderzoek is het onduidelijk wat het verband is met de alledaagse schrijftaal.
Een Nederlands onderzoek
De stichting OpenTaal heeft onderzoek gedaan naar de karakterfrequentie in Nederlandse woorden.[1] De resultaten zijn hieronder als staafdiagram en als tabel weergegeven. Hierin is de telling van karakters uit een door de Nederlandse Taalunie goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet per karakter. De resultaten zeggen daarom niets over de frequentie waarmee karakters werkelijk gebruikt worden, alleen hoeveel woorden in de lijst het karakter bevatten. 89 procent van de Nederlandse woorden blijkt de e, het meest voorkomende karakter, minstens een keer te bevatten. Cijfers zijn verhoudingsgewijs zeldzaam in de lijst, omdat er niet veel woorden zijn die cijfers bevatten. Een voorbeeld is F-16-gevechtsvliegtuig. De komma ontbreekt geheel, omdat die niet in woorden voorkomt, maar de punt wordt gebruikt in afkortingen. Zoals aangegeven, worden niet de letters zelf geteld, maar de woorden waarin die letters voorkomen. Zo voegt het woord gedegenereerd maar één e toe aan het totaal en uiteraard ook van de g, de d en de r elk slechts een.
De onderzoeker zelf suggereert dat de lijst nuttig kan bij woordspellen, zoals Scrabble en Wordfeud.
Het aantal bij elk teken geeft aan hoeveel woorden het karakter één of meer keer bevatten. De lijst bevat letters, cijfers en leestekens. Letters met diakritische tekens, zoals ä en ç, worden apart geteld. Tussen hoofdletters en kleine letters wordt geen verschil gemaakt.
Karakter | Frequentie |
---|---|
e | 281.536 |
r | 201.598 |
n | 196.655 |
i | 177.801 |
t | 176.453 |
s | 167.339 |
a | 162.193 |
o | 150.436 |
l | 137.916 |
d | 123.618 |
g | 111.562 |
k | 86.300 |
u | 77.625 |
p | 77.094 |
m | 73.700 |
c | 67.385 |
h | 66.074 |
b | 66.020 |
v | 62.374 |
j | 46.099 |
w | 39.207 |
f | 37.757 |
z | 27.460 |
y | 5.464 |
- | 5.107 |
x | 3.114 |
' | 2.212 |
ë | 1.852 |
1.623 | |
q | 902 |
ï | 680 |
é | 562 |
è | 330 |
ö | 235 |
. | 196 |
ê | 86 |
ü | 75 |
1 | 55 |
2 | 34 |
6 | 34 |
3 | 33 |
5 | 27 |
4 | 25 |
0 | 25 |
7 | 22 |
ç | 22 |
à | 21 |
8 | 17 |
û | 12 |
9 | 11 |
î | 11 |
ñ | 8 |
ä | 5 |
ô | 3 |
Zie ook
Bronvermelding
Bronnen, noten en/of referenties:
- º van Geloven, Sander, Karakterfrequentie, OpenTaal, 3 september 2011
}