Wikisage, de vrije encyclopedie van de tweede generatie, is digitaal erfgoed

Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.

  • Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
  • Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.
rel=nofollow

Karakterfrequentie

Uit Wikisage
Naar navigatie springen Naar zoeken springen

Karakterfrequentie of letterfrequentie geeft aan hoe vaak een karakter of letter wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter e hoger zijn dan die van de letter x. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke spellingcontrole.

De onderzoeksmethode bepaalt sterk de gevonden resultaten. Bij de opzet van het hieronder beschreven onderzoek is het onduidelijk wat het verband is met de alledaagse schrijftaal.

Een Nederlands onderzoek

De stichting OpenTaal heeft onderzoek gedaan naar de karakterfrequentie in Nederlandse woorden.[1] De resultaten zijn hieronder als staafdiagram en als tabel weergegeven. Hierin is de telling van karakters uit een door de Nederlandse Taalunie goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet per karakter. De resultaten zeggen daarom niets over de frequentie waarmee karakters werkelijk gebruikt worden, alleen hoeveel woorden in de lijst het karakter bevatten. 89 procent van de Nederlandse woorden blijkt de e, het meest voorkomende karakter, minstens een keer te bevatten. Cijfers zijn verhoudingsgewijs zeldzaam in de lijst, omdat er niet veel woorden zijn die cijfers bevatten. Een voorbeeld is F-16-gevechtsvliegtuig. De komma ontbreekt geheel, omdat die niet in woorden voorkomt, maar de punt wordt gebruikt in afkortingen. Zoals aangegeven, worden niet de letters zelf geteld, maar de woorden waarin die letters voorkomen. Zo voegt het woord gedegenereerd maar één e toe aan het totaal en uiteraard ook van de g, de d en de r elk slechts een.

De onderzoeker zelf suggereert dat de lijst nuttig kan bij woordspellen, zoals Scrabble en Wordfeud.

Bestand:Nederlandse-karakters-histogram.png
Frequentieverdeling van Nederlandse karakters,
in 315.779 Nederlandse woorden zonder eigennamen.
OpenTaal 2.00 2011-01-24
N.B.: De verticale as heeft een logaritmische schaal.

Het aantal bij elk teken geeft aan hoeveel woorden het karakter één of meer keer bevatten. De lijst bevat letters, cijfers en leestekens. Letters met diakritische tekens, zoals ä en ç, worden apart geteld. Tussen hoofdletters en kleine letters wordt geen verschil gemaakt.

Karakter Frequentie
e 281.536
r 201.598
n 196.655
i 177.801
t 176.453
s 167.339
a 162.193
o 150.436
l 137.916
d 123.618
g 111.562
k 86.300
u 77.625
p 77.094
m 73.700
c 67.385
h 66.074
b 66.020
v 62.374
j 46.099
w 39.207
f 37.757
z 27.460
y 5.464
- 5.107
x 3.114
' 2.212
ë 1.852
1.623
q 902
ï 680
é 562
è 330
ö 235
. 196
ê 86
ü 75
1 55
2 34
6 34
3 33
5 27
4 25
0 25
7 22
ç 22
à 21
8 17
û 12
9 11
î 11
ñ 8
ä 5
ô 3

Zie ook

Bronvermelding

Bronnen, noten en/of referenties:

  1. º van Geloven, Sander, Karakterfrequentie, OpenTaal, 3 september 2011
rel=nofollow
Q520562 op Wikidata  Intertaalkoppelingen via Wikidata (via reasonator)
rel=nofollow
rel=nofollow

}