|
|
Regel 1: |
Regel 1: |
| '''Karakterfrequentie''' of '''letterfrequentie''' geeft aan hoe vaak een [[Karakter (informatica)|karakter]] of [[letter]] wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter ''e'' hoger zijn dan die van de letter ''x''. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke [[spellingcontrole]]. | | '''Karakterfrequentie''' of '''letterfrequentie''' geeft aan hoe vaak een [[Karakter (informatica)|karakter]] of [[letter]] in de [[schrijftaal]] wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter ''e'' hoger zijn dan die van de letter ''x''. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke [[spellingcontrole]]. |
| | |
| De [[wetenschappelijke methode|onderzoeksmethode]] bepaalt sterk de gevonden resultaten. Bij de opzet van het hieronder beschreven onderzoek is het onduidelijk wat het verband is met de alledaagse [[schrijftaal]].
| |
| | |
| == Een Nederlands onderzoek ==
| |
| De stichting [[OpenTaal]] heeft onderzoek gedaan naar de karakterfrequentie in Nederlandse woorden.<ref>van Geloven, Sander, [http://opentaal.org/het-laatste-nieuws/171-karakterfrequentie Karakterfrequentie], OpenTaal, 3 september 2011</ref> De resultaten zijn hieronder als [[staafdiagram]] en als tabel weergegeven. Hierin is de telling van karakters uit een door de [[Nederlandse Taalunie]] goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet per karakter. De resultaten zeggen daarom niets over de frequentie waarmee karakters werkelijk gebruikt worden, alleen hoeveel woorden in de lijst het karakter bevatten. 89 procent van de Nederlandse woorden blijkt de ''e'', het meest voorkomende karakter, minstens een keer te bevatten. Cijfers zijn verhoudingsgewijs zeldzaam in de lijst, omdat er niet veel woorden zijn die cijfers bevatten. Een voorbeeld is ''F-16-gevechtsvliegtuig''. De [[komma]] ontbreekt geheel, omdat die niet in woorden voorkomt, maar de [[punt (leesteken)|punt]] wordt gebruikt in [[afkorting]]en. Zoals aangegeven, worden niet de letters zelf geteld, maar de woorden waarin die letters voorkomen. Zo voegt het woord ''gedegenereerd'' maar één ''e'' toe aan het totaal en uiteraard ook van de ''g'', de ''d'' en de ''r'' elk slechts een.
| |
| | |
| De onderzoeker zelf suggereert dat de lijst nuttig kan bij woordspellen, zoals [[Scrabble]] en [[Wordfeud]].
| |
| | |
| [[Bestand:Nederlandse-karakters-histogram.png|thumb|left|600px|Frequentieverdeling van Nederlandse karakters,<br />
| |
| in 315.779 Nederlandse woorden zonder eigennamen.<br />
| |
| {{Aut|OpenTaal 2.00 2011-01-24}}<br />
| |
| ''N.B.: De verticale as heeft een [[logaritmische schaal]].'']]{{Clearboth}}
| |
| | |
| Het aantal bij elk teken geeft aan hoeveel woorden het karakter één of meer keer bevatten. De lijst bevat letters, [[cijfer]]s en [[leesteken]]s. Letters met [[diakritische tekens]], zoals ''ä'' en ''ç'', worden apart geteld. Tussen [[kapitaal (typografie)|hoofdletters]] en [[onderkast|kleine letters]] wordt geen verschil gemaakt.
| |
| | |
| {| class="wikitable sortable"
| |
| ! Karakter !! Frequentie
| |
| |-
| |
| | e || align=right | 281.536
| |
| |-
| |
| | r || align=right | 201.598
| |
| |-
| |
| | n || align=right | 196.655
| |
| |-
| |
| | i || align=right | 177.801
| |
| |-
| |
| | t || align=right | 176.453
| |
| |-
| |
| | s || align=right | 167.339
| |
| |-
| |
| | a || align=right | 162.193
| |
| |-
| |
| | o || align=right | 150.436
| |
| |-
| |
| | l || align=right | 137.916
| |
| |-
| |
| | d || align=right | 123.618
| |
| |-
| |
| | g || align=right | 111.562
| |
| |-
| |
| | k || align=right | 86.300
| |
| |-
| |
| | u || align=right | 77.625
| |
| |-
| |
| | p || align=right | 77.094
| |
| |-
| |
| | m || align=right | 73.700
| |
| |-
| |
| | c || align=right | 67.385
| |
| |-
| |
| | h || align=right | 66.074
| |
| |-
| |
| | b || align=right | 66.020
| |
| |-
| |
| | v || align=right | 62.374
| |
| |-
| |
| | j || align=right | 46.099
| |
| |-
| |
| | w || align=right | 39.207
| |
| |-
| |
| | f || align=right | 37.757
| |
| |-
| |
| | z || align=right | 27.460
| |
| |-
| |
| | y || align=right | 5.464
| |
| |-
| |
| | - || align=right | 5.107
| |
| |-
| |
| | x || align=right | 3.114
| |
| |-
| |
| | ' || align=right | 2.212
| |
| |-
| |
| | ë || align=right | 1.852
| |
| |-
| |
| | || align=right | 1.623
| |
| |-
| |
| | q || align=right | 902
| |
| |-
| |
| | ï || align=right | 680
| |
| |-
| |
| | é || align=right | 562
| |
| |-
| |
| | è || align=right | 330
| |
| |-
| |
| | ö || align=right | 235
| |
| |-
| |
| | . || align=right | 196
| |
| |-
| |
| | ê || align=right | 86
| |
| |-
| |
| | ü || align=right | 75
| |
| |-
| |
| | 1 || align=right | 55
| |
| |-
| |
| | 2 || align=right | 34
| |
| |-
| |
| | 6 || align=right | 34
| |
| |-
| |
| | 3 || align=right | 33
| |
| |-
| |
| | 5 || align=right | 27
| |
| |-
| |
| | 4 || align=right | 25
| |
| |-
| |
| | 0 || align=right | 25
| |
| |-
| |
| | 7 || align=right | 22
| |
| |-
| |
| | ç || align=right | 22
| |
| |-
| |
| | à || align=right | 21
| |
| |-
| |
| | 8 || align=right | 17
| |
| |-
| |
| | û || align=right | 12
| |
| |-
| |
| | 9 || align=right | 11
| |
| |-
| |
| | î || align=right | 11
| |
| |-
| |
| | ñ || align=right | 8
| |
| |-
| |
| | ä || align=right | 5
| |
| |-
| |
| | ô || align=right | 3
| |
| |}
| |
|
| |
|
| == Zie ook == | | == Zie ook == |
Regel 131: |
Regel 5: |
| * [[Woord]] | | * [[Woord]] |
| * [[Woordlengte]] | | * [[Woordlengte]] |
|
| |
| == Referenties ==
| |
| {{References}}
| |
|
| |
|
| [[Categorie:Taalkunde]] | | [[Categorie:Taalkunde]] |