Wikisage, de vrije encyclopedie van de tweede generatie, is digitaal erfgoed

Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.

  • Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
  • Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.
rel=nofollow

Karakterfrequentie: verschil tussen versies

Uit Wikisage
Naar navigatie springen Naar zoeken springen
(https://nl.wikipedia.org/w/index.php?title=Karakterfrequentie&oldid=45616953)
(Versie 186155 ongedaan gemaakt)
 
Regel 1: Regel 1:
'''Karakterfrequentie''' of '''letterfrequentie''' geeft aan hoe vaak een [[Karakter (informatica)|karakter]] of [[letter]] in de [[schrijftaal]] wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter ''e'' hoger zijn dan die van de letter ''x''. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke [[spellingcontrole]].
'''Karakterfrequentie''' of '''letterfrequentie''' geeft aan hoe vaak een [[Karakter (informatica)|karakter]] of [[letter]] wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter ''e'' hoger zijn dan die van de letter ''x''. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke [[spellingcontrole]].
 
De [[wetenschappelijke methode|onderzoeksmethode]] bepaalt sterk de gevonden resultaten. Bij de opzet van het hieronder beschreven onderzoek is het onduidelijk wat het verband is met de alledaagse [[schrijftaal]].
 
== Een Nederlands onderzoek ==
De stichting [[OpenTaal]] heeft onderzoek gedaan naar de karakterfrequentie in Nederlandse woorden.<ref>van Geloven, Sander, [http://opentaal.org/het-laatste-nieuws/171-karakterfrequentie Karakterfrequentie], OpenTaal, 3 september 2011</ref> De resultaten zijn hieronder als [[staafdiagram]] en als tabel weergegeven. Hierin is de telling van karakters uit een door de [[Nederlandse Taalunie]] goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet per karakter. De resultaten zeggen daarom niets over de frequentie waarmee karakters werkelijk gebruikt worden, alleen hoeveel woorden in de lijst het karakter bevatten. 89 procent van de Nederlandse woorden blijkt de ''e'', het meest voorkomende karakter, minstens een keer te bevatten. Cijfers zijn verhoudingsgewijs zeldzaam in de lijst, omdat er niet veel woorden zijn die cijfers bevatten. Een voorbeeld is ''F-16-gevechtsvliegtuig''. De [[komma]] ontbreekt geheel, omdat die niet in woorden voorkomt, maar de [[punt (leesteken)|punt]] wordt gebruikt in [[afkorting]]en. Zoals aangegeven, worden niet de letters zelf geteld, maar de woorden waarin die letters voorkomen. Zo voegt het woord ''gedegenereerd'' maar één ''e'' toe aan het totaal en uiteraard ook van de ''g'', de ''d'' en de ''r'' elk slechts een.
 
De onderzoeker zelf suggereert dat de lijst nuttig kan bij woordspellen, zoals [[Scrabble]] en [[Wordfeud]].
 
[[Bestand:Nederlandse-karakters-histogram.png|thumb|left|600px|Frequentieverdeling van Nederlandse karakters,<br />
in 315.779 Nederlandse woorden zonder eigennamen.<br />
{{Aut|OpenTaal 2.00 2011-01-24}}<br />
''N.B.: De verticale as heeft een [[logaritmische schaal]].'']]{{Clearboth}}
 
Het aantal bij elk teken geeft aan hoeveel woorden het karakter één of meer keer bevatten. De lijst bevat letters, [[cijfer]]s en [[leesteken]]s. Letters met [[diakritische tekens]], zoals ''ä'' en ''ç'', worden apart geteld. Tussen [[kapitaal (typografie)|hoofdletters]] en [[onderkast|kleine letters]] wordt geen verschil gemaakt.
 
{| class="wikitable sortable"
! Karakter !! Frequentie
|-
| e || align=right | 281.536
|-
| r || align=right | 201.598
|-
| n || align=right | 196.655
|-
| i || align=right | 177.801
|-
| t || align=right | 176.453
|-
| s || align=right | 167.339
|-
| a || align=right | 162.193
|-
| o || align=right | 150.436
|-
| l || align=right | 137.916
|-
| d || align=right | 123.618
|-
| g || align=right | 111.562
|-
| k || align=right | 86.300
|-
| u || align=right | 77.625
|-
| p || align=right | 77.094
|-
| m || align=right | 73.700
|-
| c || align=right | 67.385
|-
| h || align=right | 66.074
|-
| b || align=right | 66.020
|-
| v || align=right | 62.374
|-
| j || align=right | 46.099
|-
| w || align=right | 39.207
|-
| f || align=right | 37.757
|-
| z || align=right | 27.460
|-
| y || align=right | 5.464
|-
| - || align=right | 5.107
|-
| x || align=right | 3.114
|-
| ' || align=right | 2.212
|-
| ë || align=right | 1.852
|-
| || align=right | 1.623
|-
| q || align=right | 902
|-
| ï || align=right | 680
|-
| é || align=right | 562
|-
| è || align=right | 330
|-
| ö || align=right | 235
|-
| . || align=right | 196
|-
| ê || align=right | 86
|-
| ü || align=right | 75
|-
| 1 || align=right | 55
|-
| 2 || align=right | 34
|-
| 6 || align=right | 34
|-
| 3 || align=right | 33
|-
| 5 || align=right | 27
|-
| 4 || align=right | 25
|-
| 0 || align=right | 25
|-
| 7 || align=right | 22
|-
| ç || align=right | 22
|-
| à || align=right | 21
|-
| 8 || align=right | 17
|-
| û || align=right | 12
|-
| 9 || align=right | 11
|-
| î || align=right | 11
|-
| ñ || align=right | 8
|-
| ä || align=right | 5
|-
| ô || align=right | 3
|}


== Zie ook ==
== Zie ook ==
Regel 5: Regel 131:
* [[Woord]]
* [[Woord]]
* [[Woordlengte]]
* [[Woordlengte]]
{{Bron|bronvermelding= {{References}} {{Wikidata|Q520562}}}} }


[[Categorie:Taalkunde]]
[[Categorie:Taalkunde]]

Huidige versie van 10 jan 2016 om 22:58

Karakterfrequentie of letterfrequentie geeft aan hoe vaak een karakter of letter wordt gebruikt in een gegeven context. Binnen de context van Nederlandse woorden zal de karakterfrequentie van de letter e hoger zijn dan die van de letter x. Studies op het gebied van karakterfrequentie spelen een belangrijke rol bij het samenstellen van een zo praktisch mogelijke spellingcontrole.

De onderzoeksmethode bepaalt sterk de gevonden resultaten. Bij de opzet van het hieronder beschreven onderzoek is het onduidelijk wat het verband is met de alledaagse schrijftaal.

Een Nederlands onderzoek

De stichting OpenTaal heeft onderzoek gedaan naar de karakterfrequentie in Nederlandse woorden.[1] De resultaten zijn hieronder als staafdiagram en als tabel weergegeven. Hierin is de telling van karakters uit een door de Nederlandse Taalunie goedgekeurde woordenlijst (zonder eigennamen) [versie 2.00 van OpenTaal] uitgezet per karakter. De resultaten zeggen daarom niets over de frequentie waarmee karakters werkelijk gebruikt worden, alleen hoeveel woorden in de lijst het karakter bevatten. 89 procent van de Nederlandse woorden blijkt de e, het meest voorkomende karakter, minstens een keer te bevatten. Cijfers zijn verhoudingsgewijs zeldzaam in de lijst, omdat er niet veel woorden zijn die cijfers bevatten. Een voorbeeld is F-16-gevechtsvliegtuig. De komma ontbreekt geheel, omdat die niet in woorden voorkomt, maar de punt wordt gebruikt in afkortingen. Zoals aangegeven, worden niet de letters zelf geteld, maar de woorden waarin die letters voorkomen. Zo voegt het woord gedegenereerd maar één e toe aan het totaal en uiteraard ook van de g, de d en de r elk slechts een.

De onderzoeker zelf suggereert dat de lijst nuttig kan bij woordspellen, zoals Scrabble en Wordfeud.

Bestand:Nederlandse-karakters-histogram.png
Frequentieverdeling van Nederlandse karakters,
in 315.779 Nederlandse woorden zonder eigennamen.
OpenTaal 2.00 2011-01-24
N.B.: De verticale as heeft een logaritmische schaal.

Het aantal bij elk teken geeft aan hoeveel woorden het karakter één of meer keer bevatten. De lijst bevat letters, cijfers en leestekens. Letters met diakritische tekens, zoals ä en ç, worden apart geteld. Tussen hoofdletters en kleine letters wordt geen verschil gemaakt.

Karakter Frequentie
e 281.536
r 201.598
n 196.655
i 177.801
t 176.453
s 167.339
a 162.193
o 150.436
l 137.916
d 123.618
g 111.562
k 86.300
u 77.625
p 77.094
m 73.700
c 67.385
h 66.074
b 66.020
v 62.374
j 46.099
w 39.207
f 37.757
z 27.460
y 5.464
- 5.107
x 3.114
' 2.212
ë 1.852
1.623
q 902
ï 680
é 562
è 330
ö 235
. 196
ê 86
ü 75
1 55
2 34
6 34
3 33
5 27
4 25
0 25
7 22
ç 22
à 21
8 17
û 12
9 11
î 11
ñ 8
ä 5
ô 3

Zie ook

Bronvermelding

Bronnen, noten en/of referenties:

  1. º van Geloven, Sander, Karakterfrequentie, OpenTaal, 3 september 2011
rel=nofollow
Q520562 op Wikidata  Intertaalkoppelingen via Wikidata (via reasonator)
rel=nofollow
rel=nofollow

}