Schatten (statistiek): verschil tussen versies

Versie van 16 jul 2010 18:52

Schatten is een methode uit de statistiek. Op basis van een aantal waarnemingen van een verschijnsel - de steekproef - wordt getracht om een waarde toe te kennen aan een onbekende parameter die de eigenschappen van het verschijnsel beschrijft. Voorbeelden van zulke parameters zijn het gemiddelde en de variantie. De formule, waarmee de schatting wordt uitgerekend, heet schatter.

Voorbeelden

Een eenvoudig voorbeeld is het schatten van de kans op een 'zes' door een flink aantal malen de dobbelsteen te werpen en de uitkomsten te turven. De schatting van de kans op een zes is dan het pecentage zessen onder de uitgevoerde worpen. Zo kan worden ontdekt of de steen misschien vals is.

Een populair voorbeeld van schatten is de verkiezingspeiling. Een aantal mensen wordt gevraagd naar de politieke partij van hun voorkeur en daaruit wordt een schatting gemaakt van de zetelverdeling die tot stand zou komen als er op dat moment verkiezingen zouden worden gehouden.

Onzekerheid

Schatten gaat altijd gepaard aan onzekerheid. Zo kan het zijn dat de steekproef geen goede afspiegeling is van de hele populatie. Maar ook kunnen er onzekerheden kleven aan de gemaakte veronderstellingen. Bij een verkiezingspeiling is het denkbaar dat kiezers, eenmaal in het stemhokje, een andere keuze maken dan zij hadden opgegeven aan de onderzoeker. Het meten zelf is dan onzeker.

De onzekerheid kan worden verminderd door een grotere steekproef te nemen (vaker de dobbelsteen gooien, meer mensen ondervragen), of door aanvullende gegevens te verzamelen. Als bekend is dat kiezers geneigd zijn om zich minder trouw voor te doen dan ze zijn, kan door het vragen naar hun vorige stem de schattingsmethode worden verfijnd. Een garantie, dat de uitkomst van het schatten dan dichter bij de werkelijkheid ligt, is dat overigens niet.

De onzekerheid waarmee een schatting gepaard gaat kan zelf ook weer worden geschat. Vaak is het mogelijk om een betrouwbaarheidsinterval te geven, waarvan onder bepaalde gebruikelijke veronderstellingen kan worden gezegd dat de kans, dat de werkelijke waarde daarbinnen ligt, bijvoorbeeld 95% bedraagt.

Verschillende schatters

Er is een grote keuze uit verschillende schatters om een schatting te maken van dezelfde parameter. Zo kan het gemiddelde worden geschat door de waarden bij elkaar op te tellen en door het aantal waarnemingen te delen, maar ook door de middelste waarde te nemen (de mediaan). De eerste methode zal vrijwel altijd nauwkeuriger zijn, maar er zijn ook situaties waarin dat niet geldt. Zo worden bij jury-beoordelingen in de sport vaak de hoogste en de laagste waarde geschrapt, omdat deze metingen niet worden vertrouwd.

Eigenschappen waaraan schatters bij voorkeur moeten voldoen zijn:

zuiverheid, dat wil zeggen de waarde wordt niet systematisch overschat of onderschat;
nauwkeurigheid, waarbij de verwachting van de gemaakte fout zo klein mogelijk is;
consistentie, wat betekent dat als het aantal waarnemingen oneindig groot wordt, de schatting uiteindelijk op de werkelijke waarde uitkomt.

Kansverdeling

Het is mogelijk om een veronderstelling te maken over hoe de variatie in de waarnemingen zich kan manifesteren. Dat wordt gedaan als de metingen inherent onnauwkeurig zijn, zoals in de natuurkunde, maar ook als het verschijnsel gedrag betreft waarbij het in de rede ligt dat dat slechts gedeeltelijk kan worden verklaard, zoals in de economie. Men kan dan een wiskundig model maken van het verschijnsel waarin expliciet een storingsterm is opgenomen die de mogelijkheid van afwijkingen in de metingen of het gedrag weergeeft. De veronderstelling dat deze term een bepaalde kansverdeling volgt, zoals de normale verdeling, leidt dan tot schatters van de onbekende parameters die eveneens een kansverdeling volgen.

Dat heeft als voordeel dat de eigenschappen van de schatters bekend zijn. Dan kan er - onder de veronderstelling dat het model niet systematisch fout is - gemakkelijker informatie over de schattingen worden gegeven, zelfs bij ingewikkelde verschijnselen waarbij diverse grootheden elkaar beïnvloeden.

Statistiek

statistiek · kansrekening · statistische toets · betrouwbaarheid · significantie · kans · modus · mediaan · spreiding · standaardafwijking · kwartiel · percentiel · gemiddelde · schatten · verdelingsfunctie

@@ Regel 1: / Regel 1: @@
-Een categorie van methoden die de [[statistiek]] hanteert om [[informatie]] te verkrijgen, wordt gevormd door de '''schattingsmethoden'''. Een onbekende [[parameter]] van een [[populatie (statistiek)|populatie]] (of [[kansverdeling|verdeling]]) wordt '''geschat''' door een uit de [[steekproef]] berekende grootheid, de '''schatting'''. Het voorschrift dat bepaalt hoe de schatting uit de steekproef moet worden berekend, wordt '''schatter''' genoemd.
+'''Schatten''' is een methode uit de [[statistiek]]. Op basis van een aantal [[waarneming (statistiek)|waarnemingen]] van een verschijnsel - de [[steekproef]] - wordt getracht om een waarde toe te kennen aan een onbekende [[parameter]] die de eigenschappen van het verschijnsel beschrijft. Voorbeelden van zulke parameters zijn het [[gemiddelde]] en de [[variantie]]. De [[formule (wiskunde)|formule]], waarmee de schatting wordt uitgerekend, heet '''schatter'''.
-Algemeen bekend is het (steekproef-)[[gemiddelde]] als schatting voor het populatiegemiddelde (of de [[verwachting (wiskunde)|verwachtingswaarde]]).
+==Voorbeelden==
+Een eenvoudig voorbeeld is het schatten van de kans op een '[[zes]]' door een flink aantal malen de [[dobbelsteen]] te werpen en de uitkomsten te [[turven]]. De '''schatting''' van de kans op een zes is dan het pecentage zessen onder de uitgevoerde worpen. Zo kan worden ontdekt of de steen misschien [[vals]] is.
-== Voorbeelden ==
+Een populair voorbeeld van schatten is de [[verkiezingspeiling]]. Een aantal mensen wordt gevraagd naar de [[politieke partij]] van hun voorkeur en daaruit wordt een schatting gemaakt van de [[zetelverdeling]] die tot stand zou komen als er op dat moment [[verkiezing]]en zouden worden gehouden.
-Een vreemde [[munt (betaalmiddel)|munt]] ziet er niet bepaald symmetrisch uit, zodat de [[kansrekening|kans]] p op kop vermoedelijk niet <math>\begin{matrix}\frac 12\end{matrix}</math> zal zijn. Daarom gooien we 10 keer met de munt. Stel dat we in deze steekproef 3 keer kop vinden. We zouden dan de onbekende parameter p (de [[populatiefractie]]) kunnen schatten door de [[steekproeffractie]] <math>\begin{matrix}\frac 3{10}\end{matrix}</math> .
-Een ander voorbeeld is bekend uit de Tweede Wereldoorlog. Het viel de Engelsen op dat de neergehaalde Duitse bommenwerpers "gründlich" voorzien waren van een serienummer. Op grond van de gevonden serienummers in de "steekproef" gaven statistici een schatting van het totale aantal geproduceerde vliegtuigen ''N'' van dat type. Het zal duidelijk zijn dat alleen het hoogste gevonden serienummer ''M'' van belang is. Men kan laten zien dat bij een steekproefomvang ''n'', een goede schatting van ''N'' gegeven wordt door"
+==Onzekerheid==
+Schatten gaat altijd gepaard aan onzekerheid. Zo kan het zijn dat de steekproef geen goede afspiegeling is van de hele [[populatie]]. Maar ook kunnen er onzekerheden kleven aan de gemaakte veronderstellingen. Bij een verkiezingspeiling is het denkbaar dat [[kiezer]]s, eenmaal in het [[stemhokje]], een andere keuze maken dan zij hadden opgegeven aan de onderzoeker. Het [[meten]] zelf is dan onzeker.
-:<math>\hat N = \frac {n+1}n M.</math>
+De onzekerheid kan worden verminderd door een grotere steekproef te nemen (vaker de dobbelsteen gooien, meer mensen ondervragen), of door aanvullende gegevens te verzamelen. Als bekend is dat kiezers geneigd zijn om zich minder trouw voor te doen dan ze zijn, kan door het vragen naar hun vorige stem de  schattingsmethode worden verfijnd. Een garantie, dat de uitkomst van het schatten dan dichter bij de werkelijkheid ligt, is dat overigens niet.
-==Zie ook==
+De onzekerheid waarmee een schatting gepaard gaat kan zelf ook weer worden geschat. Vaak is het mogelijk om een [[betrouwbaarheidsinterval]] te geven, waarvan onder bepaalde gebruikelijke veronderstellingen kan worden gezegd dat de kans, dat de werkelijke waarde daarbinnen ligt, bijvoorbeeld 95% bedraagt.
-* [[Schatting]] (doorverwijzing).
+==Verschillende schatters==
+Er is een grote keuze uit verschillende schatters om een schatting te maken van dezelfde parameter. Zo kan het gemiddelde worden geschat door de waarden bij elkaar op te tellen en door het aantal waarnemingen te delen, maar ook door de middelste waarde te nemen (de [[mediaan]]). De eerste methode zal vrijwel altijd nauwkeuriger zijn, maar er zijn ook situaties waarin dat niet geldt. Zo worden bij [[jury]]-beoordelingen in de [[sport]] vaak de hoogste en de laagste waarde geschrapt, omdat deze metingen niet worden vertrouwd.
+Eigenschappen waaraan schatters bij voorkeur moeten voldoen zijn:
+* [[zuiver (statistiek)|zuiverheid]], dat wil zeggen de waarde wordt niet systematisch overschat of onderschat;
+* nauwkeurigheid, waarbij de [[verwachting (statistiek|verwachting]] van de gemaakte fout zo klein mogelijk is;
+* [[consistentie (statistiek)|consistentie]], wat betekent dat als het aantal waarnemingen oneindig groot wordt, de schatting uiteindelijk op de werkelijke waarde uitkomt.
+==Kansverdeling==
+Het is mogelijk om een veronderstelling te maken over hoe de variatie in de waarnemingen zich kan manifesteren. Dat wordt gedaan als de metingen inherent onnauwkeurig zijn, zoals in de [[natuurkunde]], maar ook als het verschijnsel [[gedrag]] betreft waarbij het in de rede ligt dat dat slechts gedeeltelijk kan worden verklaard, zoals in de [[economie]]. Men kan dan een wiskundig [[model]] maken van het verschijnsel waarin expliciet een [[storingsterm]] is opgenomen die de mogelijkheid van afwijkingen in de metingen of het gedrag weergeeft. De veronderstelling dat deze term een bepaalde [[kansverdeling]] volgt, zoals de [[normale verdeling]], leidt dan tot schatters van de onbekende parameters die eveneens een kansverdeling volgen.
+Dat heeft als voordeel dat de eigenschappen van de schatters bekend zijn. Dan kan er - onder de veronderstelling dat het model niet systematisch fout is - gemakkelijker informatie over de schattingen worden gegeven, zelfs bij ingewikkelde verschijnselen waarbij diverse grootheden elkaar beïnvloeden.
 {{Navigatie statistiek}}
 [[Categorie:Statistiek]]
-[[Categorie:Perceptie]]

Schatten (statistiek): verschil tussen versies

Versie van 16 jul 2010 18:52

Inhoud

Voorbeelden

Onzekerheid

Verschillende schatters

Kansverdeling

Navigatiemenu

Schatten (statistiek): verschil tussen versies

Versie van 16 jul 2010 18:52

Voorbeelden

Onzekerheid

Verschillende schatters

Kansverdeling

Navigatiemenu

Zoeken