Wikisage, de vrije encyclopedie van de tweede generatie, is digitaal erfgoed

Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.

  • Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
  • Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.
rel=nofollow

Schatten (statistiek): verschil tussen versies

Uit Wikisage
Naar navigatie springen Naar zoeken springen
(herschreven)
Regel 18: Regel 18:
Eigenschappen waaraan schatters bij voorkeur moeten voldoen zijn:
Eigenschappen waaraan schatters bij voorkeur moeten voldoen zijn:
* [[zuiver (statistiek)|zuiverheid]], dat wil zeggen de waarde wordt niet systematisch overschat of onderschat;
* [[zuiver (statistiek)|zuiverheid]], dat wil zeggen de waarde wordt niet systematisch overschat of onderschat;
* nauwkeurigheid, waarbij de [[verwachting (statistiek|verwachting]] van de gemaakte fout zo klein mogelijk is;
* nauwkeurigheid, waarbij de [[verwachting (statistiek|verwachting]] van de gemaakte fout, ongeacht het teken, zo klein mogelijk is. Dit wordt vaak gewaardeerd aan de hand van de [[Root Mean Squared Error]], de [[wortel (wiskunde)|wortel]] uit de verwachting van het [[kwadraat]] van de fout;
* [[consistentie (statistiek)|consistentie]], wat betekent dat als het aantal waarnemingen oneindig groot wordt, de schatting uiteindelijk op de werkelijke waarde uitkomt.
* [[consistentie (statistiek)|consistentie]], wat betekent dat als het aantal waarnemingen oneindig groot wordt, of de steekproef de hele populatie omvat, de schatting uiteindelijk op de werkelijke waarde uitkomt.
 
Ook kan het een voordeel zijn als een schatter [[lineair (wiskunde)|lineair]] is, omdat dat de berekening vergemakkelijkt. De [[kleinste-kwadratenmethode]], de verreweg het meest gebruikte methode bij [[lineaire regressie]], houdt een schatter in die onder voorwaarden alle gewenste eigenschappen heeft en daarom een [[Best Linear Unbiased Estimator]] wordt genoemd.


==Kansverdeling==
==Kansverdeling==

Versie van 17 jul 2010 09:18

Schatten is een methode uit de statistiek. Op basis van een aantal waarnemingen van een verschijnsel - de steekproef - wordt getracht om een waarde toe te kennen aan een onbekende parameter die de eigenschappen van het verschijnsel beschrijft. Voorbeelden van zulke parameters zijn het gemiddelde en de variantie. De formule, waarmee de schatting wordt uitgerekend, heet schatter.

Voorbeelden

Een eenvoudig voorbeeld is het schatten van de kans op een 'zes' door een flink aantal malen de dobbelsteen te werpen en de uitkomsten te turven. De schatting van de kans op een zes is dan het pecentage zessen onder de uitgevoerde worpen. Zo kan worden ontdekt of de steen misschien vals is.

Een populair voorbeeld van schatten is de verkiezingspeiling. Een aantal mensen wordt gevraagd naar de politieke partij van hun voorkeur en daaruit wordt een schatting gemaakt van de zetelverdeling die tot stand zou komen als er op dat moment verkiezingen zouden worden gehouden.

Onzekerheid

Schatten gaat altijd gepaard aan onzekerheid. Zo kan het zijn dat de steekproef geen goede afspiegeling is van de hele populatie. Maar ook kunnen er onzekerheden kleven aan de gemaakte veronderstellingen. Bij een verkiezingspeiling is het denkbaar dat kiezers, eenmaal in het stemhokje, een andere keuze maken dan zij hadden opgegeven aan de onderzoeker. Het meten zelf is dan onzeker.

De onzekerheid kan worden verminderd door een grotere steekproef te nemen (vaker de dobbelsteen gooien, meer mensen ondervragen), of door aanvullende gegevens te verzamelen. Als bekend is dat kiezers geneigd zijn om zich minder trouw voor te doen dan ze zijn, kan door het vragen naar hun vorige stem de schattingsmethode worden verfijnd. Een garantie, dat de uitkomst van het schatten dan dichter bij de werkelijkheid ligt, is dat overigens niet.

De onzekerheid waarmee een schatting gepaard gaat kan zelf ook weer worden geschat. Vaak is het mogelijk om een betrouwbaarheidsinterval te geven, waarvan onder bepaalde gebruikelijke veronderstellingen kan worden gezegd dat de kans, dat de werkelijke waarde daarbinnen ligt, bijvoorbeeld 95% bedraagt.

Verschillende schatters

Er is een grote keuze uit verschillende schatters om een schatting te maken van dezelfde parameter. Zo kan het gemiddelde worden geschat door de waarden bij elkaar op te tellen en door het aantal waarnemingen te delen, maar ook door de middelste waarde te nemen (de mediaan). De eerste methode zal vrijwel altijd nauwkeuriger zijn, maar er zijn ook situaties waarin dat niet geldt. Zo worden bij jury-beoordelingen in de sport vaak de hoogste en de laagste waarde geschrapt, omdat deze metingen niet worden vertrouwd.

Eigenschappen waaraan schatters bij voorkeur moeten voldoen zijn:

  • zuiverheid, dat wil zeggen de waarde wordt niet systematisch overschat of onderschat;
  • nauwkeurigheid, waarbij de verwachting van de gemaakte fout, ongeacht het teken, zo klein mogelijk is. Dit wordt vaak gewaardeerd aan de hand van de Root Mean Squared Error, de wortel uit de verwachting van het kwadraat van de fout;
  • consistentie, wat betekent dat als het aantal waarnemingen oneindig groot wordt, of de steekproef de hele populatie omvat, de schatting uiteindelijk op de werkelijke waarde uitkomt.

Ook kan het een voordeel zijn als een schatter lineair is, omdat dat de berekening vergemakkelijkt. De kleinste-kwadratenmethode, de verreweg het meest gebruikte methode bij lineaire regressie, houdt een schatter in die onder voorwaarden alle gewenste eigenschappen heeft en daarom een Best Linear Unbiased Estimator wordt genoemd.

Kansverdeling

Het is mogelijk om een veronderstelling te maken over hoe de variatie in de waarnemingen zich kan manifesteren. Dat wordt gedaan als de metingen inherent onnauwkeurig zijn, zoals in de natuurkunde, maar ook als het verschijnsel gedrag betreft waarbij het in de rede ligt dat dat slechts gedeeltelijk kan worden verklaard, zoals in de economie. Men kan dan een wiskundig model maken van het verschijnsel waarin expliciet een storingsterm is opgenomen die de mogelijkheid van afwijkingen in de metingen of het gedrag weergeeft. De veronderstelling dat deze term een bepaalde kansverdeling volgt, zoals de normale verdeling, leidt dan tot schatters van de onbekende parameters die eveneens een kansverdeling volgen.

Dat heeft als voordeel dat de eigenschappen van de schatters bekend zijn. Dan kan er - onder de veronderstelling dat het model niet systematisch fout is - gemakkelijker informatie over de schattingen worden gegeven, zelfs bij ingewikkelde verschijnselen waarbij diverse grootheden elkaar beïnvloeden.

rel=nofollow