Wikisage, de vrije encyclopedie van de tweede generatie, is digitaal erfgoed

Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.

  • Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
  • Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.

Database

Uit Wikisage
(Doorverwezen vanaf Databank)
Naar navigatie springen Naar zoeken springen

Een database, gegevensbank of databank is een digitaal opgeslagen archief, ingericht met het oog op flexibele raadpleging en gebruik. Databases spelen een belangrijke rol voor het archiveren en actueel houden van gegevens bij onder meer de overheid, financiële instellingen en bedrijven, in de wetenschap, en worden op kleinere schaal ook privé gebruikt.

Inleiding

Het woord database wordt voor verschillende begrippen gebruikt:

  1. de opgeslagen gegevens als zodanig.
  2. de wijze waarop de gegevens zijn opgeslagen, zie datamodel.
  3. de software waarmee databases kunnen worden aangemaakt en benaderd, zie Database management systeem (DBMS).

Dit artikel gaat over de eerstgenoemde betekenis van database.

Een database moet aan de volgende minimale voorwaarden voldoen om als database gezien te worden:

  1. Gegevens moeten eenvoudig kunnen worden opgeslagen.
  2. Gegevens moeten eenvoudig kunnen worden opgezocht en doorzocht.
  3. Gegevens moeten gewijzigd kunnen worden.
  4. Gegevens moeten verwijderd kunnen worden zonder dat dat de werking van dat systeem nadelig beïnvloedt.

Om aan deze voorwaarden te kunnen voldoen is een essentiële regel belangrijk: Gegevens mogen niet dubbel worden opgeslagen. Het opstellen van een goede manier om gegevens in te delen in onderdelen is een vak op zich, vooral als het gaat om gegevens die ingewikkelder zijn dan een adressenbestand. Deze methoden zijn samen te vatten als normaliseren. Daarover zijn theoretische modellen ontwikkeld en vele boeken geschreven. Belangrijke namen op dit gebied zijn Charles Bachman en Ted Codd en Chris Date. Zie verder datamodel.

Een database is meer dan een gedigitaliseerd archief, een essentiële toevoeging is dat de gegevens in een database zodanig zijn opgeslagen dat deze gegevens optimaal doorzoekbaar zijn. Deze toevoeging staat bekend onder de naam index. In een index worden gegevens opgesplitst in (of uitgebreid met) onderdelen waarop (naar verwachting) gezocht zal worden, bijvoorbeeld persoonsgegevens kunnen worden opgesplitst in voornaam, tussenvoegsel, achternaam, adres, woonplaats, postcode, telefoonnummer etc. Meerdere indexen kunnen aangemaakt worden. In het relationele model worden deze onderdelen in een aparte kolom gezet, maar wel in dezelfde rij, zodat het duidelijk is dat deze onderdelen bij elkaar horen. Soms is het praktisch om gegevens uit te breiden om de doorzoekbaarheid te vergroten, bijvoorbeeld door langere teksten in één of meerdere categorieën te zetten of er trefwoorden aan toe te kennen.

De doorzoekbaarheid van de gegevens wordt hier mee vergroot omdat bij zoekopdrachten als "toon alle personen met postcode tussen 3000 en 4000" alleen in het veld "postcode" hoeft te worden gezocht en alle andere gegevens niet geëvalueerd hoeven te worden. Er zijn nog meerdere methoden om de zoeksnelheid te vergroten.

Belang van databases

Databases zijn een essentieel onderdeel van de informatiemaatschappij, steeds meer gegevens worden in een database opgeslagen. Het functioneren van de overheid, bedrijven en wetenschap is tegenwoordig zonder databases ondenkbaar.

Steeds meer gegevens worden ook via internet bereikbaar gemaakt. Vanaf halverwege de jaren 1990 worden er speciale programmeertalen ontwikkeld juist om de communicatie tussen databases en de internetgebruiker mogelijk te maken. Ook zijn er componenten ontwikkeld die functioneren als intermedium tussen programma en database, onder andere ODBC en JDBC.

Ook zoekmachines maken gebruik van een database, door de pagina's op internet te indexeren. De gebruiker van een zoekmachine zoekt niet direct op internet, maar in de index die is aangemaakt.

In de wetenschap worden databases veel gebruikt om meetgegevens of experimentele gegevens in op te slaan. Om statistische conclusies uit deze gegevens te kunnen trekken schiet de software van veel DBMSen te kort. Voor statistische analyse van gegevens en relaties tussen gegevens is een digitaal rekenblad veel beter geschikt. Programma's als SAS en SPSS zijn daarentegen prima geschikt om statistische analyses te doen op grote groepen gegevens, die zelfs de capaciteit van programma's als MS SQL Server te boven gaat.

Koppeling van databases

Verschillende databases die gedeeltelijk overlappende gegevens bevatten kunnen worden gekoppeld. Technisch is dat niet altijd even gemakkelijk, maar het principe is eenvoudig: als er twee databases zijn, waarbij database X de belastinggegevens bevat van personen en database Y informatie over de banktegoeden van personen, leg dan een relatie tussen de personen die in beide databases staan, zodanig dat van de personen die in beide databases voorkomen, de belastinggegevens naast de gegevens over banktegoeden kunnen worden gelegd. Dit kan alleen als de personen in beide databases precies dezelfde naam of hetzelfde nummer hebben. Het gebruik van een algemeen persoonsnummer zoals het Nederlandse Burgerservicenummer vereenvoudigt dan ook de koppeling van databases met persoonsgegevens.

Datamining

Datamining is een term die gebruikt wordt om extra informatie te halen uit bestaande databases. Het gaat daarbij vaak om statistische informatie. Een bedrijf dat een database heeft van klanten en hun bestellingen zou bijvoorbeeld kunnen nagaan in welke gebieden de klanten wonen die het meeste afnemen, en op basis daarvan strategische besluiten kunnen nemen.

Privacy

Het toenemend gebruik van databases (en de koppeling daarvan) heeft ook een negatieve kant: de privacy van personen komt in gevaar. Zeker als het gaat over het gebruik van elektronische communicatie en het koppelen daarvan aan persoonsgegevens is het mogelijk om bijzonder veel informatie over personen te verzamelen. Een voorbeeld hiervan is het internationale spionageproject ECHELON, dat gebouwd is om dagelijks 3 miljard afzonderlijke elektronische berichten op te vangen, te analyseren en op te slaan. Maar ook een marketingbedrijf als Doubleclick verzamelt dagelijks een grote hoeveelheid informatie over het gedrag van gebruikers op het Internet, informatie die in eerste instantie is gebonden aan een IP-adres of cookies. Als een cookie (of IP-adres) kan worden geassocieerd met een e-mailadres en vervolgens met een persoon en een adres, zijn dergelijke gegevens op de markt veel geld waard.

In een aantal landen (waaronder België, Nederland en de meeste EU-lidstaten) zijn er echter strenge wetten die de privacy van personen en hun gegevens moeten garanderen.[1] In andere landen (zoals de Verenigde Staten zijn de wetten minder strikt. Zo zijn in verschillende staten de databanken met informatie over criminelen, pedofielen, echtscheidingen, huwelijken, etc. publiek toegankelijk.[2][3][4] Het feit dat niet in alle landen de privacy-wetgeving dezelfde is heeft ook gevolgen. Zo wordt in sommige gevallen informatie die in een bepaald land niet publiek gemaakt mag worden gewoon op servers in een ander land gezet waar dit niet illegaal is.

Databasecorruptie

Omdat databases vaak langdurig in gebruik zijn, en tal van mensen wijzigingen aanbrengen, ontstaan onvermijdelijk fouten: administratieve fouten, nalatigheid, onwilligheid of onmacht van klanten bij het invullen van formulieren of zelfs fraude en vandalisme. Hierdoor komt het voor dat de informatie die de database bevat niet correct of"vervuild" is. Dit verschijnsel wordt ook wel databasecorruptie genoemd en speelt onder andere een grote rol bij bevolkingsregisters, waar frauduleuze inschrijvingen een probleem zijn.

Geografisch Informatiesysteem

Een geografisch informatiesysteem (GIS) kan beschouwd worden als een database voor geografische informatie, dit geldt voor alle drie de betekenissen van een database.

Zie ook

WikiWoordenboek
Zoek database

Referenties

  1. º CBPL. "Nationale wetgeving.", 2009. Geraadpleegd op 22/11/2009.
  2. º FamilyWatchDog. "http://familywatchdog.us/", 2009. Geraadpleegd op 30/10/2009.
  3. º SearchSystems. "Public Records Directory", 2008. Geraadpleegd op 30/10/2009.
  4. º National Alert Registry. "Registerd Offenders List", 2009. Geraadpleegd op 22/11/2009.