Database

Een database, gegevensbank of databank is een (meestal digitaal opgeslagen) gegevensverzameling, ingericht met het oog op flexibele raadpleging en gebruik. Databases spelen een belangrijke rol bij het archiveren en actueel houden van gegevens van onder meer de overheid, financiële instellingen en bedrijven, in de wetenschap, en ze worden op kleinere schaal ook privé gebruikt.

Inleiding[bewerken | brontekst bewerken]

Het woord database wordt voor verschillende begrippen gebruikt:

  1. de opgeslagen gegevens als zodanig.
  2. de wijze waarop de gegevens zijn opgeslagen, zie databasemodel.
  3. de software waarmee databases kunnen worden aangemaakt en benaderd, zie databasemanagementsysteem (DBMS).

Dit artikel gaat over de eerstgenoemde betekenis van database.

Gegevensbank[bewerken | brontekst bewerken]

Een database moet aan de volgende minimale (CRUD) voorwaarden voldoen om als database gezien te worden:

  1. Gegevens moeten eenvoudig duurzaam kunnen worden opgeslagen (Create).
  2. Gegevens moeten eenvoudig kunnen worden opgezocht en doorzocht (Read).
  3. Gegevens moeten onderhouden kunnen worden (Update).
  4. Gegevens moeten verwijderd kunnen worden zonder dat dat de werking van dat systeem nadelig beïnvloedt (Delete).

Om aan deze voorwaarden te kunnen voldoen is een essentiële regel belangrijk: Een database moet integer zijn:

  1. Gegevens moeten consistent zijn en mogen bijvoorbeeld niet dubbel worden opgeslagen. Dit betekent ook dat de samenhang of relatie met andere gegevens moeten (blijven) kloppen.
  2. De gegevens moeten geautoriseerd toegevoegd, onderhouden of verwijderd worden.

Het opstellen van een verantwoorde manier om gegevens structureren is een vak op zich, het gaat in een database meer om de structuur die in bijvoorbeeld een adressenbestand niet voorkomt. (De relatie geadresseerde met adres wordt gemakshalve niet gezien. Meerdere geadresseerden per adres of meerdere adressen voor een geadresseerde?) Daarom is een adressenbestand op zichzelf een onjuist voorbeeld. Dit wordt vaak door spreadsheetgebruikers en zelfs programmeurs onderschat. De methoden zijn samen te vatten als normaliseren. Daarover zijn theoretische modellen ontwikkeld en vele boeken geschreven. Belangrijke namen op dit gebied zijn Charles Bachman en Ted Codd en Chris Date. Zie verder datamodel.

Een database is meer dan een gedigitaliseerd archief, een meerwaarde is dat de gegevens in een database zodanig zijn opgeslagen dat deze gegevens kwalitatief zijn, goed doorzoekbaar zijn, samenhang hebben en in relatie met andere items staan. In het relationele model worden onderdelen in een aparte kolom gezet, maar wel in dezelfde rij, zodat het duidelijk is dat deze onderdelen bij elkaar horen en eigenschappen van het onderhavige item zijn. Soms is het praktisch om gegevens uit te breiden om de doorzoekbaarheid te vergroten, bijvoorbeeld door beschrijvende teksten, een of meer categorieën te gebruiken of er trefwoorden aan toe te kennen.

Belang van databases[bewerken | brontekst bewerken]

Databases zijn een essentieel onderdeel van de informatiemaatschappij, steeds meer gegevens worden in een database opgeslagen. Het functioneren van de overheid, bedrijven en wetenschap is tegenwoordig zonder databases ondenkbaar.

Steeds meer gegevens worden ook via internet bereikbaar gemaakt. Vanaf halverwege de jaren 1990 worden er speciale programmeertalen ontwikkeld juist om de communicatie tussen databases en de internetgebruiker mogelijk te maken. Ook zijn er componenten ontwikkeld die functioneren als intermedium tussen programma en database, onder andere ODBC en JDBC.

Ook zoekmachines maken gebruik van een database, door de pagina's op internet te indexeren. De gebruiker van een zoekmachine zoekt niet direct op internet, maar in de index die is aangemaakt.

In de wetenschap worden databases veel gebruikt om meetgegevens of experimentele gegevens in op te slaan. Om statistische conclusies uit deze gegevens te kunnen trekken schiet de software van veel DBMSen te kort. Voor statistische analyse van gegevens en relaties tussen gegevens is een digitaal rekenblad veel beter geschikt. Programma's als SAS en SPSS zijn daarentegen prima geschikt om statistische analyses te doen op grote groepen gegevens, die zelfs de capaciteit van programma's als MS SQL Server te boven gaat.

Koppeling van databases[bewerken | brontekst bewerken]

Verschillende databases die gedeeltelijk overlappende gegevens bevatten, kunnen worden gekoppeld. Technisch is dat niet altijd even gemakkelijk, maar het principe is eenvoudig: als er twee databases zijn, waarbij database X de belastinggegevens bevat van personen en database Y informatie over de banktegoeden van personen, leg dan een relatie tussen de personen die in beide databases staan, zodanig dat van de personen die in beide databases voorkomen, de belastinggegevens naast de gegevens over banktegoeden kunnen worden gelegd. Dit kan alleen als de personen in beide databases precies dezelfde naam of hetzelfde nummer hebben. Het gebruik van een algemeen persoonsnummer zoals het Nederlandse Burgerservicenummer of het Belgische rijksregisternummer vereenvoudigt dan ook de koppeling van databases met persoonsgegevens.

Datamining[bewerken | brontekst bewerken]

Datamining is een term die gebruikt wordt om extra informatie te halen uit bestaande databases. Het gaat daarbij vaak om statistische informatie. Een bedrijf dat een database heeft van klanten en hun bestellingen, zou bijvoorbeeld kunnen nagaan in welke gebieden de klanten wonen die het meeste afnemen, en op basis daarvan strategische beslissingen kunnen nemen.

Privacy[bewerken | brontekst bewerken]

Het toenemend gebruik van databases (en de koppeling daarvan) heeft ook een negatieve kant: de privacy van personen komt in gevaar. Zeker als het gaat over het gebruik van elektronische communicatie en het koppelen daarvan aan persoonsgegevens, is het mogelijk om bijzonder veel informatie over personen te verzamelen. Een voorbeeld hiervan is het internationale spionageproject ECHELON, dat gebouwd is om dagelijks 3 miljard afzonderlijke elektronische berichten op te vangen, te analyseren en op te slaan. Maar ook een marketingbedrijf als Doubleclick verzamelt dagelijks een grote hoeveelheid informatie over het gedrag van gebruikers op het internet, informatie die in eerste instantie is gebonden aan een IP-adres of cookies. Als een cookie (of IP-adres) kan worden geassocieerd met een e-mailadres en vervolgens met een persoon en een adres, zijn dergelijke gegevens op de markt veel geld waard.

In een aantal landen (waaronder België, Nederland en de meeste EU-lidstaten) zijn er echter strenge wetten die de privacy van personen en hun gegevens moeten garanderen.[1] In andere landen (zoals de Verenigde Staten) zijn de wetten minder strikt. Zo zijn in verschillende staten de databanken met informatie over criminelen, pedofielen, echtscheidingen, huwelijken, etc. publiek toegankelijk.[2][3][4] Het feit dat niet in alle landen de privacy-wetgeving dezelfde is, heeft ook gevolgen. Zo wordt in sommige gevallen informatie die in een bepaald land niet publiek gemaakt mag worden, gewoon op servers in een ander land gezet waar dit niet illegaal is.

Databasecorruptie[bewerken | brontekst bewerken]

Omdat databases vaak langdurig in gebruik zijn en tal van mensen wijzigingen aanbrengen, ontstaan onvermijdelijk fouten: administratieve fouten, nalatigheid, onwilligheid of onmacht van klanten bij het invullen van formulieren of zelfs fraude en vandalisme. Hierdoor komt het voor dat de informatie die de database bevat, incorrect of "vervuild" is. Dit verschijnsel wordt ook wel databasecorruptie genoemd en speelt onder andere een grote rol bij bevolkingsregisters, waar frauduleuze inschrijvingen een probleem zijn.

Geografisch Informatiesysteem[bewerken | brontekst bewerken]

Een geografisch informatiesysteem (GIS) kan beschouwd worden als een database voor geografische informatie; dit geldt voor alle drie de betekenissen van een database.

Zie ook[bewerken | brontekst bewerken]

Op andere Wikimedia-projecten