Wat is metadata?

Hoewel de naam wel zegt wat het inhoud, geeft het nog niet aan wat het is. Metadata is data over data, dus informatie over een stukje informatie. De auteur van een blog is metadata over die blog, de datum van verschijning is metadata van een krant en de THT-datum van een brood is metadata van een brood. Het is informatie die niet het ding zelf ís, maar er wel bij hoort. Het is informatie die toegevoegd wordt aan een stukje informatie, om te dienen als extra informatiebron, om het lekker ingewikkeld te zeggen.

Ik wist wel iets van metadata af, maar dan alleen van hele specifieke toepassingen, bijvoorbeeld hoe het gaat op het internet. Metadata hangt af van welk protocol er gebruikt wordt. Op internet is dat ‘HTTP(S)’ en die lettercombinatie zal wel bekend in de oren klinken bij iedereen, zonder dat veel mensen beseffen dat het om een protocol gaat. Hetzelfde geldt voor ‘FTP(S)’, waarmee je niet een pagina kan bekijken, maar bestanden kan toevoegen aan een bepaalde website. Op het internet gaat het om protocollen. Bij afbeeldingen gaat het niet echt om een protocol, maar meer om extra informatie over de afbeelding, vaak in EXIF opgeslagen.

Bij een afbeeldingen worden al best gevoelige dingen opgeslagen: welke camera je hebt (als je die altijd bij je hebt volgens je social media account en het is een dure camera, weet een potentiële dief genoeg) en wanneer de foto is gemaakt. Hoewel ik ook heb gelezen dat erbij kan staan door wie de foto is gemaakt – al vraag ik mij af waar die informatie vandaan komt – kan ik dat niet direct terug vinden. Dat laatste is wel informatie die heel erg gevoelig kan zijn, bijvoorbeeld bij naaktfoto’s of foto’s die als bewijs dienen in een strafzaak terwijl jij een anonieme bron wilde zijn. Bij één kleine onzorgvuldigheid kan dan zo op straat liggen door wie de foto is gemaakt.

Bij een website staat er echter veel meer interessante informatie in: er kan precies worden bekeken welke URL jij hebt opgevraagd. En dat heb je niet eens altijd door. Klik je op enter op Google? Hup, je vraagt een nieuwe URL op. Op die manier kan zó de politie voor je deur staan als je zoekt naar illegale dingen, terwijl je misschien wel onderzoeksjournalist bent. Maar je kan er ook aan aflezen op wat voor dingen jij zoekt op Youtube. Dus als je daar altijd kattenfilmpjes kijkt, dan is dat te zien in jouw metadata. En dat kunnen natuurlijk hele gevoelige dingen zijn. Wat nog gevoeliger kan liggen: als er niet bekend is van wie een grote hoeveelheid metadata is, maar er wel bekend is dat het van één persoon is, kan door een analyse vaak achterhaald worden van wie het is. Niet per se doordat er ergens gezocht is op zijn of haar eigen naam, maar door de precieze installaties op jouw computer, die vaak worden meegestuurd in de metadata (“deze persoon gebruikt Windows 7 64-bit SP 1, Firefox 27.0.1, heeft 8GB RAM, een Intel Core i7-4770-processor, zijn scherm is 1680×1050 pixels, heeft voorkeur voor Nederlands, en anders Engels op z’n Amerikaans”).

Elke app gebruikt andere metadata. Bij WhatsApp wordt er verstuurd van of naar wie een bericht gestuurd wordt, en als je die data dus op een bepaalde telefoon ontvangt, weet je precies welke berichten die persoon krijgt en stuurt. Daarnaast staat er een tijdstip bij en mogelijk zelfs een locatie – hoewel ik niet weet of dat echt ingevuld wordt, ik kan alleen maar voorbeelden vinden met verkeerde locaties (Lat: 0.0, Long: 0.0).

De hoeveelheid informatie die mee wordt gestuurd met een e-mail is ongelofelijk. Door wie het verstuurd is, aan wie het verstuurd is, wanneer het ontvangen is, vanaf welk ip-adres het verstuurd is en wat de titel van het bericht is. En de namen die jij geeft aan bepaalde contactpersonen/e-mail adressen staan er ook in. Dus als iemand de metadata heeft over jouw afgelopen week e-mailen, weet diegene misschien wel alle koosnaampjes die jij aan collega’s hebt gegeven.

Ik moet wel toegeven dat bij metadata ook altijd de echte informatie zit: de inhoud van een pagina op een website, de inhoud van een e-mail, de inhoud van een WhatsApp-bericht en de afbeelding zelf. Dus als je de metadata kan zien, kan je de écht belangrijke informatie ook zien. Maar metadata analyseren is heel makkelijk: als je alleen de metadata onthoud, kan je er zo achter komen met wie een bepaald persoon het meeste communiceert. En kan je zo zien wanneer er héél veel contact is geweest. En misschien is dat wel een heel kritisch moment geweest. Dus wil je juist van dat moment de echte verstuurde berichten lezen, als je daarover de beschikking hebt. Heb je dat niet, wordt er altijd wel bij één type metadata de locatie meegestuurd (Facebook!). En als je die weet, weet je zo waar iemand woont. Weet je misschien zelfs waar iemand op elk moment van de dag is.

Het gaat er dus niet zozeer om dat de metadata heel veel informatie bevat, want metadata weet je alleen als je op een bepaald apparaat kan binnendringen of op een andere manier al die informatie krijgt (via providers als een rechter een gerechtelijk bevel heeft, bijvoorbeeld). Waar het omgaat is dat metadata écht heel veel informatie bevat. En dat het dus onzin is om te zeggen dat het ‘maar’ om metadata gaat. Zelfs vandaag de dag heeft Google nog moeite met natuurlijke taal goed te analyseren, en dus zou Google nog moeite hebben met begrijpen waarover twee mensen nou echt communiceren. Met ingewikkelde gesprekken gaat het namelijk juist om de precieze insteek van het gesprek: “praten ze over hoe je een kernbom maakt of over hoe je een kernbom ontmaskerd?”, om maar een gek voorbeeld te noemen. Als je alleen metadata automatisch laat analyseren, kan je tot bijna dezelfde conclusies komen als wanneer je óók de data zelf in de analyse mee zou laten nemen. Met andere woorden: metadata is bijna even waardevol als de data zelf.

Dit bericht is geplaatst in de categorie Beta. Bookmark de permalink.

2 Reacties op Wat is metadata?

  1. Ik las hier laatst een artikel over.. waarschijnlijk een artikel wat jij geRT had. Ik schrok er best wel van hoeveel ze uit die metadata kunnen halen. Ze kunnen echt álles over je te weten komen.

Geef een reactie

Jouw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *