Hoeveel data heb je nodig voor “Big Data”? Het klinkt als een logische vraag. Big Data gaat er vanuit dat juist de veelheid van data interessante informatie oplevert. En dat is een aantal gevallen ook zeker waar. Statistische informatie over ons koopgedrag legt correlaties waar marketeers van smullen. Maar ook een grootschalig onderzoek als “Life Lines” is gebaseerd op Big Data. Dit is een onderzoek waarbij een heel grote groep mensen uit Noord Nederland over een periode van 30 jaar medisch wordt gevolgd om zo allerlei ziekte en verouderingsprocessen te kunnen ontdekken.
Wanneer je verhalen over Big Data leest lijkt het ultieme doel te zitten in de hoeveelheid data. Zelfs in zo’n medisch wetenschappelijk project als Life Lines wordt daar veel nadruk op gelegd. Meer is beter. Wie heeft de meeste Tera, Peta, of zelfs ExaBytes in hun data center, lijkt een doel op zich. Maar wellicht een middel dat soms zijn doel voorbij schiet.
Big data is een aanpak waarbij je op zoek gaat naar het onverwachte, het onbekende. Ultiem laat het je in je blinde vlek zoeken. Zoeken naar datgene waarvan je niet weet dat je het niet weet. Soms handig, maar vaak weet je wel degelijk waar je naar op zoek bent. Je wil bijvoorbeeld gewoon weten waar iets de afgelopen 24 uur is geweest. Als er veel data van locaties is wordt er toch vaak aan gerefereerd als Big Data. Daarbij wordt dan bedacht dat als die informatie over bijvoorbeeld de positie in die berg met data zit, je met een “simpel big data algoritme” die er zo uit krijgt.
Helaas. Dan heb je dit flink fout begrepen. Big data algoritmes kunnen patronen vinden in grote hoeveelheden data. Maar het is een statische benadering. Over locaties kun je bijvoorbeeld ontdekken via welke route de meeste mensen zich van A naar B bewegen. Maar als ik wil weten hoe een specifiek iemand van A naar B is gegaan helpen de algoritmen je weinig. Als die data er is, is het dan een simpele “ouderwetse” zoekopdracht.
Met big data ben je eigenlijk een hooiberg aan het doorzoeken, met als opdracht naar “iets dat langwerpig, klein en van metaal is”. En als het om specifieke informatie gaat waarvan ik heel veel details hebt, komt het in deze metafoor er op neer dat je de speld nota bene zelf in de hooiberg hebt gestopt, en weet waar die ligt.
Ik wil daarom veel meer pleiten voor Smart Data. Het gaat niet om zo veel mogelijk data, maar om de juiste informatie. Met voorkennis over waar je naar op zoek ben, al dan niet in combinatie met slimme of zelflerende algoritmen, heb je maar een fractie van de data nodig om tot het goede resultaat te komen. Gericht data verzamelen om gericht tot het antwoord te komen. En dat komt niet alleen de hoeveel benodigde opslag capaciteit ten goede, maar ook transparantie en de betrouwbaarheid van de geleverde informatie.