Lehet, hogy hallotta ezt a mondatot, amelyet az informatikusok mindig használnak: szemetet be, szemetet ki. Ez azt jelenti, hogy egy számítógép mindent megtesz a probléma megválaszolásáért, de ha nem jó kiindulási anyaggal etetik, ne várjon minőségi megoldást. Ugyanez vonatkozik a számítógépen vagy azon kívül végzett matematikai modellekre is. Ezeknek a modelleknek adatokra van szükségük a működéshez, és ha az adatok nem túl jók, akkor a modell előrejelzése sem lesz az.
És ez azonnal felveti a kérdést: Hol talál jó adatokat?
Az időjárás-állomások szerte a világon sok jó adatot gyűjtenek az időjárás-előrejelző modellekhez. A műholdak további adatokat gyűjtenek a légkörről és az óceánról. A repülőgépeken vagy léggömbökkel szállított műszerek még több mérést végeznek a hőmérséklet, a szélsebesség és a csapadék tekintetében.
Az adatok gyorsítótárai megtalálhatók az egész interneten. A kormányok összegyűjtenek néhány adathalmazt. Mások szervezetektől, egyetemektől, akár magánszemélyektől származnak. E halmazok némelyike hatalmas mennyiségű adatot tartalmaz.
Az adatok bárhonnan származhatnak. Szeretné tudni, hányan mennek körutazásra évente? Vagy milyen gyakran járnak európaiak templomba? Vagy hány amerikai szavazott az 1972-es elnökválasztáson? Ezek a megtalálható adatok között vannak.
Emily Kubicek egy adattudós a kaliforniai Los Angelesben. A Walt Disney Company-nál dolgozik a Disney Media and Entertainment Distribution üzleti szegmensében. Pályafutása elején a texasi Austin Nemzeti Siketközpontban dolgozott. Ott adatokat gyűjtött mind a halló, mind a süket amerikaiakról, hogy lássa a két csoport összehasonlítását. Az adatok az Egyesült Államok népszámlálási hivatalától származtak.
Ezek a népszámlálási adatok ingyenesek és bárki számára hozzáférhetők. A nemzet egészét is képviselik. Kubicek ezeket az adatokat bányászta ki részletekért, például arról, hogy mennyi iskolai végzettsége van. Mely munkák voltak a legnépszerűbbek minden csoportban? Milyen nyelveket használtak az emberek? Csoportja azt is megvizsgálta, hogy vannak-e olyan minták, hogyan változtak az ilyen tulajdonságok az idő múlásával.
Sok tudós Kaggle-től szerezte adatait. Ez az online tudós közösség hatalmas mennyiségű adatot oszt meg. Például az egyik helyen hatalmas adathalmazokat találhat a Kaliforniai Egyetemről, az Irvine Machine Learning Repository-ból.
Néha azonban a kutatók által kívánt adatokat nehéz megtalálni. Natalie Dean statisztikus a Gainesville-i Floridai Egyetemen. Az utóbbi időben az új koronavírus terjedésének előrejelzésein dolgozik. Mivel ez a COVID-19-t okozó vírus annyira új, viszonylag kevés adat áll rendelkezésre róla. „Még mindig tanulunk valamit erről a vírusról” – mondja Dean. Tehát ellentétben az időjárással, amelyet sok évtizede tanulmányoztak, „több a bizonytalanság [ezzel a vírussal kapcsolatban]”.