Technology

Päätön datan kerääminen on päätöntä

December 12, 2013

Read time 2 min

Hyvä analytiikka ei yleensä perustu passiivisesti kerätyn “ison datan” louhintaan, vaan oikeisiin kysymyksiin, joiden perusteella suunnitellaan keräys- ja mallinnusprosessi.

Data science, viime aikoina muotiin tullut tilastotieteen ja tietojenkäsittelyn välimuoto, suomennetaan yleensä analytiikaksi. Usein analytiikan tehtäväksi mielletään hyödyllisen tiedon tuottaminen “datasta” eli ylisuurista tiedostoista, jotka ensisilmäyksellä vaikuttavat tylsiltä, mitäänsanomattomilta ja pahasti itseään toistavilta. Jos tiedosto on oikein iso ja pilkottu klusteriin Hadoopin avulla, puhutaan big datasta. Data ei kuitenkaan ole mitään ilman kontekstiaan, ja joihinkin tilanteisiin analytiikan hyödyntäminen sopii paremmin kuin toisiin.

Tiedonkeruun tarkoituksena on kertoa jotain tulevasta maailmasta, menneisyyden kautta. Tiedon pitäisi tukea tulevaa toimintaa. Datan pohjalta joko me ennakoimme tai kone ennakoi erilaisten toimenpiteiden seurauksia: näin tiedämme paremmin, mitä tulevaisuudessa kannattaa tehdä. Missä tilanteissa tämä sitten on mahdollista ja järkevää?

Aktiivinen analytiikka paljastaa syy-seuraussuhteet

Verkkokaupan suosittelujärjestelmä perustuu tietoihin aiemmista ostoskoreista. Niistä voi näkyä, että kameran kanssa on usein ostettu isompi muistikortti: kameran ostajalle kannattaa siis tarjota muistikorttia. Mutta kannattaako muistikortin ostajalle tarjota kameraa? Miten kameran versus muistikortin hankkimisen kausaalinen epäsymmetria näkyy datasta?

Kameran ja muistikortin osalta tiedämme vastauksen tietenkin etukäteen. Verkkokaupassa ostosten poimintajärjestys koriin antaa vihjeitä kausaliteetista. Yleisessä tapauksessa korrelaation epäsymmetria eli syy-seuraussuhde ei kuitenkaan näy passiivisesti kerätystä datasta mitenkään. Jos halutaan tietää syy-seuraussuhteita, tarvitaan testejä, eli mitattavaan systeemiin puuttumista.

Tämä lienee big data -innostuksen merkittävimpiä sudenkuoppia. Kaiken datan passiivinen kerääminen ei riitä: tarvitaan tietoa eli mittauksiaerilaisista toiminnan kannalta relevanteista tilanteista, joille tutkittava systeemi on tietoisesti altistettu. Saamme varmuudella tietää kelpaako muistikortti kameran lisukkeeksi vain kokeilemalla. Voimme ehdottaa verkkokaupassa kameran ostajille muistikorttia tai vaihtoehtoisesti jotain muuta, ja todeta testin perusteella muistikorttien tekevän kauppansa.

Paras analytiikka alkaa tavoitteiden määrittelyllä

Analytiikkaa voi verrata tieteeseen ja tekoälyyn. Tiede pyrkii mahdollisimman yleistettävään tietoon, eli sen tavoite on sama kuin ymmärrystä lisäävän analytiikan. Passiivinen havainnointi tai passiivisesti kerätyn datan tutkailu on toki parempi ratkaisu kuin olla kokonaan silmät kiinni, mutta varmin ja yleistettävin tieto syntyy kontrolloiduissa kokeissa.

Tekoälyn lopullinen tavoite taas on autonominen, oppiva agentti. Toimintaa ei voi oppia havainnoimalla, vaan pitää päästä vuorovaikutukseen ympäristön kanssa, kokeilemaan ja tekemään itse. Aivan samalla tavoin operationaalinen analyyttinen järjestelmäkään ei voi optimoitua ilman testejä.

Hyvä analytiikka voi tuottaa kumpaa tahansa: automaattisia järjestelmiä tai ymmärrystä isojen päätösten avuksi. Kummassakin tapauksessa parhaat tulokset syntyvät, kun analytiikka pääsee vaikuttamaan toimenpiteisiin ja päätöksiin oppimismielessä heti dataa kerättäessä. Kysymykset, joihin halutaan vastaus, kannattaa miettiä etukäteen, jolloin suurella vaivalla kerätyllä datalla on varmemmin siltä odotettu arvo.

Kuva: Matt Chan

Never miss a post