Mitä data-analyytikko tekee?
Joudun toisinaan selittämään, mitä data-analytiikka on. Usein sivuutan kysymyksen selittämällä jotain yleismaailmallista tilastollisesta analyysista, koneoppimisesta tai raportoinnista. Nämä ovat kuitenkin vain pieni osa data-analyytikon työstä.”Ratkaistava ongelma määrittelee sen, mitä dataa tarvitaan ja mistä sitä kerätään”

Ensimmäinen, ja tärkein vaihe on mielestäni kysymyksen esittäminen. Mitä halutaan tietää? Yritys haluaa varmasti ennustaa tulevaa myyntiä, varaston tavaravirtaa tai vaikkapa sisäänostotarvetta. Voi olla tarve luokitella asioita, kuten kategorisoida asiakkaita tai etsiä epäsäännöllisyyksiä ERP-järjestelmän tiedoista. Se, mikä ongelma halutaan ratkaista määrittää, mitä dataa tarvitaan sekä miten ja mistä sitä kerätään.

Toinen vaihe on datan kerääminen. Tässä vaiheessa tarkistan, mitä kysymykseen liittyvää dataa yrityksellä on CRM- ja ERP-järjestelmissään. Tämä työvaihe on yleensä nopea ja yksinkertainen, koska kaikki kysymykseen vastaamiseen tarvittava tieto on kerättävissä näistä lähteistä. Jos dataa ei ole, tai sitä ei ole riittävästi, täydennetään dataa muista lähteistä. Oma Oppodata -ratkaisumme on osoittautunut erinomaiseksi tietopankiksi, erityisesti jos halutaan hyödyntää tietoa suomalaisista yrityksistä ja toimialoista.

”Siivoamista, tietojen täydentämistä, koodausta ja avainlukujen selvittämistä”

Kolmas vaihe on data-analyytikon työssä keskeinen. Saatuani aineiston kasaan alkaa siihen tutustuminen ja sen siivoaminen. Tarkistan, ettei tiedoista puutu kenttiä, kuten Y-tunnuksia tai osoitetietoja. Melko tyypillistä on myös se, että tarjouksista puuttuu rahallinen arvo. Seuraavaksi korjaan käyttäjäsyötteistä johtuvat virheet datassa. Väärin kirjoitetut Y-tunnukset ja eri valuuttojen käyttö tarjouksissa ovat tyypillisiä käyttäjäsyötevirheitä.

Tämän jälkeen rajaan datan asiakasta kiinnostavaan osajoukkoon. Jos asiakas on kiinnostunut vain tietyn alueen yrityksistä, rajaan kaikki muut toimijat analyysin ulkopuolelle. Tässä vaiheessa otetaan mukaan myös koodi ja lasketaan avainlukuja, kuten keskiarvoja, mediaaneja sekä raja-arvoja. Aineistolla on paljon kerrottavaa ja tässä vaiheessa tavoitteena on selvittää, mitä arvokasta tietoa aineistosta löytyy.

”Tilastotieteellistä osaamista, hyviä koodaustaitoja ja asiakkaan toimialan tuntemista”

Neljännessä vaiheessa todelliset ammattilaiset erotetaan kahvipöytäanalyytikoista, kun alkaa varsinainen datan analysointi ja mallintaminen. Tässä vaiheessa vaaditaan tilastotieteellistä osaamista, hyviä koodaustaitoja sekä toimialatuntemusta.

Oikean tilastollisen mallin valitseminen, validien mittareiden käyttäminen ja mallin oikea ymmärtäminen parantavat niiden tarkkuutta ja tehokkuutta.

”Hyvältä data-analyytikolta saat yksinkertaisen vastauksen”

Viidennessä vaiheessa palataan takaisin johtajan pöydän ääreen ratkaisun eli vastausten kanssa. Jos minun mielestäni ensimmäinen vaihe on lopputuloksen kannalta tärkein, niin tämä viides vaihe on kysyjälle tärkein. Tässä vaiheessa suodatettu ja käsitelty aineisto antaa vastaukset kysymyksiin ymmärrettävillä luvuilla, lauseilla ja kuvaajilla.

Viidennessä vaiheessa esittelena asiakkaalle mallin tuottamat luvut, lauseet ja kuvaajat ja opastan lukujen tulkinnassa. Joskus asiakas haluaa tietää, millaista tilastolllista mallia on käytetty. Pyrin siihen, että asiakas saa yksinkertaisia ratkaisuja, joiden avulla pystyy tekemään päätöksiä mahdollisimman nopeasti ja vaivattomasti. Luomani mallin on tuotettava tietoa, jonka yritysjohto pystyy omaksumaan yhdellä silmäyksellä.

Hyvän data-analyytikon työ edellyttää tilastotieteellisten menetelmien osaamisen ja koodaustaitojen lisäksi liike- ja makrotalouden asiantuntemusta ja loistavia asiakaspalvelutaitoja. Hyvä analyytikko antaa yksinkertaisen vastauksen yksinkertaiselta kuulostavaan kysymykseen.