Datan laatu ja elinkaari
Huono data johtaa huonoihin päätöksiin. Ilman elinkaaren hallintaa data muuttuu ajan myötä riskiksi. Dataa on usein paljon – luotettavaa dataa huomattavasti vähemmän. Tämä korostuu erityisesti nyt, kun dataa halutaan hyödyntää tekoälyssä: ilman luotettavaa ja hallittua dataa myös tekoälyn tuottamat tulokset ovat epäluotettavia.
Johdanto
Useimmat organisaatiot eivät kärsi datan puutteesta, vaan siitä, ettei dataan voi luottaa.
Tilanne on usein tuttu: sama raportti näyttää eri lukuja eri järjestelmistä, sama tieto esiintyy useana versiona eikä kukaan ole täysin varma, mikä niistä on ”oikea”. Samalla vanhaa dataa kertyy järjestelmiin ilman selkeää syytä tai poistamisen mallia.
Nämä ongelmat eivät yleensä johdu yksittäisestä virheestä. Niiden taustalla on lähes aina kaksi puuttuvaa asiaa:
- datan laatu ei ole systemaattisesti hallinnassa
- datan elinkaarta ei ole määritelty
Kun nämä puuttuvat, dataa kyllä on, mutta siihen ei voi luottaa eikä sitä voi hyödyntää turvallisesti. Datan laatu ja elinkaari muodostavat yhdessä perustan luotettavalle ja vastuulliselle datan käytölle.
Suora vastaus
Datan laatu tarkoittaa sitä, kuinka luotettavaa ja käyttökelpoista data on päätöksenteossa. Datan elinkaari tarkoittaa sitä, miten data syntyy, muuttuu, säilytetään ja lopulta poistetaan. Organisaation on hallittava molemmat. Ilman laatua päätökset perustuvat virheelliseen tietoon. Ilman elinkaaren hallintaa data kertyy, vanhenee ja altistaa riskeille.
Kenelle tämä on?
Tämä kokonaisuus on erityisen tärkeä niille, jotka tekevät datan käyttöön liittyviä päätöksiä tai vastaavat sen toteutuksesta:
- johdolle, joka tarvitsee luotettavaa tietoa päätöksenteon tueksi
- data- ja IT-toiminnoille, jotka vastaavat laadusta ja teknisestä toteutuksesta
- tietosuoja- ja compliance-rooleille, jotka varmistavat säilytys- ja poistovaatimusten toteutumisen
Artikkelit tässä klusterissa
- Mitä datan laatu tarkoittaa ja miksi se on tärkeää?
- Miten datan laatua mitataan ja parannetaan käytännössä?
- Mitä datan elinkaari tarkoittaa yrityksessä?
- Kuinka kauan dataa saa säilyttää (GDPR ja käytäntö)?
Mitä datan laatu tarkoittaa ja miksi se on tärkeää?
Datan laatu ei ole tekninen yksityiskohta. Se on liiketoiminnan perusedellytys.
Käytännössä datan laatu tarkoittaa sitä, kuinka tarkkaa, ajantasaista, täydellistä ja yhdenmukaista data on ja ennen kaikkea sitä, voidaanko siihen luottaa päätöksenteossa.
Miltä datan laatu näyttää arjessa?
Datan laatu ei näy mittareissa ensimmäisenä, mutta se näkyy arjen sujuvuudessa.
Kun laatu on kunnossa, raportit tukevat päätöksentekoa. Sama tieto tarkoittaa samaa kaikissa järjestelmissä, eikä sitä tarvitse erikseen varmistella. Dataa voidaan käyttää suoraan analytiikassa, ilman jatkuvaa siivoamista.
Kun laatu ei ole kunnossa, tilanne on päinvastainen. Eri raportit näyttävät eri lukuja, sama asiakas löytyy useana versiona ja analytiikkaan suhtaudutaan varauksella. Keskustelu siirtyy helposti itse asiasta siihen, mikä luvuista on ”oikea”.
Konkreettinen esimerkki
Johto tarkastelee myyntiä, mutta eri lähteet kertovat eri tarinaa: BI-raportti näyttää 1,2 miljoonaa euroa, CRM 1,35 miljoonaa ja talous 1,1 miljoonaa. Ongelma ei ole yksittäinen virhe raportissa, vaan ongelma on se, että datan laatu ei ole hallinnassa.
Miksi tämä korostuu juuri nyt?
Datan laatu on aina ollut tärkeää, mutta sen merkitys on kasvanut viime vuosina selvästi. Yhä useampi päätös perustuu dataan, liiketoiminta skaalautuu datan varaan ja prosesseja automatisoidaan. Samalla virheet moninkertaistuvat: huono data ei enää vaikuta yhteen raporttiin, vaan useisiin järjestelmiin ja päätöksiin.
Tämä korostuu erityisesti tekoälyn käytössä. AI ei korjaa datan ongelmia, vaan se paljastaa ne. Jos data ei ole luotettavaa tai sen alkuperää ei pystytä selittämään, myös tekoälyn tuottamat tulokset ovat epäluotettavia. Siksi monet AI-hankkeet pysähtyvät ennen tuotantoa.
Miksi datan laatu menee pieleen?
Usein ongelma ei ole yksittäinen virhe, vaan toimintamalli. Laatua yritetään korjata raportointivaiheessa sen sijaan, että ongelma ratkaistaisiin lähteessä. Organisaatiossa ei ole yhteistä määritelmää siitä, mitä ”laatu” tarkoittaa, eikä laatua mitata systemaattisesti. Vastuu jää helposti epäselväksi. Tällöin ongelmat korjaantuvat hetkellisesti, mutta palaavat uudelleen.
Milloin tähän kannattaa puuttua?
Datan laatu on syytä nostaa esiin viimeistään silloin, kun siihen ei enää luoteta. Se näkyy usein tilanteina, joissa raportit eivät täsmää, analytiikka ei tuota odotettua hyötyä tai päätöksenteko hidastuu, koska dataa joudutaan varmistamaan. Jos ongelmien juurisyy ei ole selvä, kyse ei yleensä ole yksittäisestä virheestä – vaan datan laadun hallinnan puutteesta.
Miten tästä eteenpäin?
Ensimmäinen askel ei ole täydellinen malli, vaan tilanteen ymmärtäminen. Kun datan laadun ongelmat ja niiden juurisyyt tunnistetaan, niitä voidaan alkaa korjata systemaattisesti ja oikeasta paikasta.
Miten datan laatua mitataan ja parannetaan käytännössä?
Datan laatu ei parane itsestään. Sitä pitää mitata, seurata ja kehittää systemaattisesti.
Monessa organisaatiossa datan laatu tiedostetaan ongelmaksi, mutta sitä ei johdeta. Dataa korjataan tapauskohtaisesti, usein vasta raportointivaiheessa, ilman että ongelman juurisyy poistuu. Toimiva malli lähtee siitä, että laatu tehdään näkyväksi ja sitä johdetaan kuten mitä tahansa muuta liiketoiminnan osa-aluetta.
Miten datan laatua mitataan?
Datan laatua ei voi kehittää ilman mittareita. Käytännössä tämä tarkoittaa sitä, että organisaatiossa määritellään, mitä ”hyvä data” tarkoittaa juuri teidän toiminnassanne. Tyypillisesti tämä jäsentyy neljään näkökulmaan:
- onko data täydellistä vai puuttuuko siitä olennaisia tietoja
- vastaako data todellisuutta
- kuinka ajantasaista data on
- onko sama tieto yhdenmukaista eri järjestelmissä
Esimerkiksi asiakasdatan kohdalla tämä voi tarkoittaa sitä, että yhteystiedot ovat ajan tasalla, asiakas esiintyy vain kerran ja sama tieto näkyy samana sekä CRM:ssä että raportoinnissa.
Miten laatu paranee käytännössä?
Datan laadun kehittäminen ei ole yksittäinen toimenpide, vaan jatkuva prosessi. Se alkaa siitä, että laadulle asetetaan konkreettiset tavoitteet. Sen sijaan että puhutaan ”paremmasta datasta”, määritellään mitä se tarkoittaa käytännössä, esimerkiksi kuinka suuri osa asiakastiedoista sisältää tarvittavat kentät tai kuinka nopeasti data päivittyy.
Tämän jälkeen laatu tehdään näkyväksi mittaamalla sitä automaattisesti. Laadun seuranta ei voi perustua manuaalisiin tarkistuksiin, vaan sen pitää olla osa dataprosesseja ja järjestelmiä.
Keskeinen periaate on, että ongelmat korjataan siellä missä ne syntyvät. Jos virhe korjataan raportissa, se palaa seuraavassa ajossa. Kun se korjataan lähdejärjestelmässä, ongelma poistuu pysyvämmin.
Samalla vastuut täytyy määritellä selkeästi. Liiketoiminta vastaa siitä, mitä laatu tarkoittaa, ja operatiivinen rooli huolehtii sen toteutumisesta arjessa.
Konkreettinen esimerkki
Yrityksessä huomataan, että myyntiraportit eivät täsmää asiakasdatan virheiden vuoksi. Ensimmäinen reaktio on korjata luvut raportointityökalussa. Tämä toimii hetkellisesti, mutta seuraavassa ajossa sama ongelma palaa.
Kun tilannetta tarkastellaan tarkemmin, huomataan, että virhe syntyy jo CRM-järjestelmässä: asiakastietoja syötetään eri tavoilla eikä validointia ole. Kun korjaus tehdään lähteeseen, esimerkiksi lisäämällä pakollisia kenttiä ja tarkistuksia – laatu paranee pysyvästi ja raportit alkavat täsmätä ilman erillistä työtä.
Miksi datan laatu ei yleensä parane?
Usein ongelma ei ole tiedon puute, vaan tekemisen tapa. Laatua ei mitata, vaan sitä arvioidaan tuntuman perusteella. Tarkistukset tehdään manuaalisesti, mikä ei skaalaudu. Virheitä korjataan ”pinnassa” raportoinnissa, eikä lähteessä. Lisäksi vastuu jää epäselväksi. Tällöin laatu voi hetkellisesti parantua, mutta ei pysyvästi.
Milloin tähän kannattaa puuttua?
Datan laadun kehittäminen nousee ajankohtaiseksi erityisesti silloin, kun ongelmat alkavat näkyä laajemmin: raporttien ristiriitoina, analytiikan epäluotettavuutena tai siinä, että datan hyödyntäminen – esimerkiksi tekoälyssä – ei etene odotetusti. Mitä useammassa järjestelmässä dataa on, sitä tärkeämpää on, että laatu on hallinnassa systemaattisesti.
Datan laatu ei parane analytiikassa, vaan se paranee lähteessä.
Miten tästä eteenpäin?
Datan laadun kehittäminen kannattaa aloittaa rakentamalla yhteinen mittaristo ja toimintamalli. Kun laatu tehdään näkyväksi ja vastuut ovat selkeät, sitä voidaan alkaa kehittää johdonmukaisesti ilman jatkuvaa ”palokuntatyötä”.
Mitä datan elinkaari tarkoittaa yrityksessä?
Data ei ole staattista. Se syntyy, muuttuu, kopioituu, yhdistyy muihin tietoihin ja lopulta vanhenee. Silti monessa organisaatiossa dataa käsitellään kuin se olisi pysyvää. Sitä tallennetaan, käytetään ja siirretään eteenpäin, mutta harvoin mietitään, mitä datalle tapahtuu ajan kuluessa tai milloin siitä pitäisi luopua.
Datan elinkaari tarkoittaa kokonaisuutta, jossa dataa hallitaan sen syntymisestä aina poistamiseen asti.
Miltä datan elinkaari näyttää käytännössä?
Yksinkertaisimmillaan datan elinkaari on jatkuva ketju. Data syntyy jossain järjestelmässä, esimerkiksi asiakastietona CRM:ään. Tässä vaiheessa määrittyy jo pitkälti sen laatu: miten tieto syötetään ja mitä siitä tallennetaan.
Tämän jälkeen data tallennetaan ja siirtyy usein useisiin järjestelmiin. Samalla korostuvat tietoturva, rakenteet ja se, miten data pysyy eheänä eri ympäristöissä.
Varsinainen arvo syntyy käytössä. Dataa hyödynnetään raportoinnissa, analytiikassa ja yhä useammin tekoälyssä. Tässä vaiheessa laatu ja ajantasaisuus ratkaisevat, voidaanko siihen luottaa.
Ajan myötä data menettää merkitystään. Sitä ei enää tarvita aktiivisesti, mutta sitä ei myöskään poisteta, jolloin data siirtyy käytännössä passiiviseen tilaan, usein ilman selkeää päätöstä.
Lopulta data pitäisi poistaa hallitusti. Tämä ei ole pelkkä tekninen toimenpide, vaan myös sääntelykysymys: esimerkiksi henkilötietojen kohdalla poistaminen on usein velvoite, ei valinta.
Konkreettinen esimerkki
Yritys kerää asiakastietoa myynnin tueksi. Aluksi tieto on ajantasaista ja sitä käytetään aktiivisesti. Ajan myötä asiakkaat poistuvat, tiedot vanhenevat ja osa datasta jää järjestelmiin ilman selkeää käyttötarkoitusta.
Samaa dataa käytetään kuitenkin edelleen raportoinnissa ja analytiikassa, vaikka sen merkitys on muuttunut. Samalla tietoa säilytetään pidempään kuin olisi tarpeen, koska poistamiseen ei ole selkeää mallia. Lopputuloksena organisaatiolla on paljon dataa, mutta sen arvo on epäselvä ja siihen liittyvät riskit kasvavat.
Miksi elinkaaren hallinta on tärkeää?
Ilman elinkaaren hallintaa data alkaa hiljalleen kääntyä organisaatiota vastaan. Päätöksenteko vääristyy, kun vanhentunut tieto vaikuttaa raportointiin. Riski kasvaa, kun dataa säilytetään ilman selkeää perustetta. Samalla kustannukset nousevat, kun järjestelmissä pidetään dataa, jota ei enää tarvita.
Erityisesti sääntelyn näkökulmasta elinkaaren hallinta on kriittistä. Jos ei tiedetä, mitä dataa säilytetään ja miksi, velvoitteita on vaikea täyttää.
Tyypillinen ongelma
Yksi yleisimmistä tilanteista on, että dataa säilytetään ”varmuuden vuoksi”. Ajatus tuntuu turvalliselta, mutta käytännössä se johtaa päinvastaiseen lopputulokseen. Dataa kertyy hallitsemattomasti, sen käyttötarkoitus hämärtyy ja kokonaiskuva katoaa. Tällöin organisaatiolla on paljon dataa, mutta vähän hallintaa.
Miksi elinkaari ei toimi?
Usein elinkaarta ei ole määritelty lainkaan. Dataa ei poisteta, koska kukaan ei tiedä, milloin se pitäisi tehdä. Organisaatiossa ei ole selkeää käsitystä siitä, mitä dataa on olemassa, eikä vastuuta ole nimetty. Tällöin elinkaari ei ole prosessi, vaan sattumanvarainen lopputulos.
Milloin tähän kannattaa puuttua?
Elinkaaren hallinta nousee ajankohtaiseksi viimeistään silloin, kun dataa alkaa kertyä hallitsemattomasti tai säilytyskäytännöt ovat epäselvät. Usein tilanne tulee esiin myös tietosuojan kautta, kun esimerkiksi poistopyyntöihin ei pystytä vastaamaan luotettavasti.
Miten tästä eteenpäin?
Datan elinkaaren hallinta alkaa siitä, että määritellään selkeä malli: mitä dataa kerätään, kuinka kauan sitä säilytetään, milloin se arkistoidaan ja milloin se poistetaan. Kun nämä periaatteet ovat kunnossa, data pysyy hallinnassa koko elinkaarensa ajan, eikä muutu riskiksi.
Kuinka kauan dataa saa säilyttää (GDPR ja käytäntö)?
Dataa ei saa säilyttää loputtomiin. Säilytysajan pitää olla perusteltu.
GDPR:n lähtökohta on yksinkertainen: dataa saa säilyttää vain niin kauan kuin se on tarpeellista alkuperäiseen käyttötarkoitukseen. Käytännössä tämä tarkoittaa, että organisaation pitää pystyä vastaamaan siihen, miksi dataa säilytetään ja milloin siitä luovutaan.
Mitä tämä tarkoittaa käytännössä?
Monessa organisaatiossa dataa kertyy vuosien ajan ilman selkeää suunnitelmaa. Järjestelmiin jää vanhoja asiakastietoja, markkinointilistoja ja historiadataa, jota ei enää aktiivisesti käytetä, mutta jota ei myöskään poisteta. Usein syynä ei ole tietoinen päätös, vaan se, ettei poistamiseen ole mallia. Tällöin dataa kyllä hallitaan käytön aikana, mutta ei sen elinkaaren lopussa.
Konkreettinen esimerkki
Yritys kerää asiakasdataa markkinointia varten. Aluksi data perustuu suostumukseen ja sitä käytetään aktiivisesti kampanjoissa. Ajan myötä osa kontakteista ei enää reagoi, osa suostumuksista vanhenee ja osa asiakkaista poistuu kokonaan. Silti data jää järjestelmiin. Sitä ei käytetä, mutta sitä ei myöskään poisteta, koska kukaan ei ole määritellyt, milloin näin pitäisi tehdä. Tässä vaiheessa kyse ei ole enää liiketoimintahyödystä, vaan riskistä.
Mitä GDPR edellyttää?
GDPR ei määritä tarkkoja säilytysaikoja kaikelle datalle. Sen sijaan se edellyttää, että organisaatio pystyy perustelemaan säilytysajan henkilötiedoille. Käytännössä tämä tarkoittaa, että organisaation täytyy tietää:
- mitä dataa sillä on
- mihin tarkoitukseen sitä käytetään
- kuinka kauan se on tarpeellista
- milloin se poistetaan
Esimerkiksi laskutukseen liittyvä data säilytetään kirjanpitolainsäädännön mukaisesti, kun taas markkinointidata perustuu usein suostumukseen ja sen voimassaoloon.
Miksi tämä on käytännössä haastavaa?
Yksi yleisimmistä tilanteista on, että dataa säilytetään ”varmuuden vuoksi”. Ajatus tuntuu turvalliselta, mutta käytännössä se lisää riskiä. Mitä enemmän dataa säilytetään ilman selkeää käyttötarkoitusta, sitä vaikeampi sitä on hallita. Samalla kasvaa riski siitä, että dataa käytetään väärin tai sitä ei pystytä poistamaan, kun pitäisi.
Miksi säilytys ei yleensä toimi?
Usein ongelma ei ole sääntely, vaan toteutus. Säilytysaikoja ei ole määritelty tai ne jäävät yleiselle tasolle. Dataa ei ole luokiteltu, joten eri tietotyyppeihin sovelletaan samoja käytäntöjä. Poistoprosessia ei ole rakennettu, eikä vastuuta ole nimetty selkeästi. Tällöin dataa kertyy järjestelmiin ilman, että kukaan hallitsee kokonaisuutta.
Milloin tähän kannattaa puuttua?
Säilytyskäytännöt nousevat esiin usein viimeistään silloin, kun organisaatio kohtaa ulkoisen paineen: GDPR-auditoinnin, tietopyynnön tai tilanteen, jossa pitäisi pystyä poistamaan dataa nopeasti, mutta ei tiedetä, missä sitä on. Erityisesti silloin, kun dataa on paljon ja useissa järjestelmissä, hallitsematon säilytys muuttuu nopeasti riskiksi.
Miten tästä eteenpäin?
Säilytyksen hallinta alkaa selkeistä periaatteista. Organisaation täytyy määritellä, mitä dataa säilytetään, kuinka kauan ja millä perusteella. Tämän jälkeen data luokitellaan ja poistaminen rakennetaan osaksi prosesseja mieluiten automatisoituna. Kun säilytys ja poistaminen toimivat, data pysyy hallinnassa myös elinkaarensa lopussa.
Mitä tästä pitäisi jäädä käteen?
Yrityksen pitää hallita kahta asiaa: voiko dataan luottaa (datan laatu) ja voiko dataa säilyttää ja käyttää (elinkaari). Kun nämä ovat kunnossa, päätökset paranevat, riskit pienenevät, AI toimii paremmin ja compliance täyttyy.
Tarvitsetteko apua datan laadun ja elinkaaren hallintaan?
Jos dataan ei luoteta, raportit eivät täsmää, säilytysajat ovat epäselvät tai AI ei toimi, ongelma ei ole teknologiassa vaan hallinnassa.
JAAKKO VIITANEN
Toimitusjohtaja
Puh +358 40 565 0430
jaakko.viitanen@lawder.fi
JOUNI MERILUOTO
Johtaja, tekoäly ja kyberturvallisuus
Puh +358 50 300 2654
jouni.meriluoto@lawder.fi