Potentialet og omkostningerne for datakvalitet
2. feb. 2024

skrevet af: Casper Greve, Feb 2024
De fleste virksomheder har en ambition om at udnytte AI og være en data-dreven forretning...
Men hvad sker der, når datakvaliteten er utilstrækkelig, manglende - eller måske endda forkert? Dårlige eller direkte forkerte beslutninger sker! Det fører til risikable misforståelser og dyre forretninger. Meget dyre.
Alligevel undervurderes og overses data kvalitet som en engangs produktløsning, der forventes løst og drevet af data-teamet.
Men hvordan endte vi her?
Svaret er en kompleks kombination. En kombination af kultur, omkostninger, mangel på forretningsansvar, lavere umiddelbar indvirkning, fragmenteret arkitektur, begribelig forståelse, og mangel på ledelsesprioritet.
Dette betyder også, at håndtering og ændring af disse udfordringer kræver et skift i tankegangen, hvor man anerkender, at datakvalitet er grundlæggende for præcise beslutninger og forretningssucces.
At indse omkostningerne ved dårlige data og de barrierer, dårlige data skaber for analyser og AI, kunne være nogle af drivkræfterne bag genopfindelsen af fokus på datakvalitet.
10x-reglen
For mere end 30 år siden udførte George Labovitz og Yu Chang en undersøgelse om den negative indvirkning, dårlig data kunne have på forretninger. Deres undersøgelse foreslog 10x-reglen, der understregede vigtigheden af at investere i datakvalitet og fejlforebyggelse tidligt i datacyklussen for at mindske de betydelige omkostninger og konsekvenser, der kan opstå fra data kvalitets problemer, der spreder sig gennem forskellige arkitektur-lag og brugs faser. I enklere termer konkluderede studiet:
"Jo længere tid en virksomhed tager for at løse datakvalitetsproblemer - jo større vil tabene være i virksomheden".
Omfanget og konsekvenserne af dårlig datakvalitet blev beskrevet som 10x-reglen eller 1-10-100-princippet:
1x omkostninger til at forhindre en datafejl
Dette refererer til omkostningerne ved at forhindre en fejl på datainputstadiet. Det er den mindst dyre fase at håndtere et problem ved at sikre nøjagtighed under dataindtastning.10x omkostninger til at rette en datafejl
Hvis datafejlen ikke opdages i datainputfasen og går videre til næste fase (som opbevaring eller transformation), stiger omkostningerne ved at rette det væsentligt, da det kræver mere ressourcer, tid og indsats at finde, rette og forene fejlen i denne fase.100x omkostninger, hvis fejlen forbliver urettet og når slutbrugeren eller kunden
Hvis en fejl fortsætter gennem de tidligere faser og når slutbrugeren, forbruger eller klient, skydder omkostningerne ved rektifikation til vejrs. Denne sidste fase inkluderer konsekvenser som kundetilfredshed, potentielle juridiske konsekvenser, tabte forretningsmuligheder, fejlagtige beslutninger eller underafslutning - og den betydelige indsats, der kræves for at afhjælpe fejlens indvirkning.
Mens mængderne af data og det teknologiske landskab har ændret sig betydeligt - forbliver hovedpointen i studiet: Dårlige data er dyre!
Idéen bag 1-10-100-reglen er ikke nødvendigvis at mærke specifik data med præcise omkostninger, men at understrege vigtigheden og effekten af at overvåge og håndtere datakvalitetsproblemer tidligt i datacyklussen, da omkostningerne ved dårlige data stiger med en snebold-effekt, som problemet ryger nedstrøms.
For 30 år siden var det den anslåede effekt foreslået i studiet. I dag, med de mængder data, der genereres eksponentielt, mens data i stigende grad er pulsen i de fleste virksomheder, ville det være rimeligt at antage, at omkostningerne og den samlede potentielle effekt er meget højere. Især i nogle brancher med flere reguleringskrav, men også fordi flere og flere processer - fra fakturering til levering - kører digitalt med data som brændstof.
Du ved ikke, hvad du ikke ved
Uden de nævnte omkostninger og effekter har dårlig datakvalitet en anden overset effekt: At være en barriere for analyser og AI.
Udvikling og udnyttelse af mulighederne med analyser og AI kræver blot solid datakvalitet. Mange virksomheder ser ud til at glemme det. Det gamle ordsprog om "skrammel ind, skrammel ud" gælder stadig. God datakvalitet er brændstoffet til AI.
For nylig har vi set udfordringerne med dårlig datakvalitet i to forskellige brugssager af AI. I begge brugssager blev udfordringen beskrevet godt fra et forretningsperspektiv, omfanget og værdipotentialet var klart, data blev identificeret, AI-kapabiliteter var på plads, og en dataplatformat med passende værktøjer var tilgængelig - og datakvalitet dræbte festen. Modellen(e) var simpelthen ikke i stand til at levere. I et eksempel betød manglen på datakvalitet endda, at modellen ikke kunne skelne mellem meget grundlæggende stykker information.
Det lyder simpelt, og noget af det er. Men det er stadig en kritisk barriere for analyser og AI, som mange virksomheder opdager som en barriere den hårde vej. Og det har også en høj implicit omkostning.
Delt ejerskab og prioriteter
Når vi bevæger os i retning af mere AI og mere analyse, skal datakvaliteten prioriteres. For at spare omkostninger og undgå forkerte beslutninger, men også for at forberede innovation, nye indsigter og nye indtægtsstrømme.
For at gøre det skal virksomheder forstå, at høj datakvalitet er et delt ansvar mellem forretningsområderne og datadepartementerne.
I de fleste virksomheder produceres, fødes eller samles data i forretningen. Enten i forretningssystemer eller applikationer. Data forbruges og anvendes af virksomheden - og virksomheden er oftest dem, der føler smerten eller gevinsten ved datakvalitet.
Kort sagt, datakvalitet er meget vigtig for forretningen, og virksomheden bør altid deltage i det fælles ansvar for at få succes. Dataafdelinger kan støtte og overvåge med solide principper for datakvalitet, men det er et fælles ansvar for alle involverede. Slutbrugere på tværs af forretningsområder samt ledelsen skal forstå det. Det er en tværfunktionel øvelse i forandringsledelse, der forklarer vejen fra hvorfor til hvordan.
Imens kan 10x-reglen bruges til at skabe en forretningscase for dårlig datakvalitet til ledelsen.
På denne måde kan virksomheder, ved at prioritere og investere i datakvalitetsstyring på indgangsstedet, spare omkostninger, forbedre beslutningstagning og fjerne potentielle barrierer for nye innovationer med AI.