Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: az algoritmusok kora és az adatminőség válsága

Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: Az algoritmusok kora és az adatminőség válsága – 1. rész

január 15, 2026

Olvasási idő: 7 perc

A technológiai ígéret és a strukturális valóság paradoxona

A mesterséges intelligencia korában az adatok jelentik az új aranyat – de csak akkor, ha megfelelő minőségűek. Ebben a háromrészes cikksorozatban azt mutatjuk be, hogy miért kritikus az adatminőség az AI-rendszerek sikeres működéséhez, milyen kihívásokkal szembesülnek a vállalatok az adatkezelés során, és hogyan építhetnek ki hatékony adatminőség-biztosítási folyamatokat.

Az első részben az adatminőség alapvető jelentőségét és a GIGO elvet vizsgáljuk meg, a második részben az adatminőség-ellenőrzés hat kulcsfontosságú dimenzióját mutatjuk be részletesen, míg a harmadik részben konkrét gyakorlati megoldásokat és eszközöket kínálunk az adatminőség biztosítására.

A 2020-as évek közepére a globális üzleti és technológiai szférát egyetlen, mindent átható narratíva uralja: a mesterséges intelligencia (MI), és különösen a generatív AI (GenAI) transzformatív ereje. A szervezetek, kormányzatok és kutatóintézetek világszerte példátlan erőforrásokat mozgósítanak annak érdekében, hogy integrálják működésükbe az öntanuló algoritmusokat, a nagy nyelvi modelleket (LLM) és az automatizált döntéshozatali rendszereket. Az ígéret csábító: a működési hatékonyság exponenciális növekedése, a humán munkaerő kognitív képességeinek kiterjesztése, valamint a prediktív analitika révén a jövőbeli piaci folyamatok pontos előrejelzése.

A felszín alatt azonban egy súlyos, rendszerszintű probléma húzódik meg, amelyet az iparági szakértők és elemzők egyre hangosabban jeleznek: az AI-projektek sikerességi rátája aggasztóan alacsony, és a kudarcok gyökéroka az esetek döntő többségében nem a technológia éretlensége, hanem az alapul szolgáló adatok minőségének, strukturáltságának és felügyeletének hiánya. A jelen jelentés célja, hogy kimerítő részletességgel tárja fel ezt az ellentmondást, amelyet találóan foglal össze a tézis: „Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat”.

A jelentés átfogó elemzést nyújt az AI-projektek bukásának statisztikai és kvalitatív hátteréről, bemutatja az „Adatközpontú AI” (Data-Centric AI) paradigma szükségességét a hagyományos modellközpontú megközelítéssel szemben, és részletesen tárgyalja azokat a módszertani keretrendszereket – mint a DAMA-DMBOK szerinti adatminőség-menedzsment, a Data Lineage (adatszármaztatás), az adatmegfigyelhetőség (Data Observability) és a szemantikai rétegek –, amelyek elengedhetetlenek a fenntartható sikerhez. Külön fejezetet szentelünk a magyarországi helyzetképnek, elemezve a hazai KKV-szektor és a nagyvállalatok (OTP, Magyar Telekom) stratégiáit a DIMOP Plusz program és az uniós szabályozások tükrében.

Az AI-projektek bukásának anatómiája: A kudarc statisztikái és a „Proof of Concept” csapda

A mesterséges intelligencia ipari alkalmazása jelenleg egy sajátos érési fázisban van, amelyet a Gartner „Hype Cycle” modellje gyakran a „felfokozott várakozások csúcsának” nevez, de az adatok azt mutatják, hogy sok szervezet már a „kiábrándulás völgye” felé tart. A rendelkezésre álló kutatási adatok egyértelműen bizonyítják, hogy a lelkesedés és a megvalósítás között tátongó szakadékot elsősorban az adatstratégia hiánya okozza.

A kudarc számszerűsítése: Globális körkép

A különböző kutatóintézetek és tanácsadó cégek által publikált statisztikák riasztó képet festenek az AI-kezdeményezések sorsáról. A projektek jelentős része soha nem lép ki a kísérleti fázisból, vagy ha igen, nem képes érdemi üzleti értéket teremteni.

A Gartner prognózisa: A technológiai kutatócég elemzése szerint az AI projektek átlagosan mindössze 48%-a jut el a prototípus fázisból az éles, termelési környezetbe. Ez azt jelenti, hogy a befektetések több mint fele holt tőkéve válik, mielőtt bármilyen megtérülést generálna.1 Még drasztikusabb a helyzet a generatív AI (GenAI) területén: a Gartner becslése szerint 2025 végére a GenAI projektek legalább 30%-át már a koncepcióigazolás (Proof of Concept – PoC) fázisa után, vagy közvetlenül azt követően leállítják. A legfőbb indokok között a rossz adatminőség, a nem megfelelő kockázatkezelés, a növekvő költségek és a tisztázatlan üzleti érték szerepelnek.
A RAND Corporation jelentése: A RAND kutatói még borúlátóbbak: becslésük szerint az AI projektek kudarcaránya elérheti a 80%-ot is. Ez a szám különösen mellbevágó, ha figyelembe vesszük, hogy ez duplája a hagyományos IT szoftverfejlesztési projektek bukási arányának.3 Ez arra utal, hogy az AI bevezetése nem csupán egy újabb szoftverprojekt, hanem egy alapvetően más típusú, sztochasztikus és adatfüggő kihívás, amelyre a hagyományos projektmenedzsment módszertanok nem alkalmasak.
Az MIT és a ComplexDiscovery elemzése: Az MIT Media Lab kutatása szerint a generatív AI pilot projektek esetében a kudarcok aránya elérheti a 95%-ot is.3 A tanulmány rávilágít, hogy a legtöbb vállalati és jogi osztály számára az AI ígérete olyan, mint az aranyásás: a csillogás ellenére a legtöbb esetben nem találnak valódi értéket. A fő akadály nem a technológia hiánya, hanem az üzleti munkafolyamatok és az AI képességek közötti összehangolatlanság.
NTT DATA és a ROI hiánya: Az NTT DATA jelentése szerint a GenAI bevezetési kísérletek 70-85%-a nem éri el a kívánt megtérülést (ROI).7 Ez az arány 2019 óta, amikor az MIT még 70%-os sikertelenségről számolt be, nemhogy javult volna, hanem romlott. Ennek oka, hogy miközben a modellek egyre fejlettebbek lettek, a szervezetek adatérettsége nem követte ezt a tempót, így a „disconnect” (szétkapcsolódás) a technológiai potenciál és a szervezeti képességek között tovább nőtt.

A gyökérokok elemzése: Miért nem az algoritmus a hibás?

A kudarcok okainak vizsgálatakor gyakran felmerülő tévhit, hogy a probléma a mesterséges intelligencia modellek „butaságában” vagy korlátaiban keresendő. A valóság azonban az, hogy a mai modern algoritmusok (legyen szó transzformerekről, konvolúciós hálókról vagy döntési fákról) matematikai szempontból rendkívül fejlettek és robusztusak. A hiba forrása szinte kivétel nélkül a bemeneti oldal.

A Qlik 500 AI szakember körében végzett felmérése rávilágít a probléma szervezeti dimenziójára: a válaszadók 81%-a nyilatkozott úgy, hogy vállalatuknál jelentős, kritikus adatminőségi problémák állnak fenn. Még aggasztóbb azonban a vezetés hozzáállása: a szakemberek 85%-a szerint a felsővezetés nem kezeli prioritásként ezeket az adatproblémákat, és nem biztosít forrást a megoldásukra.

Ez a jelenség egyfajta kognitív disszonanciát tükröz a döntéshozók fejében:

A „varázsdoboz” illúziója: A vezetők gyakran úgy tekintenek az AI-ra, mint egy dobozra, amelybe bármilyen információt bedobva, a másik oldalon kész üzleti megoldások jönnek ki. Nem értik meg, hogy az AI nem tudást teremt, hanem a meglévő adatokban lévő mintázatokat (és hibákat) tanulja meg.
Az „off-the-shelf” csapda: Az NTT DATA szakértői rámutattak, hogy a „dobozos”, kiskereskedelmi AI programok (retail AI) adaptációs rátája és hatékonysága alacsonyabb, mint a testreszabott vállalati eszközöké.7 Ennek oka, hogy a dobozos megoldások nem tudnak mit kezdeni a vállalat specifikus, gyakran rendezetlen (dirty data) adataival, míg a testreszabott fejlesztés kénytelen-kelletlen kikényszeríti az adatvagyon auditálását és tisztítását.
A skálázás nehézségei: A McKinsey „State of AI” jelentése szerint a szervezetek többsége még mindig a kísérleti fázisban rekedt. A „high performer” (csúcsteljesítő) vállalatok, amelyek képesek voltak skálázni az AI-t, abban különböznek a többiektől, hogy nemcsak technológiát vezettek be, hanem alapjaiban tervezték át a munkafolyamataikat (workflow redesign) és az adatkezelési stratégiájukat.

A kudarcok tehát nem technológiai, hanem vezetési és adatstratégiai hiányosságokra vezethetők vissza. Ahogy a Tale of Data elemzése fogalmaz: az esetek több mint 70%-ában nem az algoritmus a hibás, hanem az adat.

Az „Adatközpontú AI” (Data-Centric AI) paradigma és a rejtett technikai adósság

A mesterséges intelligencia fejlesztésének történetében sokáig a modellközpontú (Model-Centric) megközelítés volt az uralkodó. A kutatók a neurális hálók mélységének növelésével, új aktivációs függvényekkel és optimalizációs algoritmusokkal próbáltak jobb eredményeket elérni rögzített adathalmazokon. Ez a megközelítés azonban mára elérte határait.

Paradigmaváltás: Andrew Ng és a „Data-Centric AI”

Andrew Ng, a Google Brain társalapítója és a Coursera alapítója, az elmúlt években elindította a „Data-Centric AI” mozgalmat. Ng érvelése szerint a modern gépi tanulási modellek architektúrája mára „megoldott problémának” tekinthető a legtöbb ipari alkalmazás számára.10 A nyílt forráskódú közösség (Hugging Face, GitHub) révén bárki hozzáférhet a legmodernebb modellekhez (pl. ResNet, BERT, Llama).

A szűk keresztmetszet (bottleneck) áttevődött a modellről az adatra. Ng híres mondása szerint „Az AI étke az adat” („Data is food for AI”).11 Ahogy egy sportoló sem tud csúcsteljesítményt nyújtani rossz minőségű táplálékkal, úgy a legszofisztikáltabb AI modell is használhatatlanná válik, ha „szeméttel” etetik. Ez a klasszikus „Garbage In, Garbage Out” (GIGO) elv modern, nagy tétekkel játszott változata.

A Data-Centric megközelítés lényege, hogy a modell paramétereinek végtelen finomhangolása helyett az időt és az energiát az adatok minőségének javítására fordítjuk:

A címkék (label) következetességének javítása.
A zajos adatpontok szűrése.
A ritka események (edge cases) reprezentációjának növelése a tanítóhalmazban.
Az adatok strukturálása és gazdagítása (feature engineering).

Ng kutatásai azt mutatják, hogy egy tisztább, de kisebb adathalmazzal tanított egyszerűbb modell gyakran jobban teljesít, mint egy hatalmas, de zajos adathalmazon tanított komplex modell.

A GIGO elv a gyakorlatban: A „szemét” definíciója

A „Garbage In, Garbage Out” elv, amelyet George Fuechsel alkotott meg 1962-ben, az AI kontextusában sokkal árnyaltabb jelentést kap. A „szemét” (garbage) nem feltétlenül jelent értelmetlen karakterhalmazt. Az AI számára a „szemét” lehet:

Torzított adat (Bias): Ha a tanítóadatok nem reprezentálják a valóságot (pl. egy arcfelismerő rendszert csak fehér férfiak képein tanítanak), a modell diszkriminatív lesz.
Elavult adat (Data Drift): Ha a piaci környezet megváltozik (pl. COVID-19 előtt és után), a régi adatok félrevezetőek lehetnek.
Inkonzisztens címkézés: Ha az egyik annotátor a képen látható állatot „kutyának”, a másik „ebnek” címkézi, a modell nem tanul meg stabil fogalmakat.
Hiányos kontextus: Ha az adatból hiányoznak a metaadatok (pl. mikor, hol, milyen körülmények között keletkezett), az AI téves ok-okozati összefüggéseket (spurious correlations) tanulhat meg.

A Gépi Tanulási Rendszerek Rejtett Technikai Adóssága

A Google kutatói, D. Sculley és munkatársai, a „Hidden Technical Debt in Machine Learning Systems” című alapművükben rámutattak, hogy az AI rendszerek bevezetése hatalmas, hosszú távú karbantartási költségeket generál, amelyek a kezdeti sikerek idején láthatatlanok maradnak.

A tanulmány legfontosabb megállapítása, hogy egy valós AI rendszerben a tényleges ML kód (a modell) csak egy apró „fekete doboz” a rendszer közepén. A rendszer többi része – az adatgyűjtés, a verifikáció, az erőforrás-menedzsment, a monitorozás – teszi ki a kód 95%-át.

A Google kutatói az alábbi specifikus kockázati tényezőket (technikai adósságokat) azonosították:

Adatfüggőségek (Data Dependencies): A kódmodulokkal ellentétben az adatok közötti függőségeket a fordítóprogram (compiler) nem tudja ellenőrizni. Ha egy bemeneti jel (feature) definíciója megváltozik egy upstream rendszerben, az AI modell „csendben” elromolhat (silent failure).
Visszacsatolási hurkok (Feedback Loops): Az AI modellek gyakran befolyásolják a saját jövőbeli tanítóadataikat. Például egy ajánlórendszer befolyásolja, hogy a felhasználó mire kattint, ami bekerül a következő tanító körbe, megerősítve a modell esetleges torzításait.
Ragasztó kód (Glue Code): A különböző nyílt forráskódú könyvtárak és saját rendszerek összekapcsolására írt ad-hoc scriptek gyakran áttekinthetetlen dzsungellé válnak.
Konfigurációs adósság: A modellek hiperparamétereinek, küszöbértékeinek és verzióinak kezelése gyakran manuális és hibára hajlamos.

Ez a „rejtett adósság” magyarázza, miért olyan drága és nehéz az AI rendszerek fenntartása hosszú távon, és miért omlanak össze gyakran a kezdeti sikeres PoC után.

A mesterséges intelligencia projektek kudarcának anatómiája egyértelműen rávilágít: nem a technológia éretlensége, hanem az adatstratégia hiánya okozza a problémák döntő többségét. A Gartner, a RAND Corporation és az MIT kutatásai mind azt erősítik meg, hogy a 70-95% közötti bukási arány mögött a rossz adatminőség, a rendezetlen adatvagyon és a vezetői figyelmetlenség áll.

Andrew Ng Data-Centric AI paradigmája nem csupán egy újabb módszertani divat, hanem valódi paradigmaváltás: a modell paramétereinek végtelen finomhangolása helyett az adatok minőségének javítására kell összpontosítani. A Google kutatói által feltárt „rejtett technikai adósság” pedig arra figyelmeztet, hogy az AI rendszerek hosszú távú fenntarthatósága sokkal nagyobb kihívás, mint a kezdeti sikeres proof of concept megvalósítása.

A cikksorozat következő, második részében konkrétan azt vizsgáljuk meg, mit is jelent az „adatminőség” a gyakorlatban, és hogyan lehet azt objektíven mérni és biztosítani.

Bővebb információkért keresse kollégánkat:

Bagi Tamás üzletfejlesztési vezető
nextentservices@nextent.hu