Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: Az algoritmusok kora és az adatminőség válsága - 3. rész

Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: Az algoritmusok kora és az adatminőség válsága – 3. rész

január 28, 2026

Olvasási idő: 5 perc

A cikksorozat első két részében bemutattuk az AI-projektek kudarcának statisztikai hátterét és az adatminőség objektív mérési dimenzióit. Láthattuk, hogy a projektek 70-95%-ának bukása nem technológiai, hanem adatstratégiai hiányosságokra vezethető vissza. Monica Rogati AI Szükséglethierarchiája rávilágított arra, hogy a fejlett AI-megoldások csak szilárd adatgyűjtési, tárolási és tisztítási alapokra építhetők, míg a DAMA keretrendszer hat dimenziója konkrét mérési pontokat biztosított a pontosságtól az egyediségig.

De hogyan biztosítható a gyakorlatban, hogy az adatok valóban megbízhatóak és nyomon követhetők legyenek? Milyen eszközökre és módszertanokra van szükség ahhoz, hogy egy szervezet hosszú távon fenntartható adatminőséget érjen el?

Ebben a részben a gyakorlati megvalósítás eszköztárát mutatjuk be. Megvizsgáljuk az adatszármaztatás (Data Lineage) szerepét, amely lehetővé teszi az adatok teljes életútjának dokumentálását és a hibák gyors felderítését. Bemutatjuk az adatgazdálkodás (Data Governance) keretrendszerét és a RACI modell alkalmazását, amely tisztázza a felelősségi köröket. Ezt követően a modern architektúrák két kulcselemét – a szemantikai réteget és az adatmegfigyelhetőséget – elemezzük, amelyek az AI-rendszerek megbízhatóságának alapját képezik.

Végül konkrét, valós esettanulmányokon keresztül szemléltetjük, hogy a rossz adatminőség milyen katasztrofális következményekkel járhat – a Google 100 milliárd dolláros piaci értékvesztésétől az Air Canada jogi felelősségéig. Emellett bemutatjuk a magyarországi helyzetet: hogyan navigálnak a hazai KKV-k és nagyvállalatok az AI-korszakban, és milyen jogi kereteket teremt az EU AI Act.

A minőségi adatok biztosításához nem elég a tisztítás; szükség van az adatok teljes életútjának nyomon követésére és a felelősségi körök tisztázására.

Data Lineage: Az adat GPS-e és feketedoboza

A Data Lineage (adatszármaztatás) az a folyamat, amely dokumentálja az adatok útját a keletkezési helyüktől (forrás) a különböző átalakításokon (transzformációk) keresztül a végső felhasználási pontig (cél, pl. AI modell vagy BI riport).

A lineage technikai megvalósítása többféle módon történhet:

Mintaalapú (Pattern-based): A rendszer figyeli az adatforgalmat, és statisztikai alapon következtet az összefüggésekre. (Kevésbé pontos, de könnyen telepíthető).
Címkézéses (Tagging): A transzformációs motorok „megjelölik” az adatokat, ahogy azok áthaladnak a rendszeren. (Zárt rendszerekben működik jól).
Elemzéses (Parsing): A rendszer automatikusan olvassa és értelmezi az ETL scripteket, SQL kódokat és logfájlokat, hogy rekonstruálja az adatfolyamot. Ez a legfejlettebb és legpontosabb módszer (pl. MANTA, Octopai, Solidatus eszközei).

Miért kritikus a Lineage az AI számára?

Hibakeresés (Root Cause Analysis): Ha egy AI modell hibás predikciót ad (pl. elutasít egy hitelkérelmet indokolatlanul), a lineage segítségével a mérnökök visszakövethetik a hiba forrását egészen a bemeneti adatmezőig. A Monte Carlo adatai szerint a lineage drasztikusan csökkenti a hibakeresési időt.37
Megfelelőség és Átláthatóság (Compliance): Az EU AI Act és a GDPR előírja az „Explainability” (magyarázhatóság) követelményét. Tudnunk kell bizonyítani, hogy az AI modell döntése milyen adatokon alapult, és hogy azok az adatok jogszerűen kerültek-e felhasználásra. Lineage nélkül az AI egy átláthatatlan fekete doboz marad.
Hatáselemzés (Impact Analysis): Ha egy forrásrendszerben (pl. SAP) megváltoztatnak egy mezőformátumot, a lineage segítségével előre látható, hogy ez a változás mely downstream AI modelleket fogja tönkretenni, így megelőzhető a rendszerösszeomlás.

Adattulajdonlás és a RACI modell alkalmazása

A technológia önmagában kevés; az emberi felelősségvállalás elengedhetetlen. A legnagyobb probléma a szervezetekben gyakran az „árva adat” (orphan data) jelensége: senki nem tudja, ki a felelős egy adott adatkészlet minőségéért.

A RACI mátrix (Responsible, Accountable, Consulted, Informed) az adatgazdálkodás (Data Governance) alapvető eszköze a szerepkörök tisztázására.

Responsible (Felelős): Az a személy vagy csoport, aki a tényleges munkát végzi (pl. Data Steward, Data Engineer). Ők futtatják az adattisztító scripteket, ők javítják a hibákat.
Accountable (Elszámoltatható): Az az egyetlen személy, aki végső soron felel az eredményért és a döntésekért. Az adatgazdálkodásban ez általában a Data Owner (Adattulajdonos), aki jellemzően üzleti vezető, nem pedig IT szakember. Fontos elv: Az Accountable szerep nem delegálható!
Consulted (Konzultálandó): Azok a szakértők, akiknek a véleményét ki kell kérni a döntés vagy cselekvés előtt (pl. Adatvédelmi tisztviselő – DPO, Biztonsági szakértő – CISO, Domain szakértők).
Informed (Tájékoztatandó): Azok, akiket értesíteni kell a változásokról vagy az eredményekről (pl. Data Scientistek, akik az adatot használják, üzleti elemzők).

A RACI modell helyes alkalmazása megszünteti a „mutogatást” az IT és az üzleti oldal között. Egyértelművé teszi, hogy az adat minősége üzleti felelősség, míg az infrastruktúra biztosítása IT feladat.

Modern Architektúrák: Szemantikai réteg és adatmegfigyelhetőség

A hagyományos adattárházak és BI eszközök gyakran nem képesek kiszolgálni a modern AI igényeit. Új architekturális elemekre van szükség a komplexitás kezeléséhez.

A szemantikai réteg (semantic layer): Az AI közös nyelve

A Szemantikai Réteg (Semantic Layer) egy absztrakciós szint az adatok fizikai tárolása és az üzleti/AI felhasználás között. Célja, hogy egységesítse az üzleti fogalmakat és logikát, így biztosítva a konzisztenciát minden felhasználó számára.

A probléma, amit megold: Egy vállalatnál a „Bruttó Árbevétel” fogalmát a Pénzügy, a Marketing és az Értékesítés gyakran háromféleképpen számolja (pl. tartalmazza-e az ÁFÁ-t, a visszatérítéseket, a kedvezményeket?). Ha egy AI modellt a Marketing adataira tanítanak, egy másikat pedig a Pénzügy adataira, a két modell ellentmondó eredményeket fog adni.

A Szemantikai Réteg (amelyet olyan eszközök valósítanak meg, mint a dbt Semantic Layer, Cube, AtScale vagy Looker LookML) központosítja ezeket a definíciókat.

„Headless BI”: A metrikák definíciója nem a vizualizációs eszközben (pl. Tableau riportban) van elrejtve, hanem kódként (Code-based definition) van tárolva a szemantikai rétegben.
AI Integráció: A nagy nyelvi modellek (LLM) számára a szemantikai réteg kontextust biztosít. Amikor egy vezető megkérdezi a ChatGPT-t, hogy „Mennyi volt a tegnapi árbevétel?”, az LLM nem próbál SQL-t hallucinálni, hanem lekéri a hitelesített metrikát a szemantikai rétegből. Ez a „Grounding” (lehorgonyzás) egyik leghatékonyabb módja a hallucinációk ellen.

Data Observability vs. Data Monitoring: Tűzjelző vs. Tűzoltóparancsnok

Az AI rendszerek megbízhatóságához elengedhetetlen az adatok folyamatos figyelése. Itt fontos különbséget tenni a hagyományos Monitoring és a modern Observability (megfigyelhetőség) között.

A Monitoring jellemzően reaktív: „Jelezz, ha a CPU használat 90% fölé megy” vagy „Jelezz, ha az ETL job elbukott”. Ez az „ismert ismeretlenek” (known unknowns) kezelése.

Az Observability (pl. Monte Carlo, Bigeye, Evidently AI) ezzel szemben proaktív és nyomozó jellegű. A rendszer belső állapotát vizsgálja a kimenetek alapján, és képes detektálni az „ismeretlen ismeretleneket” (unknown unknowns) is.

Tulajdonság	Data Monitoring	Data Observability
Metafora	Tűzjelző (Riaszt, ha baj van).	Tűzoltóparancsnok (Megmondja, miért gyulladt ki, hol terjed, és hogyan oltsuk el).
Kérdés	„Működik a rendszer?”	„Miért romlott el a rendszer?” / „Miért torzult a modell?”
Fókusz	Infrastruktúra és folyamatok (Pipeline health).	Adat tartalom és kontextus (Data health & context).
Detektálás	Küszöbértékek alapján (Threshold-based).	Anomália-detektálás ML alapon (Automated anomaly detection).
AI Relevancia	Észreveszi, ha leáll az adatbetöltés.	Észreveszi a Data Drift-et (az adatok eloszlásának változását), ami a modell teljesítményromlását okozza anélkül, hogy technikai hiba lenne.

A Data Observability öt pillére:

Freshness (Frissesség): Mikor frissült utoljára az adat?
Distribution (Eloszlás): Változtak-e az értékek határai (min/max/átlag)? (Pl. hirtelen minden árbevétel negatív lett).
Volume (Mennyiség): Hiányzik-e a rekordok fele?
Schema (Séma): Változott-e a tábla szerkezete? (Pl. törlődött egy oszlop).
Lineage (Származtatás): Hol a hiba forrása?

Az adatszármaztatás (Data Lineage) és az adatgazdálkodás (Data Governance) bevezetése nem technikai luxus, hanem üzleti és jogi szükségszerűség. A Data Lineage lehetővé teszi a hibák gyors azonosítását, az EU AI Act és GDPR által előírt átláthatóság biztosítását, valamint a forrásrendszerek változásainak proaktív kezelését. A RACI modell pedig megszünteti az „árva adat” jelenségét, egyértelművé téve, hogy az adatminőség üzleti felelősség, nem csupán IT feladat.

Összegzés

A modern architektúrák – a szemantikai réteg és az adatmegfigyelhetőség (Data Observability) – tovább erősítik ezt a alapot. A szemantikai réteg biztosítja, hogy minden osztály ugyanazt értse egy üzleti metrika alatt, megszüntetve az ellentmondó definíciók káoszát. Az adatmegfigyelhetőség pedig túllép a hagyományos monitorozáson: nem csak jelzi a hibát, hanem diagnosztizálja az okát is, képes észlelni a Data Drift-et, és proaktívan védi az AI-modelleket a teljesítményromlástól.

Ezek az eszközök és módszertanok azonban csak akkor működnek, ha egy szervezet komolyan veszi az adatminőséget – és ez sok esetben fájdalmasan hiányzik.

A következő részben valós példákon keresztül mutatjuk be, mi történik, amikor ez a komoly hozzáállás hiányzik. Az Air Canada chatbotjától a United Healthcare torzított algoritmusáig, a Google Bard 100 milliárd dolláros bakijától a Taco Bell rendelési katasztrófáig – a rossz adatminőség konkrét, mérhető károkat okoz. Ezután áttekintjük a magyarországi helyzetet: hogyan küzdenek a hazai KKV-k az adatérettség hiányával, milyen stratégiákat alkalmaznak a vezető nagyvállalatok (OTP Bank, Magyar Telekom), és hogyan változtatja meg az EU AI Act a játékszabályokat. Végül összegezzük a tanulságokat: hogyan lehet elkerülni, hogy vállalata a Gartner következő bukási statisztikájában szerepeljen.

Bővebb információkért keresse kollégánkat:

Bagi Tamás üzletfejlesztési vezető
nextentservices@nextent.hu