Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: Az algoritmusok kora és az adatminőség válsága – 2. rész
január 21, 2026

Olvasási idő: 5 perc

Az előző részben bemutattuk, hogy az AI-projektek kudarcának hátterében nem a technológia, hanem az adatstratégia hiánya áll. Láthattuk, hogy a Gartner, a RAND Corporation és az MIT kutatásai egyaránt 70-95% közötti bukási arányról számolnak be, és Andrew Ng Data-Centric AI paradigmája egyértelműen az adatok minőségére helyezi a hangsúlyt a modellek finomhangolása helyett.

De mit is jelent pontosan az „adatminőség”? Hogyan lehet objektíven mérni, és milyen konkrét dimenziók mentén értékelhető? Ebben a második részben azt vizsgáljuk meg, hogy az AI-rendszerek sikeres működéséhez milyen alapokra van szükség, és hogyan lehet strukturáltan megközelíteni az adatminőség biztosítását. Bemutatjuk Monica Rogati AI Szükséglethierarchiáját, amely a Maslow-piramis mintájára szemlélteti, miért buknak el azok a projektek, amelyek megpróbálják átugrani az alapvető szinteket. Ezt követően részletesen elemezzük a DAMA keretrendszer által meghatározott hat adatminőségi dimenziót, amelyek konkrét, mérhető szempontokat adnak az adatok értékeléséhez.

Az „adatminőség” kifejezés gyakran homályos a vezetők számára. A Data Management Association (DAMA) által kidolgozott DAMA-DMBOK (Data Management Body of Knowledge) azonban egzakt keretrendszert biztosít az adatminőség mérésére és menedzselésére.

 

Az AI Szükséglethierarchiája: Maslow piramisa az adatok világában

Annak megértéséhez, hogy miért bukik el annyi projekt az adatok miatt, érdemes megvizsgálni Monica Rogati, adattudós és tanácsadó által alkotott „AI Szükséglethierarchiát” (AI Hierarchy of Needs).19 Ez a modell a Maslow-piramis mintájára épül fel, és azt szemlélteti, hogy a fejlett AI képességek csak szilárd alapokra építkezhetnek.

 

A piramis szintjeinek részletes elemzése

A hierarchia lentről felfelé haladva a következő rétegekből áll:

  1. Gyűjtés (Collection): Ez a piramis alapja. Ide tartozik a szenzorok, naplófájlok (logging), felhasználói interakciók és külső adatforrások rögzítése. Ha nincs adat, nincs mire építkezni. A Thomas Freund által javasolt 2.0-ás verzió itt hangsúlyozza az etikus adatgyűjtés és a diverzitás fontosságát már a kezdetektől.20
  2. Mozgatás és Tárolás (Move/Store): Az adatoknak megbízhatóan el kell jutniuk a forrástól a tárolóig. Ez a szint foglalja magában az infrastruktúrát: ETL/ELT folyamatok, adatvezetékek (pipelines), strukturálatlan adattavak (Data Lakes) és strukturált adattárházak.
  3. Feldolgozás és Tisztítás (Explore/Transform): Ez a „Data Engineering” klasszikus területe. Itt történik a zajszűrés, a hiányzó értékek kezelése, az anomáliák detektálása és az adatok normalizálása. A „Garbage In, Garbage Out” szűrésének ez az első védvonala.
  4. Aggregálás és Címkézés (Aggregate/Label): Az analitika és a felügyelt tanulás (supervised learning) alapja. Ide tartozik a KPI-k meghatározása, a dashboardok készítése (BI), és ami az AI szempontjából kritikus: a tanítóadatok minőségi címkézése (labeling). A modern rendszerekben ezt a szintet egyre inkább automatizálják („Aggregate, Label, Automate”).20
  5. Tanulás és Optimalizálás (Learn/Optimize): Csak ezen a szinten jelenik meg a gépi tanulás (Machine Learning). A/B tesztelés, kísérletezés, egyszerűbb modellek (pl. logisztikus regresszió) alkalmazása.
  6. AI / Deep Learning: A piramis csúcsa. Itt történik a komplex kognitív feladatok automatizálása, a mélytanulás (Deep Learning) és a mesterséges intelligencia alkalmazása. Ez a szint az „önmegvalósítás” megfelelője.

A „szintek átugrásának” veszélye

A leggyakoribb hiba, amit a vállalatok elkövetnek, hogy megpróbálják átugrani az alsó szinteket, és azonnal a csúcsra törnek. Rogati hasonlatával élve: „Igen, az AI (önmegvalósítás) nagyszerű, de először élelemre és menedékre (adatgyűjtés, infrastruktúra) van szükség”.19

Példák a szintek átugrására és annak következményeire:

  • Egy cég prediktív karbantartási modellt akar építeni a gépeire (AI szint), de a szenzorok adatai nincsenek központosítva, és hiányoznak a meghibásodásokról szóló történeti adatok (Gyűjtés/Tárolás szint hiánya).
  • Egy bank csalásmegelőző rendszert fejleszt, de az ügyféladatok tele vannak duplikációkkal és hibás címkékkel (Tisztítás/Címkézés szint hiánya).

A Thomas Freund-féle „Evolving AI Hierarchy of Needs 2.0” továbbfejleszti a modellt, hangsúlyozva, hogy a modern AI rendszerekben a szintek nem statikusak, hanem dinamikus visszacsatolásban vannak egymással. A modell kimenete (pl. egy predikció) visszakerül az adatgyűjtés szintjére, így a hibák ciklikusan felerősödhetnek, ha a folyamat nem felügyelt.

 

Adatminőség-menedzsment: A DAMA keretrendszer és a mérés dimenziói

Az „adatminőség” kifejezés gyakran homályos a vezetők számára. A Data Management Association (DAMA) által kidolgozott DAMA-DMBOK (Data Management Body of Knowledge) azonban egzakt keretrendszert biztosít az adatminőség mérésére és menedzselésére.

Az adatminőség hat dimenziója

A DMBOK és a kapcsolódó iparági szabványok (pl. ISO 8000) hat alapvető dimenziót (néhány modellben többet) határoznak meg, amelyek mentén az adatminőség számszerűsíthető. Ezek megértése és mérése kritikus minden AI projekt előtt.26

Dimenzió Üzleti relevancia Példa az AI kudarcra
Pontosság (Accuracy) Tükrözi-e az adat a valóságot? A rögzített érték megegyezik-e a valós eseménnyel? Ha az AI-t orvosi diagnózisra tanítjuk, de a tanítóadatokban a betegségek kódjai hibásak (pl. elírás történt), a modell tévesen tanulja meg a tünet-betegség kapcsolatot.
Teljesség (Completeness) Minden szükséges adat rendelkezésre áll-e? Hiányoznak-e mezők vagy rekordok? Egy hitelbírálati modell nem tud pontos döntést hozni, ha az ügyfelek jövedelmi adatai az esetek 40%-ában „NULL” vagy üres értékek. A hiányzó adatok (Missingness) kezelése az egyik legnehezebb statisztikai feladat.
Konzisztencia (Consistency) Ellentmondásmentesek-e az adatok a rendszerek között és önmagukban? Ha a CRM rendszerben az ügyfél státusza „Aktív”, de a számlázó rendszerben „Lezárt”, az AI nem fogja tudni értelmezni az ügyfél valódi helyzetét, és ellentmondó predikciókat adhat.
Időszerűség (Timeliness) Elérhető-e az adat akkor, amikor szükség van rá? Friss-e az információ? A csalásmegelőző (fraud detection) AI rendszereknek ezredmásodperces frissességű adatokra van szükségük. A tegnapi tranzakciós adatokkal ma már nem lehet megállítani egy folyamatban lévő lopást.
Érvényesség (Validity) Megfelel-e az adat a formátumi és üzleti szabályoknak (szintaxis, értékkészlet)? Ha egy dátummezőben szöveges formátumok keverednek (pl. „2024-01-01” vs. „Jan 1, 24”), a modell idősoros elemzései (time-series forecasting) összeomlanak vagy hibás trendeket mutatnak.
Egyediség (Uniqueness) Vannak-e nem kívánt duplikációk az adatbázisban?

Ha ugyanaz az ügyfél ötször szerepel az adatbázisban öt különböző írásmóddal, az AI torzított képet kap az ügyfélbázis méretéről, és tévesen öt különálló személynek tekinti őket (pl. marketing költés optimalizálásnál).

 

A „1-10-100” szabály gazdasági hatása

Az adatminőség elhanyagolásának pénzügyi vonzatait a George Labovitz és Yu Sang Chang által megfogalmazott „1-10-100” szabály szemlélteti a legjobban, amelyet a Collibra és a Goverment Data Quality Hub is idéz.27

  • 1 Egység (Megelőzés): Ennyibe kerül az adatminőségi hiba megelőzése a keletkezés pillanatában (pl. beviteli maszkok, validáció, oktatás). Ez a legköltséghatékonyabb szint.
  • 10 Egység (Korrekció): Ennyibe kerül a hiba javítása, ha már bekerült a rendszerbe (pl. utólagos adattisztítás, deduplikáció, Data Stewardok munkája). Ez már tízszeres költség.
  • 100 Egység (Kudarc/Bukás): Ennyibe (vagy még többe) kerül a hiba következményeinek kezelése, ha az adatot felhasználják döntéshozatalra vagy AI tanításra. Ide tartozik a hibás üzleti döntés, az elvesztett ügyfél, a reputációs kár, a jogi bírság (GDPR/AI Act) és az AI hallucinációk okozta káosz.

Az AI projektek esetében ez a „100-as szint” gyakran milliós vagy milliárdos veszteségeket jelenthet (lásd a későbbi esettanulmányokat).

összegzés

Monica Rogati AI Szükséglethierarchiája és a DAMA keretrendszer hat dimenziója egyértelművé teszi, hogy az adatminőség nem egy homályos, megfoghatatlan koncepció, hanem pontosan mérhető és strukturáltan megközelíthető terület. A hierarchia szintjei rávilágítanak arra a veszélyre, amikor a vállalatok megpróbálják átugrani az alapvető adatgyűjtési, tárolási és tisztítási szinteket, hogy azonnal komplex AI-megoldásokat építsenek. Az adatminőség hat dimenziója – a pontosságtól az egyediségig – konkrét mérési pontokat biztosít, amelyek mentén objektíven értékelhető, hogy egy adathalmaz alkalmas-e gépi tanulásra.

A „1-10-100” szabály gazdasági vonzatai pedig egyértelműen mutatják: a megelőzés mindig költséghatékonyabb, mint az utólagos javítás vagy a kudarcból való felépülés. Aki az adatminőséget a kezdetektől prioritásként kezeli, az hosszú távon versenyelőnyre tesz szert.

A cikksorozat harmadik, részében konkrét eszközöket és módszertanokat mutatunk be az adatminőség biztosítására. Megvizsgáljuk az adatszármaztatás (Data Lineage) szerepét, az adatgazdálkodási (Data Governance) keretrendszereket, valamint az adatmegfigyelhetőség (Data Observability) modern eszközeit. Emellett bemutatjuk a magyarországi helyzetet, a hazai KKV-k és nagyvállalatok AI-stratégiáit, valamint az EU AI Act jogi környezetének hatásait. Végül konkrét esettanulmányokon keresztül szemléltetjük, hogy a rossz adatminőség milyen valós, mérhető károkat okozhat.

 

Bővebb információkért keresse kollégánkat:

linkedin-narancs
Bagi Tamás üzletfejlesztési vezető
nextentservices@nextent.hu