Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: Az algoritmusok kora és az adatminőség válsága - 4. rész

Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat: Az algoritmusok kora és az adatminőség válsága – 4. rész

február 4, 2026

Olvasási idő: 5 perc

Cikksorozatunk első három részében bemutattuk az AI-projektek kudarcának statisztikai hátterét, az adatminőség objektív mérési dimenzióit, valamint a gyakorlati eszköztárat a Data Lineage-től a modern architektúrákig. Láthattuk, hogy Andrew Ng Data-Centric AI paradigmája és a DAMA keretrendszer konkrét megoldásokat kínál, a szemantikai réteg és az adatmegfigyelhetőség pedig új szintre emeli az adatmenedzsmentet.

De mi történik akkor, amikor egy szervezet figyelmen kívül hagyja ezeket az alapelveket? Milyen valós, mérhető következményei vannak a rossz adatminőségnek? És hogyan néz ki mindez a hazai piacon, ahol a magyar vállalatok az EU AI Act szigorú követelményeivel szembesülnek?

Ebben a záró, negyedik részben a „Garbage In, Garbage Out” elv legdrámaibb megnyilvánulásait mutatjuk be valós esettanulmányokon keresztül. Az Air Canada jogi felelősségétől a Google 100 milliárd dolláros piaci értékvesztéséig, a United Healthcare etikai botránytól a Taco Bell operatív káoszáig – ezek a példák szemléletesen bizonyítják, hogy az adatminőség nem elvont technikai kérdés, hanem közvetlen üzleti, jogi és reputációs kockázat.

Ezt követően a magyarországi helyzetet elemezzük: hogyan küzdenek a hazai KKV-k az adatvagyon kihasználatlanságával, milyen stratégiákat követnek a vezető nagyvállalatok (OTP Bank, Magyar Telekom), és hogyan alakítja át az EU AI Act a játékszabályokat. Végül összegezzük a tanulságokat: mi a kiút az útvesztőből, és hogyan lehet biztosítani, hogy vállalata ne váljon a Gartner következő bukási statisztikájának részévé.

A tét óriási: aki most rendbe teszi az adatait, az holnap uralhatja az AI-piacot. Aki nem, az csak egy újabb statisztika marad.

A rossz adat ára: hallucinációk, torzítások és valós bukások

A „Garbage In, Garbage Out” elv a Generatív AI korában új, minden eddiginél veszélyesebb formát ölt: a hallucinációt.A hallucináció az a jelenség, amikor a generatív AI (pl. ChatGPT, Claude) magabiztosan állít valótlanságot, vagy nem létező tényeket, forrásokat generál.31

Ennek okai az adatokban keresendők:

Hiányos tanítóadatok: Ha a modell nem rendelkezik információval egy adott témáról, a statisztikai valószínűségek alapján „kitölti a hézagokat”.
Ellentmondó források: Ha az interneten (a tanítóhalmazban) ellentmondó információk keringenek, a modell nem tudja eldönteni az igazságot, és keveri a tényeket.
Torzítás (Bias): Ha a tanítóadatok egyoldalúak (pl. csak nyugati orvosi adatokat tartalmaznak), a modell „hallucinálni” fog, amikor más demográfiai csoportokra kell alkalmazni a tudását.

A hallucinációk elleni védekezés leghatékonyabb módja a RAG (Retrieval-Augmented Generation) architektúra, amely a modellt megbízható, vállalati tudásbázishoz (vektoradatbázis) kapcsolja. Azonban, ha ez a tudásbázis (az adat) rossz minőségű, a RAG sem segít – sőt, felerősíti a hibát („Garbage In, Garbage RAG”).

Esettanulmányok: Amikor a valóság arcul csapja az AI-t

A következő valós példák demonstrálják, mi történik, ha az adatminőség és az irányítás (governance) hiányzik:

Air Canada Chatbot (2024): A légitársaság chatbotja téves információt adott egy gyászoló utasnak a visszatérítési szabályokról („bereavement fare”), kitalálva egy nem létező irányelvet, amely ellentmondott a cég weboldalán lévő hivatalos szabályzatnak. Amikor az utas kártérítést követelt, a légitársaság azzal védekezett, hogy a chatbot „különálló jogi entitás”, és felelős a saját tetteiért. A bíróság elutasította ezt az érvelést, és kártérítésre kötelezte a céget. Tanulság: Az AI kimeneteiért a vállalat felel, az adatvonal (lineage) és a pontosság (accuracy) biztosítása jogi kötelesség.
United Healthcare (2023): Egy csoportos kereset szerint a biztosító AI algoritmusa (nH Predict) szisztematikusan, 90%-os hibaarány mellett utasította el az idős betegek rehabilitációs igényeit, felülbírálva az orvosok szakmai véleményét. A vád szerint a modellt szándékosan torzított adatokon tanították, hogy minimalizálják a kifizetéseket. Tanulság: A torzított adat (bias) nemcsak etikai, hanem súlyos jogi és reputációs kockázat.
Google Bard (2023): A Google AI chatbotjának első nyilvános demójában a Bard tévesen állította, hogy a James Webb űrteleszkóp készítette az első képet egy exobolygóról (a valóságban a VLT készítette 2004-ben). A hiba a Google anyavállalatának, az Alphabetnek a piaci értékéből 100 milliárd dollárt törölt el egyetlen nap alatt. Tanulság: A tényellenőrzés (validity) és a megbízható adatforrások hiánya azonnali pénzügyi katasztrófát okozhat.
Taco Bell & McDonald’s (2024): Az AI alapú hangfelismerő rendelésfelvevők sorozatos hibákat vétettek (pl. 18.000 pohár vizet rendeltek, vagy nem értették a kiejtést), ami káoszhoz vezetett az éttermekben. Tanulság: A hangalapú adatok (audio data) minősége és a zajszűrés (exploration/cleaning réteg) kritikus a valós idejű alkalmazásoknál.

Magyarországi helyzetkép és stratégiák

A globális trendek mellett fontos megvizsgálni a magyarországi piac specifikumait, ahol a KKV-k lemaradása és a nagyvállalatok (multinacionális cégek) fejlettsége közötti szakadék (digitális dualizmus) határozza meg az AI adaptációt.

A hazai KKV-k: Az adatvagyon kihasználatlansága

A DIMOP Plusz (Digitális Megújulás Operatív Program) dokumentációja és helyzetelemzése szerint a magyar kis- és középvállalkozások (KKV-k) technológiai érettsége, különösen az adathasználat és az MI-alkalmazás terén, jelentősen elmarad az uniós átlagtól.65

A legalább 10 főt foglalkoztató vállalkozásoknak csupán 3,7%-a használ MI-technológiát, szemben a 8%-os EU-átlaggal.
A DESI-index (Digitális Gazdaság és Társadalom Index) alapján a magyar vállalatok bizalma a digitális technológiákban alacsony.

A fő akadályok nem a hardver hiánya, hanem a „soft” tényezők:

Szakértelem hiánya: Nincs elég adattudós és data engineer.
Strukturálatlan adatok: A cégek adatai papíron, Excel táblákban vagy elszigetelt (siloed) rendszerekben vannak, ami lehetetlenné teszi az AI tanítását.
Forráshiány: A KKV-k nem tudják megfinanszírozni a drága adatmenedzsment szoftvereket.

A kormányzati stratégia (Magyar Mesterséges Intelligencia Stratégia) célja ezen akadályok lebontása:

Központi adattavak (Data Lakes): Az egészségügyi és agráriumi adatok központosítása és anonimizált megosztása a fejlesztőkkel.66
Minősített szállítói katalógus: Hogy a KKV-k megbízható partnereket találjanak az AI bevezetéshez.
Tudásbázis és oktatás: A digitális írástudás (Data Literacy) növelése.

Nagyvállalati stratégiák: Adatvezérelt működés a gyakorlatban

A hazai nagyvállalatok, amelyek gyakran nemzetközi csoportok részei vagy regionális multik, már felismerték az adatminőség stratégiai jelentőségét.

OTP Bank: Magyarország és a régió vezető bankcsoportjaként az OTP Bank stratégiájában központi szerepet kap az adatvagyon-gazdálkodás. A bank felismerte, hogy a perszonalizált pénzügyi szolgáltatások, a hitelbírálat automatizálása és a csalásmegelőzés csak integrált és tiszta adatokkal valósítható meg. Az OTP „adatvezérelt” (data-driven) megközelítése nemcsak technológiai, hanem kulturális váltást is jelent: a „fair ügyfélkapcsolatok” alapja, hogy a bank pontosan ismeri ügyfelei élethelyzetét – ehhez pedig pontos adatok kellenek.
Magyar Telekom: A telekommunikációs óriás stratégiája a „digitális szolgáltatóvá” válás. Jelentéseikben és kommunikációjukban hangsúlyozzák a gigabites hálózatok fejlesztését, ami az adatgyűjtés (Collection réteg) fizikai alapja. Rékasi Tibor vezérigazgató kiemelte, hogy a növekedést az adat és a konnektivitás iránti kereslet hajtja. A Telekom belső működésében is az AI és a Big Data alkalmazására törekszik (pl. hálózatoptimalizálás, ügyfélélmény javítás), amihez elengedhetetlen a belső adatfolyamatok (lineage, quality) rendbetétele.

Jogi környezet: Az AI Act és a GVH

Az Európai Unió Mesterséges Intelligencia Rendeletének (EU AI Act) hatálybalépése 73 új korszakot nyit. A rendelet szigorú követelményeket ír elő a „magas kockázatú” AI rendszerek (pl. biometria, kritikus infrastruktúra, munkaerő-felvétel) számára.

Adatirányítás (Data Governance): A fejlesztőknek dokumentálniuk kell a tanítóadatok eredetét, minőségét és a torzítások elleni intézkedéseket.
Felügyelet: Magyarországon egy új, a nemzetgazdasági miniszter által felügyelt szervezet és a Magyar Mesterséges Intelligencia Tanács (melyben részt vesz a GVH, NAIH, NMHH) fogja ellenőrizni a megfelelést.

Ez azt jelenti, hogy az adatminőség biztosítása többé nem „nice-to-have” opció, hanem jogi kötelezettség, amelynek megszegése súlyos bírságokkal járhat. A Gazdasági Versenyhivatal (GVH) piaci elemzései is arra utalnak, hogy az adatvagyon feletti kontroll versenyjogi kérdés is.

Konklúzió: A kiút az útvesztőből

A „Mindenki AI-t akar, de senki sem akarja rendbe tenni az adatokat” paradoxon feloldása a következő évtized legfontosabb üzleti és technológiai kihívása. A kutatási jelentés rávilágított, hogy az AI-projektek magas bukási aránya nem végzetszerű, hanem a helytelen prioritások következménye.

A szervezeteknek el kell fogadniuk, hogy az AI nem varázslat, hanem matematika, amelynek üzemanyaga az adat. Ha az üzemanyag szennyezett, a motor dadogni fog, vagy leáll. A megoldás a „Data-Centric AI” szemléletmód elsajátítása, a DAMA szerinti adatminőség-menedzsment bevezetése, és a modern architektúrák (Szemantikai Réteg, Data Observability, Data Mesh) alkalmazása.

Ahogy Yann LeCun és Andrew Ng is figyelmeztet: a jövő intelligens rendszerei nem a még nagyobb modellekről szólnak majd, hanem azokról a rendszerekről, amelyek képesek a valóságot pontosan, torzításmentesen és etikusan leképezni az adatokon keresztül. A magyar vállalatok számára ez a felismerés a versenyképesség záloga: aki most rendbe teszi az adatait, az holnap uralni fogja az AI piacot. Aki nem, az csak egy újabb statisztika lesz a Gartner bukási jelentésében.

Bővebb információkért keresse kollégánkat:

Bagi Tamás üzletfejlesztési vezető
nextentservices@nextent.hu