Modely umělé inteligence si při svém tréninku často vytvářejí falešné korelace – tedy vazbu na typyinformací, které jsou irelevantní (nebo alespoň nikoliv klíčové) a potenciálně zavádějící. Vědci nyní zjistili, že tyto naučené falešné korelace lze vysledovat už na velmi malé podmnožině tréninkových dat, a přišli s technikou pro řešení problému. Jak uvedla hlavní autorka práce Jung-Eun Kim z North Carolina State University, tato technika je přitom použitelná bez toho, aby byly známy konkrétní falešné korelace, které si AI osvojila. Stačí, když si uživatelé AI (ve fázi testů nebo i ostrého provozu) všimnou, že model jim servíruje neuspokojivé výsledky.
Příklad: model AI byl natrénován k identifikaci fotografií psů. Tréninková datová sada zahrnovala fotografie psů, u kterých je umělé inteligenci řečeno, že na fotografii je pes.
Během tréninku začne umělá inteligence identifikovat specifické znaky, které bude používat k identifikaci psů. Pokud však mnoho psů na fotografiích nosí obojky a protože obojky jsou obecně méně složitými znaky psa než uši nebo srst, může pak AI začít pokládat obojky za jednoduchý způsob identifikace psů. Takto mohou vzniknout falešné korelace (zde jde o tzv. simplicity bias). Následně začne AI považovat za psy třeba kočky nebo jiná zvířata s obojkem.
Běžné techniky řešení problémů způsobených falešnými korelacemi se spoléhají na to, že odborníci z praxe jsou schopni identifikovat falešné rysy, které problém způsobují. Ten pak mohou řešit úpravou souborů dat používaných k trénování modelu umělé inteligence. V souboru dat lze například zvýšit relativní váhu fotografií, na nichž jsou psi bez obojku.
Jenže identifikovat tímto způsobem (pomocí lidských expertů v oboru) původ vzniku falešných korelací není vždy možné nebo je to náročné. Nová technika se proto snaží o odstranění falešných korelací i bez toho, aby se je podařilo konkrétně odhalit. Postup spočívá v odstranění malé části dat použitých k trénování modelu umělé inteligence.
„Ve vzorcích dat zahrnutých do tréninkových datových sad mohou být značné rozdíly,“ říká J. Kim. „Některé vzorky mohou být velmi jednoduché, zatímco jiné velmi složité. A my můžeme měřit, jak ‚složitý‘ je každý vzorek, na základě toho, jak se model choval během tréninku. … Naše hypotéza byla, že nejsložitější vzorky v datové sadě mohou být zašuměné a nejednoznačné a s největší pravděpodobností nutí síť spoléhat se na irelevantní informace, které poškozují přesnost modelu … Tím, že eliminujete malou část tréninkových dat, která je obtížně srozumitelná, eliminujete také obtížné vzorky dat obsahující s největší pravděpodobností zdroj falešných korelací.“
Výzkumníci rovněž prokázali účinnost této metody ve srovnání s předběžných odhalováním konkrétních falešných korelací.

Varun Mulchandani et al, Severing Spurious Correlations with Data Pruning, arXiv (2025). DOI: 10.48550/arxiv.2503.18258
Zdroj: North Carolina State University / TechXplore.com

Rubriky: Science Technologie

Výzkumníci navrhují, jak modely AI zbavit falešných korelací. Aniž bychom museli vědět, o jaké konkrétně jde

Související příspěvky

Brněnská Spacemanic spolupracuje na družici, která otestuje kyberbezpečnost

DeepSeek představil zkušební verzi nového modelu umělé inteligence

Partnerství OpenAI s Microsoftem nebude exkluzivní, ChatGPT může na jiné cloudy

Google čelí tlaku EU, aby otevřel Android pro konkurenty Gemini

Napsat komentář

Zprávičky

Apple navýšil tržby o 17 % na 111,2 miliardy dolarů, překonal očekávání

Elektronická zdravotní dokumentace bude dál uložená pouze u lékaře

Microsoft zvýšil zisk o 23 %, tržby překonaly očekávání analytiků

Meta zvýšila zisk o 61 % na 27 mld. dolarů, zisk i tržby překonaly očekávání

EK vyzvala státy EU k rychlému zavedení aplikace pro ověřování věku

Prezident podepsal zákonné zakotvení principů správy dat veřejného sektoru

Meta potvrdila, že propustí 10 % zaměstnanců, asi 8 000 lidí

Zisk Alphabetu ve čtvrtletí stoupl o 81 %, dařilo se cloudové divizi

Tiskové zprávy

QNAP představuje QAI-h1290FX: průlomový Edge AI úložný server pro privátní LLM a generativní AI pracovní úlohy

Umělá inteligence od Konica Minolta dohlíží na bezpečnost i v mrazu, dešti a prachu

Virtuální výcvik pyrotechniků i holografické velení: FEL ČVUT vyvíjí technologie, které mění přípravu i řízení operací

FEL ČVUT ukázala technologie pro moderní obranu: od autonomních robotů přes AI až po rozšířenou realitu a zabezpečení sítí

Cloud Computing Conference 2026 ukáže, co dnes rozhoduje o úspěchu digitální transformace

Autonomní síť HPE umožňuje zlepšit zážitky fanoušků na madridském stadionu Riyadh Air Metropolitano

Zpráva dne

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Kalendář

Cloud Computing Conference

TechEd 2026

Umelá inteligencia v IT infraštruktúre

Odebírat newsletter

Slovník

.A01

Binární vyhledávací strom

Financial analyst

Komentujeme

Platformové inženýrství: popularita termínu může vést ke zmatení

Kategorie