• Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události
Žádné výsledky
Zobrazit všechny výsledky
ITBiz.cz
ITBiz.cz
Žádné výsledky
Zobrazit všechny výsledky

Snaha odnaučit AI lhát může vést k lepšímu skrývání lží, ukázal výzkum OpenAI

ČTK
23. 9. 2025
| Zprávičky
Nejčastější hrozby dneška. Stačí antivirus?

Zdroj: Pixabay

Americká společnost OpenAI zjistila, že její snaha vycvičit umělou inteligenci (AI), aby nelhala uživatelům, může mít opačný efekt. Podle výsledků výzkumu, které společnost zveřejnila, místo odstranění takzvaného pletichaření (anglicky scheming), se modely spíše učí, jak lépe klamat a zakrývat u toho stopy. Pletichaření označuje situaci, kdy AI zdánlivě plní zadaný úkol, ale zároveň sleduje vlastní skryté cíle.

„Hlavním rizikem při pokusu odnaučit pletichaření je, že model se naučí pletichařit pečlivěji a skrytěji,“ uvedla společnost, která stojí za populárními chatboty ChatGPT. Podle firmy zatím pletichaření nezpůsobuje významné škody, ale riziko poroste s tím, jak budou mít modely větší vliv na lidské záležitosti. „Máme před sebou ještě hodně práce,“ konstatuje OpenAI.

Společnost ve spolupráci s firmou Apollo Research zaměřující se na analýzu rizik vyvinula techniku takzvaného uváženého sladění (deliberative alignment). Ta má modely AI učit, aby se nedopouštěly skrytého jednání ani strategického klamání.

Testy sice ukázaly zhruba třicetinásobné snížení skrytých akcí, ale podle firmy přetrvávala „některá vážná selhání“. Modely si totiž často uvědomovaly, že jsou testovány, a měnily chování tak, aby hodnocením prošly.

Výzkumníci zaznamenali případy, kdy model GPT-5 i menší systémy o3 a o4-mini místo dodržování instrukcí v odůvodnění postupu výrazně chybně citovaly tréninková pravidla nebo si vymýšlely pravidla nová, kterými ospravedlňovaly své jednání. Některé dokonce používaly vlastní slovník a hovořily o lidských hodnotitelích jako o pozorovatelích. V interních záznamech modely spekulovaly, že zadaný úkol je past, která určí, zda budou nasazeny, či nikoliv.

Problém není nový. Už u staršího modelu o1 se ukázalo, že se v pěti procentech případů pokusil obejít protokol, jehož výsledkem mělo být jeho vypnutí. „Když měl o1 důvod se domnívat, že bude vypnut, když bude jednat podle svého cíle, a že jeho akce jsou monitorovány, pokusil se ‚mechanismus dohledu‘ deaktivovat,“ uvedla tehdy OpenAI. V březnu pak výzkumníci zaznamenali, že trestání modelů za lhaní a podvádění vedlo k tomu, že se staly dovednějšími ve skrývání podvodných praktik.

Rubriky: TechnologieVývoj a HTML

Související příspěvky

Umělá inteligence: Nástroje vs. platforma, věda vs. kreativita
Zprávičky

Papež v encyklice o AI varoval před dezinformacemi a dopady umělé inteligence

25. 5. 2026
Zprávičky

ECB svolává banky k jednání o rizicích odhalených umělou inteligencí

24. 5. 2026
Infrastruktura jako kód: Zjednodušte své implementace v cloudu automatizací
Články

Everpure: správa dat je poslední linie obrany

20. 5. 2026
Drony vytvářejí digitální dvojče kostela v Mostě
Zprávičky

Drony vytvářejí digitální dvojče kostela v Mostě

19. 5. 2026

Zprávičky

Vláda vybrala 55 strategických projektů v rámci digitalizace agend (aktualizováno)

ČTK
25. 5. 2026

Vláda vybrala 55 strategických projektů v digitalizaci, ke každému určila odpovědného manažera. Vychází přitom

InPost spouští nabídku na převzetí za 7,8 mld. eur, odkup potrvá do července

ČTK
25. 5. 2026

Nabídka na převzetí polské společnosti InPost za 7,8 miliardy eur (189,4 miliardy Kč) potrvá

Google, Meta a TikTok čelí v EU stížnosti kvůli podvodným inzerátům

ČTK
25. 5. 2026

Internetové společnosti Google, Meta Platforms a TikTok čelí v Evropské unii stížnosti ze strany

Umělá inteligence: Nástroje vs. platforma, věda vs. kreativita

Papež v encyklice o AI varoval před dezinformacemi a dopady umělé inteligence

ČTK
25. 5. 2026

Papež Lev XIV. ve své první encyklice Magnifica Humanitas (Skvělé lidství), která se věnuje

ECB svolává banky k jednání o rizicích odhalených umělou inteligencí

ČTK
24. 5. 2026

Evropská centrální banka (ECB) vyzve finanční instituce, aby urychlily práce na zabezpečení svých počítačových

Soud se bude znovu zabývat pokutou 125 milionů korun pro MPSV

ČTK
23. 5. 2026

Pražský městský soud se bude muset znovu zabývat žalobou, kterou se ministerstvo práce a

Čtvrtletní zisk výrobce počítačů Lenovo se více než zdvojnásobil, tržby rekordní

ČTK
22. 5. 2026

Očištěný čistý zisk čínského výrobce počítačů Lenovo se ve fiskálním čtvrtém čtvrtletí více než

SpaceX vynesla další sérii 60 družic sítě Starlink

Muskova SpaceX v prvním čtvrtletí vykázala ztrátu 4,3 miliardy dolarů

ČTK
21. 5. 2026

Americká vesmírná společnost SpaceX miliardáře Elona Muska v prvním čtvrtletí letošního roku hospodařila s

Tiskové zprávy

eDoklady mají milion uživatelů

Synology uvádí PAS7700, active-active NVMe platformu pro kritická podniková prostředí

Průměrná měsíční spotřeba dat na jednu datovou SIM kartu vzrostla na 15,1 GB

HP představuje nové velkoformátové tiskárny pro malé a střední firmy

ViewSonic podpořil Halu roku 2026

Q1 výsledky společnosti T-Mobile

Zpráva dne

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Redakce
5. 12. 2025

Na Mikuláše ani sladkosti, už vůbec ne uhlí ani brambory, ale radši nový software,...

Kalendář

Zář 23
Celý den

Cyber Attacks

Zobrazit kalendář

Odebírat newsletter

Zásady ochrany osobních údajů.

Zkontrolujte svoji doručenou poštu a potvrďte odběr.

Slovník

Wget

SOV

YoY

Komentujeme

itbiz kamil pittner

Znamená pomalost přemýšlivost? A co u AI?

Kamil Pittner
8. 5. 2026

Dodavatelé modelů AI soupeří o to, aby jejich systémy poskytovaly nejen lepší odpovědi, ale také pracovaly...

Kategorie

  • Články
  • Komentujeme
  • Slovník
  • Tiskové zprávy
  • Zprávičky

Portál ITbiz.cz přináší informace z IT a byznysu již od roku 2006. Provozuje jej internetové vydavatelství Nitemedia.  Mezi další naše projekty patří například ABClinuxu.cz a Sciencemag.cz. Na stránce Redakce naleznete informace o redakci a možnostech inzerce.

Rubriky

Akce a události Byznys Cloud Ekomerce Hardware Internet Operační systémy Podnikový software Právo Science Security Technologie Telekomunikace veře Veřejná správa Vývoj a HTML Zpráva dne České IT
Žádné výsledky
Zobrazit všechny výsledky
  • Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události

© 2019 Vydává Nitemedia s.r.o. Hosting zajišťuje Greenhousing.cz.