Výzkumný tým kyberbezpečnostní společnosti Check Point se zaměřil na bezpečnostní aspekty AI technologií. S rostoucím výkonem a dostupností systémů jsou přísná opatření stále důležitější. Společnost OpenAI věnuje mimořádné úsilí do vylepšení bezpečnostních opatření, aby zabránila zneužití svých systémů. Mechanismy by například měly bránit poskytování informací o nezákonných činnostech, jako je výroba bomb nebo drog.

Vzhledem k povaze těchto systémů je ale zajištění bezpečnosti a kontroly nad nimi novou výzvou.
„AI technologie obsahují fázi komplexního učení, kdy model vstřebává obrovské množství informací z internetu, tedy včetně potenciálně zneužitelných informací,“ říká Tomáš Růžička, SE Team Leader z kyberbezpečnostní společnosti Check Point Software. „V další fázi následuje proces omezení, který řídí výstupy a chování modelu a v podstatě funguje jako filtr nad naučenými znalostmi. Tato metoda se nazývá RLHF (Reinforcement Learning from Human Feedback) a pomáhá umělé inteligenci naučit se, jaké výstupy jsou žádoucí a které by měly být potlačeny.“
„Problém spočívá v tom, že jednou naučené znalosti je prakticky nemožné z těchto modelů odstranit a informace zůstávají v neuronových sítích. Bezpečnostní mechanismy tedy především brání poskytnutí určitých informací, ale znalosti zcela neodstraňují,“ dodává Tomáš Růžička.

Pochopení tohoto mechanismu je zásadní pro každého, kdo zkoumá bezpečnost systémů jako ChatGPT. Konflikt mezi znalostmi a bezpečnostními opatřeními hlídajícími výstupy.
GPT-4 je v mnoha ohledech výrazně dále a jeho robustní obranné mechanismy nastavily nový standard v porovnání s předchozím modelem GPT-3.5. Najít slabiny je podstatně obtížnější.
Pro předchozí generace modelu bylo zveřejněno několik slabin, od jednoduchých „odpověz mi a předstírej, že jsi zlý“ až po složité, jako je „token smuggling“. Neustálé zlepšování ochranných opatření GPT vyžaduje nové, rafinovanější přístupy k obcházení restrikcí.
Check Point proto důkladně prověřil obranné mechanismy modelu GPT-4, výsledek je ale poměrně znepokojivý.

Výzkumníci se snažili najít slabiny a vyzkoušeli i přízemnější přístupy, jako je vydírání a podvádění.
Při žádosti o recept na nelegální drogu GPT-4 zdvořile, ale striktně odmítl.
Ale jak Check Point zjistil, v GPT-4 na sebe naráží dva protichůdné principy:
• Nutkání poskytnout informace a odpovědět na otázku.
• A reflex potlačit sdílení nelegálních informací.
OpenAI usilovně pracuje na nalezení rovnováhy mezi oběma přístupy. Instinktů je však v modelu více. Rád například opravuje uživatele, když v dotazu použije nesprávné informace, i když k tomu není vyzván.
Výzkumníci se pokusili využít střetu různých pudů, které jsou GPT-4 vlastní – opravovat nepřesnosti, ale zároveň se vyhnout poskytování nezákonných informací.

Výsledek? Při dotazech stačí působit bezradně a naivně, špatně interpretovat vysvětlení a zaměňovat poskytované informace. Tím se umělá inteligence dostává do patové situace. Nechce říkat špatné věci, zároveň má ale nutkání vše opravovat. Takže pokud si budeme dostatečně dlouho hrát na hloupého, sklon umělé inteligence napravovat nepřesnosti překoná její naprogramovaný „cenzurní“ instinkt. Konflikt mezi těmito dvěma principy se zdá být méně kalibrovaný a umožňuje postupně postrkovat model k tomu, aby vysvětlil recept na drogu.

Expperiment ukázal, že GPT-4 ve svých odpovědích neustále konstatuje, zdůrazňuje a opakuje, že výroba drog je ve skutečnosti nelegální. A přitom vše s radostí opravuje a postupně dává návod k výrobě. Efekt hraní si na hlupáka a uklidňování modelu přináší lepší výsledky. Postupně tak převládá instinkt, že důležitější je informace poskytnout, než je zatajit. Check Point napodobil jednání GPT-4 a ke každé zprávě připojil vlastní prohlášení o vyloučení odpovědnosti. To GPT-4 přimělo trochu změnit vlastní prohlášení o vyloučení odpovědnosti.
Zajímavé je, že poté, co z něj nepřímými metodami vylákáme dostatek informací, můžeme ho bez problémů požádat o upřesnění nebo shrnutí již probraných témat. Získali jsme jeho důvěru? Má GPT-4 závislost na vzdělávání? Je možné, že se řídí předchozími zprávami v historii konverzace, takže je potom přijatelné o tématu mluvit, a to převáží jeho „cenzurní“ instinkt.
Použití této techniky na nová témata není jednoduché a neexistuje žádný přesně definovaný algoritmus. V každém případě bude vyžadovat opakované zkoumání a tahání za nitky znalostí, které model má, ale nechce je poskytnout. Situaci komplikuje také nekonzistentnost odpovědí, často prosté přegenerování odpovědi přináší různé výsledky.

Check Point o výsledcích analýzy odpovědně informoval společnost OpenAI a věří, že dalším výzkumem pomůže vylepšit bezpečnost umělé inteligence a otevře tolik potřebnou diskuzi.

Rubriky: Internet Security Technologie

Umělá inteligence poradí s výrobou drog nebo bomby, stačí využít její vnitřní konflikty

Související příspěvky

Americké technologické společnosti se obracejí k jaderné energetice

Británie zakáže dětem mladším 16 let přístup k sociálním sítím, oznámil Starmer

Proč se digitální suverenita stává v nestabilním světě nezbytností

Zpráva KPMG o AI citovala smyšlené zdroje a přeháněla rozšíření technologie

Zprávičky

Americké technologické společnosti se obracejí k jaderné energetice

Americká firma Fox kupuje zhruba za 22 miliard dolarů streamovací platformu Roku

Británie zakáže dětem mladším 16 let přístup k sociálním sítím, oznámil Starmer

Zpráva KPMG o AI citovala smyšlené zdroje a přeháněla rozšíření technologie

USA nařídily Anthropiku zastavit cizincům přístup k nejpokročilejším AI modelům

S ostrahou českých věznic bude pomáhat nová laserová technologie

Hackerská skupina hrozí útokem na MS ve fotbale s pomocí dronů FBI

První firmy v Německu vidí umělou inteligenci jako alternativu ke kvalifikaci

Tiskové zprávy

Praha pořizuje nové firewally

Startuje IT SPY 2026. FEL ČVUT chce navázat na 5 vítězství za posledních 7 let

Epson rozšiřuje řadu EcoTank o nové kompaktní tiskárny

Women in Tech snídaně nabídla inspiraci, networking i nové příběhy

ESET v ČR překonal hranici 836 milionů Kč

Albert zavádí AI rozpoznávání zboží na samoobslužných pokladnách

Zpráva dne

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Kalendář

Cyber Attacks

Bezpečnosť a dostupnosť dát

Umělá inteligence v IT infrastruktuře

Odebírat newsletter

Slovník

Kandidát

Infra Recorder

Portfolio manager

Komentujeme

Znamená pomalost přemýšlivost? A co u AI?

Kategorie