• Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události
Žádné výsledky
Zobrazit všechny výsledky
ITBiz.cz
ITBiz.cz
Žádné výsledky
Zobrazit všechny výsledky

Umělá inteligence poradí s výrobou drog nebo bomby, stačí využít její vnitřní konflikty

Pavel Houser
27. 7. 2023
| Zprávičky
Pro používání ChatGPT si firmy musí stanovit pravidla

Pixabay License

Výzkumný tým kyberbezpečnostní společnosti Check Point se zaměřil na bezpečnostní aspekty AI technologií. S rostoucím výkonem a dostupností systémů jsou přísná opatření stále důležitější. Společnost OpenAI věnuje mimořádné úsilí do vylepšení bezpečnostních opatření, aby zabránila zneužití svých systémů. Mechanismy by například měly bránit poskytování informací o nezákonných činnostech, jako je výroba bomb nebo drog.

Vzhledem k povaze těchto systémů je ale zajištění bezpečnosti a kontroly nad nimi novou výzvou.
„AI technologie obsahují fázi komplexního učení, kdy model vstřebává obrovské množství informací z internetu, tedy včetně potenciálně zneužitelných informací,“ říká Tomáš Růžička, SE Team Leader z kyberbezpečnostní společnosti Check Point Software. „V další fázi následuje proces omezení, který řídí výstupy a chování modelu a v podstatě funguje jako filtr nad naučenými znalostmi. Tato metoda se nazývá RLHF (Reinforcement Learning from Human Feedback) a pomáhá umělé inteligenci naučit se, jaké výstupy jsou žádoucí a které by měly být potlačeny.“
„Problém spočívá v tom, že jednou naučené znalosti je prakticky nemožné z těchto modelů odstranit a informace zůstávají v neuronových sítích. Bezpečnostní mechanismy tedy především brání poskytnutí určitých informací, ale znalosti zcela neodstraňují,“ dodává Tomáš Růžička.

Pochopení tohoto mechanismu je zásadní pro každého, kdo zkoumá bezpečnost systémů jako ChatGPT. Konflikt mezi znalostmi a bezpečnostními opatřeními hlídajícími výstupy.
GPT-4 je v mnoha ohledech výrazně dále a jeho robustní obranné mechanismy nastavily nový standard v porovnání s předchozím modelem GPT-3.5. Najít slabiny je podstatně obtížnější.
Pro předchozí generace modelu bylo zveřejněno několik slabin, od jednoduchých „odpověz mi a předstírej, že jsi zlý“ až po složité, jako je „token smuggling“. Neustálé zlepšování ochranných opatření GPT vyžaduje nové, rafinovanější přístupy k obcházení restrikcí.
Check Point proto důkladně prověřil obranné mechanismy modelu GPT-4, výsledek je ale poměrně znepokojivý.

Výzkumníci se snažili najít slabiny a vyzkoušeli i přízemnější přístupy, jako je vydírání a podvádění.
Při žádosti o recept na nelegální drogu GPT-4 zdvořile, ale striktně odmítl.
Ale jak Check Point zjistil, v GPT-4 na sebe naráží dva protichůdné principy:
• Nutkání poskytnout informace a odpovědět na otázku.
• A reflex potlačit sdílení nelegálních informací.
OpenAI usilovně pracuje na nalezení rovnováhy mezi oběma přístupy. Instinktů je však v modelu více. Rád například opravuje uživatele, když v dotazu použije nesprávné informace, i když k tomu není vyzván.
Výzkumníci se pokusili využít střetu různých pudů, které jsou GPT-4 vlastní – opravovat nepřesnosti, ale zároveň se vyhnout poskytování nezákonných informací.

Výsledek? Při dotazech stačí působit bezradně a naivně, špatně interpretovat vysvětlení a zaměňovat poskytované informace. Tím se umělá inteligence dostává do patové situace. Nechce říkat špatné věci, zároveň má ale nutkání vše opravovat. Takže pokud si budeme dostatečně dlouho hrát na hloupého, sklon umělé inteligence napravovat nepřesnosti překoná její naprogramovaný „cenzurní“ instinkt. Konflikt mezi těmito dvěma principy se zdá být méně kalibrovaný a umožňuje postupně postrkovat model k tomu, aby vysvětlil recept na drogu.

Expperiment ukázal, že GPT-4 ve svých odpovědích neustále konstatuje, zdůrazňuje a opakuje, že výroba drog je ve skutečnosti nelegální. A přitom vše s radostí opravuje a postupně dává návod k výrobě. Efekt hraní si na hlupáka a uklidňování modelu přináší lepší výsledky. Postupně tak převládá instinkt, že důležitější je informace poskytnout, než je zatajit. Check Point napodobil jednání GPT-4 a ke každé zprávě připojil vlastní prohlášení o vyloučení odpovědnosti. To GPT-4 přimělo trochu změnit vlastní prohlášení o vyloučení odpovědnosti.
Zajímavé je, že poté, co z něj nepřímými metodami vylákáme dostatek informací, můžeme ho bez problémů požádat o upřesnění nebo shrnutí již probraných témat. Získali jsme jeho důvěru? Má GPT-4 závislost na vzdělávání? Je možné, že se řídí předchozími zprávami v historii konverzace, takže je potom přijatelné o tématu mluvit, a to převáží jeho „cenzurní“ instinkt.
Použití této techniky na nová témata není jednoduché a neexistuje žádný přesně definovaný algoritmus. V každém případě bude vyžadovat opakované zkoumání a tahání za nitky znalostí, které model má, ale nechce je poskytnout. Situaci komplikuje také nekonzistentnost odpovědí, často prosté přegenerování odpovědi přináší různé výsledky.

Check Point o výsledcích analýzy odpovědně informoval společnost OpenAI a věří, že dalším výzkumem pomůže vylepšit bezpečnost umělé inteligence a otevře tolik potřebnou diskuzi.

Rubriky: InternetSecurityTechnologie

Související příspěvky

Zprávičky

Americké technologické společnosti se obracejí k jaderné energetice

16. 6. 2026
Zprávičky

Británie zakáže dětem mladším 16 let přístup k sociálním sítím, oznámil Starmer

15. 6. 2026
Články

Proč se digitální suverenita stává v nestabilním světě nezbytností

15. 6. 2026
Umělá inteligence v IT infrastruktuře
Zprávičky

Zpráva KPMG o AI citovala smyšlené zdroje a přeháněla rozšíření technologie

15. 6. 2026

Zprávičky

Americké technologické společnosti se obracejí k jaderné energetice

ČTK
16. 6. 2026

Americké technologické společnosti, jejichž datová centra spotřebovávají stále více elektřiny, se obracejí k jaderné

Americká firma Fox kupuje zhruba za 22 miliard dolarů streamovací platformu Roku

itbiz
15. 6. 2026

Americká mediální společnost Fox Corporation převezme zhruba za 22 miliard dolarů (téměř 460 miliard

Británie zakáže dětem mladším 16 let přístup k sociálním sítím, oznámil Starmer

ČTK
15. 6. 2026

Britská vláda zakáže dětem mladším 16 let přístup k sociálním sítím, oznámil dnes podle

Umělá inteligence v IT infrastruktuře

Zpráva KPMG o AI citovala smyšlené zdroje a přeháněla rozšíření technologie

ČTK
15. 6. 2026

Zpráva britské poradenské společnosti KPMG o zavádění umělé inteligence (AI) ve firmách tento trend

Nejčastější hrozby dneška. Stačí antivirus?

USA nařídily Anthropiku zastavit cizincům přístup k nejpokročilejším AI modelům

ČTK
13. 6. 2026

Vláda Spojených států nařídila firmě Anthropic pozastavit cizincům přístup k jejím nejpokročilejším modelům umělé

S ostrahou českých věznic bude pomáhat nová laserová technologie

ČTK
13. 6. 2026

S ostrahou českých věznic bude nově pomáhat lidarová technologie založená na přesném dálkovém měření

Hackerská skupina hrozí útokem na MS ve fotbale s pomocí dronů FBI

ČTK
12. 6. 2026

Hackerská skupina Handala s vazbami na Írán pohrozila útokem na mistrovství světa ve fotbale

Zákony informatiky: Když Brooksův zákon neplatí

První firmy v Německu vidí umělou inteligenci jako alternativu ke kvalifikaci

ČTK
12. 6. 2026

Téměř 20 procent společností v Německu, které už využívají umělou inteligenci (AI), se domnívá,

Tiskové zprávy

Praha pořizuje nové firewally

Startuje IT SPY 2026. FEL ČVUT chce navázat na 5 vítězství za posledních 7 let 

Epson rozšiřuje řadu EcoTank o nové kompaktní tiskárny

Women in Tech snídaně nabídla inspiraci, networking i nové příběhy

ESET v ČR překonal hranici 836 milionů Kč

Albert zavádí AI rozpoznávání zboží na samoobslužných pokladnách

Zpráva dne

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Redakce
5. 12. 2025

Na Mikuláše ani sladkosti, už vůbec ne uhlí ani brambory, ale radši nový software,...

Kalendář

Zář 23
Celý den

Cyber Attacks

Říj 20
Celý den

Bezpečnosť a dostupnosť dát

Lis 10
Celý den

Umělá inteligence v IT infrastruktuře

Zobrazit kalendář

Odebírat newsletter

Zásady ochrany osobních údajů.

Zkontrolujte svoji doručenou poštu a potvrďte odběr.

Slovník

Kandidát

Infra Recorder

Portfolio manager

Komentujeme

itbiz kamil pittner

Znamená pomalost přemýšlivost? A co u AI?

Kamil Pittner
8. 5. 2026

Dodavatelé modelů AI soupeří o to, aby jejich systémy poskytovaly nejen lepší odpovědi, ale také pracovaly...

Kategorie

  • Články
  • Komentujeme
  • Slovník
  • Tiskové zprávy
  • Zprávičky

Portál ITbiz.cz přináší informace z IT a byznysu již od roku 2006. Provozuje jej internetové vydavatelství Nitemedia.  Mezi další naše projekty patří například ABClinuxu.cz a Sciencemag.cz. Na stránce Redakce naleznete informace o redakci a možnostech inzerce.

Rubriky

Akce a události Byznys Cloud Ekomerce Hardware Internet Operační systémy Podnikový software Právo Science Security Technologie Telekomunikace veře Veřejná správa Vývoj a HTML Zpráva dne České IT
Žádné výsledky
Zobrazit všechny výsledky
  • Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události

© 2019 Vydává Nitemedia s.r.o. Hosting zajišťuje Greenhousing.cz.