• Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události
Žádné výsledky
Zobrazit všechny výsledky
ITBiz.cz
ITBiz.cz
Žádné výsledky
Zobrazit všechny výsledky

Jak vybrat řešení úložiště pro trénování umělé inteligence

Pavel Houser
16. 7. 2024
| Články
Srovnávací test STAC-M3 prokázal bezkonkurenční schopnosti řady úložných systémů FlashBlade//S500

Většina podniků má již úložiště nějak optimalizovaná s ohledem na typ dat a způsob jejich využívání. Trénování (školení, učení) umělé inteligence však bývá výjimkou, protože řada organizací se začala věnovat generativní AI nebo vývoji vlastních modelů AI až v nedávné době; většině z nich proto chybí větší zkušenosti.

Výběr optimálního řešení úložiště pro tréninková data AI vyžaduje pečlivé posouzení. Na ITProToday přináší v této souvislosti několik tipů technologický analytik Christopher Tozzi. Jeho komentář doplňujeme o pohled Rajieva Rajavasireddyho, který je viceprezidentem pro produktový management společnosti Pure Storage a ředitelem výzkumného a vývojového centra Pure Storage v Praze.

Tréninková data pro umělou inteligenci se z čistě technického hlediska obvykle neliší od jiných běžných typů dat. Zahrnují informace, jako jsou e-maily, dokumenty a případně zvukové a video soubory. Tento typ dat je kompatibilní s celou řadou moderních úložných systémů, jako jsou databáze, souborová úložiště a bloková úložiště. Přesto jsou data, na kterých se modely umělé inteligence trénují, v určitých ohledech jedinečná, což s sebou nese speciální výzvy.

Problém objemu

Data pro trénování modelů AI mohou v první řadě vyžadovat obrovský objem úložného prostoru, což může znamenat také obrovské náklady na úložiště, zejména pokud není nákladově optimalizováno.

„Úzce spolupracujeme s našimi zákazníky a stále častěji od nich dostáváme požadavky na optimální řešení úložiště jak pro trénování, tak i pro provoz AI. Setkáváme se se třemi typy případů, o kterých zákazníci v souvislosti s AI hovoří: by fungovala jako úložný cloud, zjednodušila přístup k datům a jejich správu a odstranila datová sila, což umožní snazší přístup pro AI. Jednak je to trh vysoce výkonných datových úložišť pro velké veřejné nebo soukromé GPU farmy, jednak specializovaná úložiště pro prostředí Enterprise Inference Engine nebo RAG a do třetice modernizace všech podnikových úložišť tak, aby fungovala jako úložný cloud, zjednodušila přístup k datům a jejich správu a odstranila datová sila, což umožní snazší přístup pro AI. 

Společným jmenovatelem těchto tří oblastí je infrastruktura. Stala se kritickým pilířem úspěšného nasazení AI. Naše rada zákazníkům zní: spolupracujte s dodavateli, kteří vám v rámci své infrastruktury mohou garantovat výkon, spolehlivost, flexibilitu, dostupnost a efektivitu.

Flexibilita je v oblasti umělé inteligence zásadní, protože tempo změn je ohromné. Organizace potřebují být schopné snížit riziko svých investic pomocí řešení, které umí podporovat více fází AI. Technologie by měla být schopna zvládnout trénink a interferenci a ve chvíli, kdy se shromáždí více dat, zase přepnout zpět na trénink,“ vysvětluje Rajiev Rajavasireddy.

Komprese, aktualizace a GPU

Modely umělé inteligence navíc obvykle přistupují k tréninkovým datům pouze při aktivním tréninku nebo přeškolování – a k těmto událostem může docházet nepravidelně a nepředvídatelně. V důsledku toho bývá těžké přesně předpovědět, jak často bude třeba data zpřístupnit. To může mít vliv na strategie ukládání, protože některá řešení ukládání (například studená cloudová úložiště) nepodporují okamžité zpřístupnění dat. Pokud se dopředu neví, kdy přesně budou data potřeba, představuje to problém.

V některých případech je možné tréninková data pro AI komprimovat, aby se ušetřilo místo. Zda to vůbec lze a jaký typ kompresního algoritmu použít, však závisí na schopnosti modelu pracovat s komprimovanými daty. Komprese bývá obvyklým prostředkem, jak snížit náklady na úložiště, ale pro AI to platit nemusí.

V úvahu je třeba vzít i aktualizaci dat. Udržování aktuálních dat je důležité pro zajištění toho, aby chování modelu odráželo všechny dostupné informace. To znamená, že schopnost aktualizovat tréninková data je důležitá – ale proveditelnost změn a efektivita aktualizací závisí na způsobu uložení dat.

„Umělá inteligence vyžaduje velký objem nestrukturovaných dat, a proto organizace potřebují řešení, které je dokáže zpracovávat rychle a ve velkém měřítku. Navíc GPU (grafické procesory) jsou jednou z nejdůležitějších a také nejdražších součástí nasazení AI. Pokud infrastruktura není dostatečně robustní, aby podporovala optimální výkon GPU, projekty AI nebudou tak úspěšné. Flashová úložiště jsou jediným řešením, které dokáže zajistit takovou úroveň dostupnosti pro nestrukturovaná data, která AI potřebuje ke svému úspěchu. Propojení modelů AI s daty totiž vyžaduje úložné řešení, které poskytuje spolehlivý a snadný přístup k datům napříč datovými sily a aplikacemi za všech okolností – to často není možné s úložným řešením typu HDD,“ říká Rajiev Rajavasireddy.

Kdy (ne)volit cloud?

Ch. Totzi dále nabízí několik tipů pro řešení výše popsaných problémů:

Obecně platí, že služby cloudových objektových úložišť, jako je Amazon S3 a Azure Blob Storage, jsou vhodnou volbou pro ukládání tréninkových dat v případě, že je potřeba uložit velmi velký objem. Tyto služby nabízejí prakticky nekonečnou úložnou kapacitu a podporují také verzování, takže jsou užitečné, je-li potřeba sledovat změny dat v průběhu času.

Lokální úložiště je ve většině případů méně škálovatelné než cloudové, takže pro opravdu velké objemy dat není ideální. Tento přístup může být ale z dlouhodobého hlediska nákladově efektivnější než cloudové úložiště.

„Cloudové úložiště je velmi užitečné pro testování algoritmů AI a jejich trénování,“ souhlasí Rajiev Rajavasireddy a dodává: „Udržovat program AI v chodu výhradně v cloudu však bude pravděpodobně nákladné. Organizace potřebují přesouvat data tam, kde jsou potřeba, a být schopny škálovat dle toho, jak se jejich potřeby zvyšují či snižují. My zde můžeme nabídnout unikátní architekturu Evergreen a as-a -service model (využití úložiště jako služby), který poskytuje nabídku podobnou cloudu i on-premise.“

Databáze podle Totziho obvykle nejsou ideálním způsobem ukládání tréninkových dat, protože jsou méně škálovatelné a flexibilní než jiné možnosti. Nicméně jsou-li tréninková data strukturovaná (například podnik má různé kategorie dat a chce ukládat každou z nich zvlášť), může být databáze efektivním prostředkem.

Souborové úložiště, které uchovává data uvnitř lokálních souborových systémů, také obvykle není vhodným způsobem. Struktura, kterou souborové systémy datům vnucují, může být nevhodná pro data postrádající ucelenou strukturu (častý případ dat pro trénování AI). Souborové úložiště je navíc obtížněji škálovatelné. Výjimku představují situace, když je k dispozici relativně malé množství trénovacích dat, která je třeba uložit, a kdy model AI je s daty umístěn na stejném počítači. V takovém případě může souborové úložiště vést k rychlejšímu trénování, protože data se nemusí přesouvat po síti.

Rubriky: CloudHardwareTechnologie

Související příspěvky

Zprávičky

Counterpoint: Apple se letos vrátí do čela světového trhu s chytrými telefony

27. 11. 2025
ASUS TUF Gaming BE9400
Články

Výkonný Wi-Fi 7 router nejen pro náročné hráče

27. 11. 2025
Huawei AI ilustracni
Zprávičky

Meta jedná o investici miliard dolarů do čipů Googlu

26. 11. 2025
Nové varianty WormGPT pohání AI modely Grok a Mixtral
Články

Legitimní webové stránky lze zneužít k manipulaci webových prohlížečů v režimu AI

25. 11. 2025

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Souhlasím se Zásadami ochrany osobních údajů .

Zprávičky

ČR si letos v žebříčku zemí podle digitálního prostředí polepšila na 24. místo

ČTK
27. 11. 2025

Česká republika si v celosvětovém hodnocení kvality digitálního prostředí letos polepšila o tři příčky

Counterpoint: Apple se letos vrátí do čela světového trhu s chytrými telefony

ČTK
27. 11. 2025

Americká technologická společnost Apple se v letošním roce poprvé za více než deset let

Průzkum Acronis: téměř 50 % českých organizací si nemůže dovolit ztratit data za více než 4 hodiny

Pavel Houser
27. 11. 2025

17 % respondentů vyžaduje od systémů obnovy po havárii, aby garantovaly zálohu starou maximálně

Gordic a Cybrela přinášejí komplexní řešení kybernetické bezpečnosti

Sněmovna schválila roční odklad využívání e-Legislativy pro novely zákonů

ČTK
27. 11. 2025

Povinné využívání systému e-Legislativa pro vytváření a projednávání novel zákonů a zákonných opatření Senátu

Europoslanci vyzvali k zákazu sociálních sítí pro osoby mladší 16 let (aktualizováno)

ČTK
26. 11. 2025

Poslanci Evropského parlamentu dnes vyzvali k výraznému zvýšení ochrany nezletilých na internetu, včetně zákazu

Americký výrobce počítačů HP se chystá do roku 2028 propustit až 6 000 lidí

ČTK
26. 11. 2025

Americký výrobce osobních počítačů HP se kvůli zefektivnění provozu a zavádění umělé inteligence (AI)

Huawei AI ilustracni

Meta jedná o investici miliard dolarů do čipů Googlu

ČTK
26. 11. 2025

Americká společnost Meta Platforms, která vlastní mimo jiné sociální síť Facebook, jedná s Googlem

ČTÚ začne zřejmě od poloviny příštího roku dohlížet na používání AI v Česku

ČTK
26. 11. 2025

Český telekomunikační úřad bude pravděpodobně od poloviny příštího roku dohlížet na používání umělé inteligence

Tiskové zprávy

Zyxel Networks představuje první průmyslový WiFi 7 přístupový bod pro rychlejší přechod na průmysl 4.0

Nové skenery Canon imageFORMULA: Maximální výkon na minimálním prostoru

Když cloud nestačí: proč se firmám vyplatí trvalé licence Microsoft

Inovované tablety Dell Pro Rugged 10 a 12 nabízí vyšší výkon a delší provoz na baterii

Den otevřených dveří na FEL se blíží

Optici pomáhají vytvořit stavební kámen evropského kvantového internetu

Zpráva dne

Neděste se upgradu: Windows 11 Pro na Halloween jen za €20.00 na Goodoffer24

Neděste se upgradu: Windows 11 Pro na Halloween jen za €20.00 na Goodoffer24

Redakce
15. 10. 2025

Halloween je tady a s ním i strašidelné ceny za software! Tak neváhejte a...

Komentujeme

Chvála černých skřínek

Neocloudy – nové slovo, prudký růst?

Pavel Houser
24. 11. 2025

Opět se vše točí kolem GPU a AI. Poskytovatelé cloudových služeb nového typu („neoclouds“) mají v...

Slovník

Proklik

Claim

Reklamace

Kategorie

  • Články
  • Komentujeme
  • Slovník
  • Tiskové zprávy
  • Zprávičky

Portál ITbiz.cz přináší informace z IT a byznysu již od roku 2006. Provozuje jej internetové vydavatelství Nitemedia.  Mezi další naše projekty patří například ABClinuxu.cz a Sciencemag.cz. Na stránce Redakce naleznete informace o redakci a možnostech inzerce.

Rubriky

Akce a události Byznys Cloud Ekomerce Hardware Internet Operační systémy Podnikový software Právo Science Security Technologie Telekomunikace veře Veřejná správa Vývoj a HTML Zpráva dne České IT
Žádné výsledky
Zobrazit všechny výsledky
  • Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události

© 2019 Vydává Nitemedia s.r.o. Hosting zajišťuje Greenhousing.cz.

Tento web používá cookies. Pokračováním dáváte souhlas s jejich používáním. Více na itbiz.cz/soukromi.