• Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události
Žádné výsledky
Zobrazit všechny výsledky
ITBiz.cz
ITBiz.cz
Žádné výsledky
Zobrazit všechny výsledky

Jak vybrat řešení úložiště pro trénování umělé inteligence

Pavel Houser
16. 7. 2024
| Články
Srovnávací test STAC-M3 prokázal bezkonkurenční schopnosti řady úložných systémů FlashBlade//S500

Většina podniků má již úložiště nějak optimalizovaná s ohledem na typ dat a způsob jejich využívání. Trénování (školení, učení) umělé inteligence však bývá výjimkou, protože řada organizací se začala věnovat generativní AI nebo vývoji vlastních modelů AI až v nedávné době; většině z nich proto chybí větší zkušenosti.

Výběr optimálního řešení úložiště pro tréninková data AI vyžaduje pečlivé posouzení. Na ITProToday přináší v této souvislosti několik tipů technologický analytik Christopher Tozzi. Jeho komentář doplňujeme o pohled Rajieva Rajavasireddyho, který je viceprezidentem pro produktový management společnosti Pure Storage a ředitelem výzkumného a vývojového centra Pure Storage v Praze.

Tréninková data pro umělou inteligenci se z čistě technického hlediska obvykle neliší od jiných běžných typů dat. Zahrnují informace, jako jsou e-maily, dokumenty a případně zvukové a video soubory. Tento typ dat je kompatibilní s celou řadou moderních úložných systémů, jako jsou databáze, souborová úložiště a bloková úložiště. Přesto jsou data, na kterých se modely umělé inteligence trénují, v určitých ohledech jedinečná, což s sebou nese speciální výzvy.

Problém objemu

Data pro trénování modelů AI mohou v první řadě vyžadovat obrovský objem úložného prostoru, což může znamenat také obrovské náklady na úložiště, zejména pokud není nákladově optimalizováno.

„Úzce spolupracujeme s našimi zákazníky a stále častěji od nich dostáváme požadavky na optimální řešení úložiště jak pro trénování, tak i pro provoz AI. Setkáváme se se třemi typy případů, o kterých zákazníci v souvislosti s AI hovoří: by fungovala jako úložný cloud, zjednodušila přístup k datům a jejich správu a odstranila datová sila, což umožní snazší přístup pro AI. Jednak je to trh vysoce výkonných datových úložišť pro velké veřejné nebo soukromé GPU farmy, jednak specializovaná úložiště pro prostředí Enterprise Inference Engine nebo RAG a do třetice modernizace všech podnikových úložišť tak, aby fungovala jako úložný cloud, zjednodušila přístup k datům a jejich správu a odstranila datová sila, což umožní snazší přístup pro AI. 

Společným jmenovatelem těchto tří oblastí je infrastruktura. Stala se kritickým pilířem úspěšného nasazení AI. Naše rada zákazníkům zní: spolupracujte s dodavateli, kteří vám v rámci své infrastruktury mohou garantovat výkon, spolehlivost, flexibilitu, dostupnost a efektivitu.

Flexibilita je v oblasti umělé inteligence zásadní, protože tempo změn je ohromné. Organizace potřebují být schopné snížit riziko svých investic pomocí řešení, které umí podporovat více fází AI. Technologie by měla být schopna zvládnout trénink a interferenci a ve chvíli, kdy se shromáždí více dat, zase přepnout zpět na trénink,“ vysvětluje Rajiev Rajavasireddy.

Komprese, aktualizace a GPU

Modely umělé inteligence navíc obvykle přistupují k tréninkovým datům pouze při aktivním tréninku nebo přeškolování – a k těmto událostem může docházet nepravidelně a nepředvídatelně. V důsledku toho bývá těžké přesně předpovědět, jak často bude třeba data zpřístupnit. To může mít vliv na strategie ukládání, protože některá řešení ukládání (například studená cloudová úložiště) nepodporují okamžité zpřístupnění dat. Pokud se dopředu neví, kdy přesně budou data potřeba, představuje to problém.

V některých případech je možné tréninková data pro AI komprimovat, aby se ušetřilo místo. Zda to vůbec lze a jaký typ kompresního algoritmu použít, však závisí na schopnosti modelu pracovat s komprimovanými daty. Komprese bývá obvyklým prostředkem, jak snížit náklady na úložiště, ale pro AI to platit nemusí.

V úvahu je třeba vzít i aktualizaci dat. Udržování aktuálních dat je důležité pro zajištění toho, aby chování modelu odráželo všechny dostupné informace. To znamená, že schopnost aktualizovat tréninková data je důležitá – ale proveditelnost změn a efektivita aktualizací závisí na způsobu uložení dat.

„Umělá inteligence vyžaduje velký objem nestrukturovaných dat, a proto organizace potřebují řešení, které je dokáže zpracovávat rychle a ve velkém měřítku. Navíc GPU (grafické procesory) jsou jednou z nejdůležitějších a také nejdražších součástí nasazení AI. Pokud infrastruktura není dostatečně robustní, aby podporovala optimální výkon GPU, projekty AI nebudou tak úspěšné. Flashová úložiště jsou jediným řešením, které dokáže zajistit takovou úroveň dostupnosti pro nestrukturovaná data, která AI potřebuje ke svému úspěchu. Propojení modelů AI s daty totiž vyžaduje úložné řešení, které poskytuje spolehlivý a snadný přístup k datům napříč datovými sily a aplikacemi za všech okolností – to často není možné s úložným řešením typu HDD,“ říká Rajiev Rajavasireddy.

Kdy (ne)volit cloud?

Ch. Totzi dále nabízí několik tipů pro řešení výše popsaných problémů:

Obecně platí, že služby cloudových objektových úložišť, jako je Amazon S3 a Azure Blob Storage, jsou vhodnou volbou pro ukládání tréninkových dat v případě, že je potřeba uložit velmi velký objem. Tyto služby nabízejí prakticky nekonečnou úložnou kapacitu a podporují také verzování, takže jsou užitečné, je-li potřeba sledovat změny dat v průběhu času.

Lokální úložiště je ve většině případů méně škálovatelné než cloudové, takže pro opravdu velké objemy dat není ideální. Tento přístup může být ale z dlouhodobého hlediska nákladově efektivnější než cloudové úložiště.

„Cloudové úložiště je velmi užitečné pro testování algoritmů AI a jejich trénování,“ souhlasí Rajiev Rajavasireddy a dodává: „Udržovat program AI v chodu výhradně v cloudu však bude pravděpodobně nákladné. Organizace potřebují přesouvat data tam, kde jsou potřeba, a být schopny škálovat dle toho, jak se jejich potřeby zvyšují či snižují. My zde můžeme nabídnout unikátní architekturu Evergreen a as-a -service model (využití úložiště jako služby), který poskytuje nabídku podobnou cloudu i on-premise.“

Databáze podle Totziho obvykle nejsou ideálním způsobem ukládání tréninkových dat, protože jsou méně škálovatelné a flexibilní než jiné možnosti. Nicméně jsou-li tréninková data strukturovaná (například podnik má různé kategorie dat a chce ukládat každou z nich zvlášť), může být databáze efektivním prostředkem.

Souborové úložiště, které uchovává data uvnitř lokálních souborových systémů, také obvykle není vhodným způsobem. Struktura, kterou souborové systémy datům vnucují, může být nevhodná pro data postrádající ucelenou strukturu (častý případ dat pro trénování AI). Souborové úložiště je navíc obtížněji škálovatelné. Výjimku představují situace, když je k dispozici relativně malé množství trénovacích dat, která je třeba uložit, a kdy model AI je s daty umístěn na stejném počítači. V takovém případě může souborové úložiště vést k rychlejšímu trénování, protože data se nemusí přesouvat po síti.

Rubriky: CloudHardwareTechnologie

Související příspěvky

HPE představuje nové routery Juniper PTX
Články

HPE představuje nové routery Juniper PTX

27. 2. 2026
Zákony informatiky: Když Brooksův zákon neplatí
Články

Umělá inteligence pomáhá řešit i problémy, kterým sama nerozumí

27. 2. 2026
Huawei AI ilustracni
Zprávičky

Výsledky a výhled Nvidie překonaly odhady, vzrostly příjmy z datových center

26. 2. 2026
Umělá inteligence nemá člověka nahradit, ale doplnit
Články

Umělá inteligence nemá člověka nahradit, ale doplnit

26. 2. 2026

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Souhlasím se Zásadami ochrany osobních údajů .

Zprávičky

750 zaměstnanců ČSOB se díky Atosu zvládlo rychle přesunout do domácích kanceláří

Netflix ustoupil v bitvě o Warner Bros, slavná studia tak může převzít Paramount

ČTK
27. 2. 2026

Americký provozovatel streamovací platformy Netflix odmítl zvýšit nabídku na převzetí filmových studií a streamovací

Ruské úřady se rozhodly Telegram zablokovat na začátku dubna

ČTK
27. 2. 2026

Ruské úřady rozhodly, že začátkem dubna zablokují komunikační platformu Telegram, uvádí ruský server RBC

750 zaměstnanců ČSOB se díky Atosu zvládlo rychle přesunout do domácích kanceláří

GFI Software ustanovila Zebra Systems výhradním distribučním partnerem pro Severní Ameriku

itbiz
26. 2. 2026

Společnost GFI Software oznámila konsolidaci své severoamerické distribuce pod Zebra Systems LLC, která je

Huawei AI ilustracni

Výsledky a výhled Nvidie překonaly odhady, vzrostly příjmy z datových center

ČTK
26. 2. 2026

Americký výrobce čipů Nvidia zvýšil ve čtvrtém čtvrtletí tržby meziročně o 73 procent na

Apple přesune část výroby svého malého počítače Mac mini z Asie do Houstonu

ČTK
26. 2. 2026

Americká společnosti Apple přesune část výroby svého malého stolního počítače Mac mini z Asie

Revolut zvažuje, že letos prodá investorům nové akcie

ČTK
26. 2. 2026

Britská internetová finanční společnost Revolut zvažuje, že ve druhé polovině letošního roku prodá investorům

Nová nabídka od Paramountu může být lepší než ta od Netflixu, připustil Warner

ČTK
25. 2. 2026

Aktualizovaná nabídka mediálního konglomerátu Paramount Discovery na převzetí skupiny Warner Bros. Discovery (WBD) zahrnuje

Platební společnost Stripe má zájem o převzetí PayPalu

ČTK
25. 2. 2026

Platební společnost Stripe zvažuje převzetí celé nebo alespoň části americké firmy PayPal. S odvoláním

Tiskové zprávy

Společnost Epson představila speciální edici Lifestudio Flex Lux

AI pomáhá odhalit vzácná onemocnění včas. Vývoj podporuje AWS

T-Mobile v roce 2025 – hospodářské výsledky

Operátoři zachytí 3 miliony podvržených hovorů každý měsíc

Mobilní svět a rostoucí náklady kyberútoků

Česká obchodní inspekce uskutečnila v minulém roce 751 kontrol internetových obchodů, porušení předpisů zjistila v 639 kontrolách

Zpráva dne

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Nedávejte svým milovaným na Mikuláše sladkosti, radši Windows 11 CDkey od Goodoffer24.com!

Redakce
5. 12. 2025

Na Mikuláše ani sladkosti, už vůbec ne uhlí ani brambory, ale radši nový software,...

Kalendář

Bře 12
Celý den

IT Security Worshop

Dub 15
Celý den

Energy Vision

Zobrazit kalendář

Komentujeme

itbiz kamil pittner

Platformové inženýrství: popularita termínu může vést ke zmatení

Kamil Pittner
2. 1. 2026

Podobně jako v případě DevOps se i termín platformové inženýrství stal natolik oblíbeným, až se začal...

Slovník

.NET

Media relationship manager

Monitoring

Kategorie

  • Články
  • Komentujeme
  • Slovník
  • Tiskové zprávy
  • Zprávičky

Portál ITbiz.cz přináší informace z IT a byznysu již od roku 2006. Provozuje jej internetové vydavatelství Nitemedia.  Mezi další naše projekty patří například ABClinuxu.cz a Sciencemag.cz. Na stránce Redakce naleznete informace o redakci a možnostech inzerce.

Rubriky

Akce a události Byznys Cloud Ekomerce Hardware Internet Operační systémy Podnikový software Právo Science Security Technologie Telekomunikace veře Veřejná správa Vývoj a HTML Zpráva dne České IT
Žádné výsledky
Zobrazit všechny výsledky
  • Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události

© 2019 Vydává Nitemedia s.r.o. Hosting zajišťuje Greenhousing.cz.

Tento web používá cookies. Pokračováním dáváte souhlas s jejich používáním. Více na itbiz.cz/soukromi.