• Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události
Žádné výsledky
Zobrazit všechny výsledky
ITBiz.cz
ITBiz.cz
Žádné výsledky
Zobrazit všechny výsledky

Potřebuje AI training speciálně navržená řešení pro Data Storage?

Kamil Pittner
2. 7. 2025
| Články
Rudolf Hruška, CTO pro Datacenter Solutions společnosti Huawei Technologies Czech
Rudolf Hruška, CTO pro Datacenter Solutions společnosti Huawei Technologies Czech

Bez umělé inteligence (AI) se dnes, zdá se, neobejde nic, od ledničky přes infotainment v autě po mobilní sítě či bankovní služby. Většina z nás si pravděpodobně vyzkoušela aplikace jako ChatGPT, Copilot, Gemini – prostě některý z tzv. velkých jazykových modelů. S každou generací jsou „chytřejší“, ale jejich vytváření znamená především potřebu obrovského množství dat a vysoce výkonného hardwaru. Klíčovou roli rovněž hrají datová úložiště a o tom, co nejen pro LLM mohou nabídnout výrobci, jsme si povídali s Rudolfem Hruškou, CTO pro Datacenter Solutions společnosti Huawei Technologies Czech.

Začněme zeširoka – co všechno obnáší vytvoření LLM z pohledu dodavatelů hardwaru. Stále slýcháme o čipech pro AI, ale jen na těch vývoj LLM nestojí. Co jsou kritické body?

Velké modely umělé inteligence se skládají ze tří kritických elementů: algoritmy, data a výkonná infrastruktura pro computing. Přičemž data jsou skutečně klíčovým prvkem a jejich vstupní kvalita a výběr determinují i vlastnosti výsledných modelů. Z hlediska evoluce AI modelů probíhá přechod od singlemodálních modelů k multimodálním modelům. Multimodální modely umělé inteligence, některé z nich jsou zmíněny v úvodu, jsou modely strojového učení schopné zpracovávat a chápat informace z různých datových modalit, jako je text, obrázky, zvuk a video. To jim umožňuje provádět úkoly, které vyžadují všeobecnější chápání světa a napodobují, jak lidé využívají a integrují různé smysly. Zároveň se AI posouvá od vnímání a porozumění směrem k poznání, generaci a tvorbě, a v budoucnosti k tzv. všeobecné umělé inteligenci, něčemu jako centrální mozek lidstva. Samozřejmě, potřeba uložení velkých objemů dat a jejich rychlého zpracování ve storage systémech roste řádově.

Zmínil jste storage – je to z důvodu nedostatečné kapacity, energetické náročnosti…

Data Storage je dnes obecně jedno z velkých témat, i když je pro širokou veřejnost jaksi skryté za atraktivnějšími předměty debat a diskusí o AI. Technických výzev je zde dost. Dají se shrnout do několika oblastí: za prvé, velká kapacita s tzv. single namespace, tj. souvislý jmenný prostor, který si lze představit jako jeden neuvěřitelně velký souborový disk, kam se vejdou desítky či stovky petabajtů dat. Samozřejmě, takto velké single disky neexistují a je potřeba skládat potřebný masivní prostor z jejich velkého počtu. Vlastní propojení mezi disky a softwarovou vrstvou, která z nich tvoří souborový systém musí být dostatečně škálovatelná jak z hlediska kapacity, tak z hlediska výkonnosti. Ta se zde měří pomocí parametrů datové propustnosti, typicky kolik gigabajtů za sekundu nových dat lze na daný systém kontinuálně zapisovat či kolik gigabajtů za sekundu lze ze systému načíst. No a protože trénování AI modelů je dlouhý a náročný proces, je tento parametr propustnosti klíčovým indikátorem vhodnosti daného úložiště. Platí: čím větší propustnost, tím se celková doba trénování zkrátí – a může se překvapivě jednat až o týdny.

Další výzvy jsou spolehlivost, ochrana dat, energetická náročnost a fyzický prostor. Díky velkému počtu disků, kontrolérů, propojení a dalších hardwarových prvků je šance na defekt a tudíž přerušení procesu trénování modelu značná.

No a v neposlední řadě je to cena za uložení a cena za výkon. Nejrychlejší datová úložiště používají NVMe Flash disky a pořízení multipetabajtového All Flash úložiště stále ještě není úplně levná záležitost.

Je zkrácení doby klíčové pouze z hlediska času a urychlení uvedení na trh?

Zkrácení doby výpočtu nového modelu je samozřejmě klíčové pro time-to-market, a to v situaci, kdy se různé velké modely doslova perou o přízeň uživatelů v nelítostném konkurenčním boji. Každý si může vyzkoušet stejné otázky či úlohy na různých modelech a rozhodnout se, co je pro něj preferovaná platforma. Dopad do trhu je pak obrovský, a to i díky tomu, že jsou modely dostupné miliardám uživatelů přímo na mobilních telefonech nebo jako součást běžných internetových vyhledávačů. Poskytovatelé velkých modelů AI se proto musí držet neustále na špici.

Další spíše technický a finanční dopad spočívá v utilizaci celého výpočetního ekosystému určeného pro trénování AI. Postavit takový funkční systém je extrémně finančně náročné. Ty největší a nejvýkonnější AI clustery jsou osazeny až desítkami tisíc specializovaných AI akceleračních procesorů GPU, ale podle dostupných zdrojů mají relativně nízkou utilizaci, pouze mezi 30 až 50 procenty. A to má i obrovský dopad jednak do finanční bilance a jednak i na délku AI trainingu, která může být typicky v řádu týdnů. Nízká utilizace je způsobena tím, že nejdříve je potřeba provést datově náročné operace jako dataset preparation a loading a dále je nutné v průběhu trénování provádět periodické checkpointy, tj. zálohy, ke kterým je možné se vrátit, pokud dojde k havárii či defektu. Zálohy a případné obnovy jsou rovněž datově náročné operace a přímo závisí na propustnosti použitého úložiště. A tímto jsme se dostali k odpovědi na otázku, proč mají datová úložiště rovněž klíčovou roli v procesu trénování LLM. Zkrátka výpočetní část AI clusteru předběhla možnosti datové části, tudíž výkonné GPU „musejí čekat“ na data, se kterými mohou pracovat. A to je potřeba změnit.

Předpokládám, že výrobci jsou si toho vědomi a chtějí GPU náskok stáhnout? Má Huawei nějakého žolíka v rukávu?

Vývoj velkých a výkonných datových úložišť samozřejmě probíhá, a i zde je velký konkurenční boj mezi výrobci. Jedná se o specializovaná řešení, která vyžadují velké investice do R&D a velké zázemí pro globální distribuci a podporu. Optimalizace pro AI storage se zaměřuje na několik technických aspektů. Jednak vlastní datová média, kde dochází k pravidelnému uvádění na trh čím dál tím větších SSD NVMe disků za účelem miniaturizace a snižování celkové energetické náročnosti. Největší SSD disky komerčně dostupné na trhu již mají jednotkové kapacity přes 100 terabajtů ve standardním 2.5palcovém formátu. Další aspekt spočívá ve vývoji hardwarových storage kontrolérů, které na backendu spravují velké množství SSD disků a zároveň musí mít frontendová síťová rozhraní pro připojení do ultrarychlých AI datacentrových sítí. A v neposlední řadě probíhá vývoj v oblasti škálovatelných paralelních filesystémů, které jsou nasazeny napříč celým prostředím mezi storage nody a compute nody AI clusteru. Huawei jako jeden z technologických globálních leaderů uvádí letos novou generaci specializovaného AI storage systému pro AI training a AI inference. Jedná se o model OceanStor A800 AI Storage.

Huawei Oceanstor A800

Můžete popsat základní technické parametry OceanStor A800 AI Storage?

OceanStor A800 AI Storage patří k nové generaci storage systémů speciálně vyvinutých a určených pro high-performance, AI a machine learning workload. Splňuje požadavky na vysoký výkon a škálovatelnost v hybridních prostředích a efektivní management obrovského množství dat potřebných v celém procesu AI. Zajišťuje rychlé čtení, zápis a zpracování dat a vylepšuje efektivitu provozu v AI Clusterech. Od běžných diskových polí se liší především svou inovativní architekturou, která obsahuje specializované DPU (Data Processing Unit) procesory. DPU slouží jako specializovaný procesor a má za úkol odlehčit a spravovat síťové, bezpečnostní a úložné funkce, které tradičně zatěžují centrální procesorovou jednotku (CPU). Tedy obdobně jako výpočetní nody v AI clusteru obsahují masivní počet GPU s vlastní pamětí pro akceleraci výpočetních operací, tak i storage nody obsahují DPU pro akceleraci datových operací. V případě OceanStor A800 jsou DPU nasazeny přímo v I/O adaptérech jednotlivých kontrolérů. Pracují paralelně na frontendu úložného systému, před CPU a pamětí řadičů úložiště. Rolí DPU je přijímat datové toky a řídit je v rámci data plane a control plane separation. Vlastní aplikační data jsou směřována přímo na NVMe SSD média na backendu. Datový tok tedy nezatěžuje CPU, které zpracovává pouze kontrolní data. To je principiální rozdíl proti klasickým diskovým polím, kde jsou jak aplikační, tak kontrolní data zpracovávána vždy v CPU, a pro high-performance data úlohy se naráží na úzké hrdlo komunikace mezi CPU a RAM. OceanStor A800 je distribuovaná souborová storage se schopností rozšiřování scale-out, má zabudovaný paralelní filesystém a podporuje vysokorychlostní připojení do výpočetních sítí. Základní stavební jednotka storage clusteru – controller enclosure se dvěma nody, má výkonnost 24 milionů IOPS a 500 GB/s bandwidth. To je řádově více než běžná souborová Enterprise All Flash disková pole se dvěma řadiči. Tato extrémní výkonnost byla prokázána i prakticky v celosvětově uznávaném benchmarkovém testu MLPERF™, kde se OceanStor A800 umístil na prvním místě ve výkonu v rámci načítání trénovací sady dat, pro checkpoint zálohy a pro obnovení training procesu z checkpointů (viz. https://mlcommons.org/benchmarks/storage/).

Další informace o Huawei OceanStor AI Storage je možné získat na stránkách výrobce: https://e.huawei.com/en/products/storage/ai-storage

Rubriky: Technologie

Související příspěvky

Meta lákala zaměstnance OpenAI na bonus ve výši 100 milionů dolarů
Zprávičky

Muskova společnost xAI představila novou verzi chatbota Grok 4

11. 7. 2025
Nebojte se hlásit na seniornější pozice, radí IT pracovní portál
Články

NÚKIB vydal oficiální varování před některými produkty společnosti DeepSeek

10. 7. 2025
Z 2D materiálů dokázali poprvé postavit celý počítač
Články

Z 2D materiálů dokázali poprvé postavit celý počítač

10. 7. 2025
Budoucnost open source modelů AI je nejistá
Články

Budoucnost open source modelů AI je nejistá

9. 7. 2025

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Souhlasím se Zásadami ochrany osobních údajů .

Zprávičky

750 zaměstnanců ČSOB se díky Atosu zvládlo rychle přesunout do domácích kanceláří

Google investuje 2,4 miliardy dolarů do technologie AI od start-upu Windsurf

ČTK
12. 7. 2025

Společnost Google ze skupiny Alphabet zaplatí asi 2,4 miliardy USD (50,64 miliardy Kč) za

Muskova xAI chce další peníze od investorů při ohodnocení na 200 miliard dolarů

ČTK
12. 7. 2025

Americká společnost xAI miliardáře Elona Muska plánuje vybrat peníze od investorů v novém kole

Kryptoměny a jejich ekonomika

Bitcoin pokračuje v růstu na další rekordy, překonal hranici 118 000 dolarů

ČTK
11. 7. 2025

Cena bitcoinu dnes pokračuje v prudkém růstu. Kolem 8:30 SELČ se vyšplhala na další

Hackeři ukradli data 5,7 milionu zákazníků australských aerolinek Qantas

ČTK
11. 7. 2025

Hackeři v rámci rozsáhlého kybernetického útoku z minulého týdne ukradli data 5,7 milionu zákazníků

Meta lákala zaměstnance OpenAI na bonus ve výši 100 milionů dolarů

Muskova společnost xAI představila novou verzi chatbota Grok 4

ČTK
11. 7. 2025

Americká společnost xAI miliardáře Elona Muska představila nový model chatbota Grok 4. Ten má

Sophos představil XDR řešení pro synchronizované zabezpečení

Ministerstvo vnitra odhalilo kybernetický útok, údaje občanů neunikly

ČTK
10. 7. 2025

Ministerstvo vnitra odhalilo kybernetický útok na jeden ze systémů úřadu, oznámil dnes na tiskové

Český T-Mobile vyčleňuje vysílače do samostatné firmy

Na Slovensku skončila největší elektronická aukce mobilních frekvencí

ČTK
10. 7. 2025

Na Slovensku včera skončila největší elektronická aukce mobilních frekvencí v historii země. Vynesla rekordní

Vláda zakázala používat ve státní správě produkty čínské společnosti DeepSeek

ČTK
9. 7. 2025

Vláda zakázala používat ve státní správě jakékoli produkty čínské společnosti DeepSeek. Rozhodla tak na

Tiskové zprávy

Společnost QNAP představuje myQNAPcloud One Beta

Acer slaví několikanásobné ocenění cenou Red Dot Product Design Awards 2025

Acer for Business EMEA překonává růst trhu

Nejnovější modely Acer Chromebook Plus nyní s 12měsíčním balíčkem Google AI Pro včetně služby NotebookLM zdarma

ANECT mění vedení společnosti a posiluje management

Optimize by Acer: nejnovější evoluce v oblasti podnikových záručních podmínek

Zpráva dne

Květen je měsícem růstu, můžete růst s Windows 11 jen za €20.00!

Květen je měsícem růstu, můžete růst s Windows 11 jen za €20.00!

Redakce
15. 5. 2025

Kupte Windows 11 CDkey od Goodoffer24.com a můžete růst s tímto OS jak při...

Komentujeme

Chvála černých skřínek

Malé modely AI mají být velkým trendem

Pavel Houser
3. 1. 2025

V záplavě prognóz technologického vývoje (nejen) v roce 2025 zde prozatím trochu zapadlo jedno téma, které...

Slovník

Background

On-page faktory

HSUPA (High-Speed Uplink Packet Access)

Nejpopulárnější články

Žádný obsah není dostupný

Kategorie

  • Články
  • Komentujeme
  • Slovník
  • Tiskové zprávy
  • Zprávičky

Portál ITbiz.cz přináší informace z IT a byznysu již od roku 2006. Provozuje jej internetové vydavatelství Nitemedia. Hosting zajišťuje společnost Greenhousing.cz. Mezi další naše projekty patří například ABClinuxu.cz a Sciencemag.cz. Na stránce Redakce naleznete informace o redakci a možnostech inzerce.

Rubriky

Akce a události Byznys Cloud Ekomerce Hardware Internet Operační systémy Podnikový software Právo Science Security Technologie Telekomunikace Veřejná správa Vývoj a HTML Zpráva dne České IT
Žádné výsledky
Zobrazit všechny výsledky
  • Technologie
  • Byznys
  • Software
  • Hardware
  • Internet
  • Telco
  • Science
  • České IT
  • Události

© 2019 Vydává Nitemedia s.r.o. Hosting zajišťuje Greenhousing.cz.

Tento web používá cookies. Pokračováním dáváte souhlas s jejich používáním. Více na itbiz.cz/soukromi.