SGI: zvládneme zanalyzovat Wikipedii za jediný den

Karel Michal , 21. June 2012 12:36 0 komentářů
Rubriky: Technologie, Hardware

Společnost SGI, která představuje jeden z pilířů světového high performance computingu, tvrdí, že její nová platforma SGI UV 2 zvládne s přehledem zanalyzovat celou Wikipedii během jediného dne.

GRAF: Osoby zmiňované na Wikipedii a zmínky o nich v jednotlivých článcích
GRAF: Osoby zmiňované na Wikipedii a zmínky o nich v jednotlivých článcích
SGI spolupracuje s Kalevem H. Leetaru z Univerzity v Illinois na vytvoření vůbec prvního, historického mapování plného textového obsahu anglického vydání Wikipedie v čase a prostoru. Výsledky zahrnují vizualizace moderní historie zachycené v rámci jednoho dne s využitím in-memory data-mining technik. Díky možnosti vložit celou anglickou verzi Wikipedie do systému SGI UV 2000, byl Leetaru schopen ukázat, jak se odvíjel pohled Wikipedie na svět během posledních dvou století. Lokalita, rok a pozitivní nebo negativní sentiment byly provázány s těmito odkazy.

Leetaru na platformě zvládl provádět analýzy téměř v reálném čase v rámci celého datového souboru, vytvářet vizuální mapy napříč prostorem a časem, aby byl schopen vidět nejen to, jak se historie odvíjela, ale i celkový charakter světa za posledních tisíc let, a interaktivně testovat širokou škálu teorií a vědeckých otázek, a to za méně než jeden den práce.

Zatímco několik předchozích projektů mapovalo vstupy Wikipedie pomocí ručně přiřazených umístění metadat editorem, tyto předchozí pokusy zahrnovaly jen nepatrný zlomek informací umístěných na Wikipedii. Tento projekt odemkl obsah článků samotných, identifikoval každou lokalitu i časový údaj u všech čtyř milionů stránek a vazeb mezi nimi.

Z analýzy je vidět, že Wikipedie má čtyři období růstu ve svém historickém pokrytí: 1001-1500 (středověk), 1501-1729 (ranný novověk), 1730-2003 (osvícenství), 2004-2011 (éra Wikipedie) a zdá se, že její další růst se zaměřuje na zvýšení pokrytí historických událostí spíše než na zvýšené dokumentování současnosti.

Průměrný charakter pokrytí každého roku Wikipedie úzce souvisí s hlavními globálními událostmi, přičemž nejvíce negativním obdobím za posledních 1000 let je americká občanská válka následovaná druhou světovou válkou. Ukazuje se také, že "mezera kvůli autorským právům", která potlačila většinu z dvacátého století v digitalizovaných tištěných sbírkách, není problémem Wikipedie, kde probíhá stabilní, exponenciální růst pokrytí od roku 1924 až po současnost.
Mezi léty 1000 a 2012 bylo vygenerováno více než 80 milionů lokalit a 42 milionů časových údajů, v průměru to dělá 19 lokalit a 11 časových údajů na článek (každých 44 slov a každých 75 slov, odpovídající pořadí).


Komentáře

RSS 

Komentujeme

E-banking namísto datové schránky

Pavel Houser , 12. March 2019 11:30
Pavel Houser

Projekty zaměřené na elektronický kontakt občana se státní správou u nás zatím příliš neuspěly. Dr...

Více

Kalendář

14. 03.

24. 03.
IT mezi paragrafy 2019
19. 03.

22. 03.
Amper 2019
26. 03. IT Security Workshop 2019







RSS 

Zprávičky

V Německu začíná dražba frekvencí pro komunikační síť 5G (aktualizace)

ČTK , 19. March 2019 09:46

Aukce, která bude zřejmě trvat nejméně tři týdny, by do státní kasy mohla přinést 3-5 miliard eur....

Více 0 komentářů

Apple uvedl na trh nový iPad Air

ČTK , 19. March 2019 09:00

Cena nového přístroje iPad Air spolu s elektronickou tužkou (Apple Pencil) začíná na 499 dolarech....

Více 0 komentářů

Materiál k aukci mobilních kmitočtů vláda včera neprojednala

ČTK , 19. March 2019 08:00

Soutěž by měla začít ve druhé polovině letošního roku tak, aby skončila na začátku roku 2020....

Více 0 komentářů

Starší zprávičky

Wikipedie nebude jeden den kvůli změně autorského práva fungovat

ČTK , 18. March 2019 14:30

Terčem kritiky se stala také povinnost internetových platforem řešit, zda uživateli nahrávaný obsah ...

Více 0 komentářů

FIS koupí za 35 miliard dolarů zpracovatele plateb Worldpay

ČTK , 18. March 2019 13:43

Worldpay ročně zpracuje kolem 40 miliard transakcí ve 146 zemích a 126 měnách....

Více 0 komentářů

MPO očekává výnos z aukce mobilních kmitočtů 8 miliard Kč

ČTK , 18. March 2019 09:00

Úřad počítá s tím, že by lákal čtvrtého mobilního operátora ke vstupu na trh přednostní možností pod...

Více 0 komentářů

Facebook opouštějí po oznámení nové strategie vysocí manažeři

ČTK , 18. March 2019 08:00

Facebook se více zaměří na komunikaci v šifrovaných službách, jaký pak ale bude obchodní model?...

Více 0 komentářů