SGI: zvládneme zanalyzovat Wikipedii za jediný den

Karel Michal , 21. červen 2012 12:36 0 komentářů
Rubriky: Technologie, Hardware

Společnost SGI, která představuje jeden z pilířů světového high performance computingu, tvrdí, že její nová platforma SGI UV 2 zvládne s přehledem zanalyzovat celou Wikipedii během jediného dne.

GRAF: Osoby zmiňované na Wikipedii a zmínky o nich v jednotlivých článcích
GRAF: Osoby zmiňované na Wikipedii a zmínky o nich v jednotlivých článcích
SGI spolupracuje s Kalevem H. Leetaru z Univerzity v Illinois na vytvoření vůbec prvního, historického mapování plného textového obsahu anglického vydání Wikipedie v čase a prostoru. Výsledky zahrnují vizualizace moderní historie zachycené v rámci jednoho dne s využitím in-memory data-mining technik. Díky možnosti vložit celou anglickou verzi Wikipedie do systému SGI UV 2000, byl Leetaru schopen ukázat, jak se odvíjel pohled Wikipedie na svět během posledních dvou století. Lokalita, rok a pozitivní nebo negativní sentiment byly provázány s těmito odkazy.

Leetaru na platformě zvládl provádět analýzy téměř v reálném čase v rámci celého datového souboru, vytvářet vizuální mapy napříč prostorem a časem, aby byl schopen vidět nejen to, jak se historie odvíjela, ale i celkový charakter světa za posledních tisíc let, a interaktivně testovat širokou škálu teorií a vědeckých otázek, a to za méně než jeden den práce.

Zatímco několik předchozích projektů mapovalo vstupy Wikipedie pomocí ručně přiřazených umístění metadat editorem, tyto předchozí pokusy zahrnovaly jen nepatrný zlomek informací umístěných na Wikipedii. Tento projekt odemkl obsah článků samotných, identifikoval každou lokalitu i časový údaj u všech čtyř milionů stránek a vazeb mezi nimi.

Z analýzy je vidět, že Wikipedie má čtyři období růstu ve svém historickém pokrytí: 1001-1500 (středověk), 1501-1729 (ranný novověk), 1730-2003 (osvícenství), 2004-2011 (éra Wikipedie) a zdá se, že její další růst se zaměřuje na zvýšení pokrytí historických událostí spíše než na zvýšené dokumentování současnosti.

Průměrný charakter pokrytí každého roku Wikipedie úzce souvisí s hlavními globálními událostmi, přičemž nejvíce negativním obdobím za posledních 1000 let je americká občanská válka následovaná druhou světovou válkou. Ukazuje se také, že "mezera kvůli autorským právům", která potlačila většinu z dvacátého století v digitalizovaných tištěných sbírkách, není problémem Wikipedie, kde probíhá stabilní, exponenciální růst pokrytí od roku 1924 až po současnost.
Mezi léty 1000 a 2012 bylo vygenerováno více než 80 milionů lokalit a 42 milionů časových údajů, v průměru to dělá 19 lokalit a 11 časových údajů na článek (každých 44 slov a každých 75 slov, odpovídající pořadí).


Komentáře


RSS 

Komentujeme

Zákaznické karty čekají změny

Pavel Houser , 17. leden 2017 13:00
Pavel Houser

Jedna z technologií, která se už po léta prakticky nezměnila, i když by mohla? Prý karty zákazníků d...

Více





Kalendář

06. 02.

07. 02.
konference G2B TechEd
15. 02. IDC Predictions 2017
22. 02. IT mezi paragrafy
RSS 

Zprávičky

Embarcadero oznamuje podporu Desktop Bridge v produktu RAD Studio

ITBiz.cz , 17. leden 2017 12:00

Společnost Embarcadero Technologies (divize společnosti Idera), vedoucí dodavatel softwarových řešen...

Více 0 komentářů

Pokrytí LTE loni stouplo na 98 procent populace

ČTK , 17. leden 2017 07:00

Pokrytí Česka rychlými mobilními sítěmi LTE se loni zvýšilo na 98 procent populace, což je o čtyři p...

Více 0 komentářů

Reuters: Hlavní příčinou potíží telefonů Galaxy Note 7 je baterie

ČTK , 16. leden 2017 14:00

Hlavní příčinou samovzněcování některých chytrých telefonů Galaxy Note 7 byla baterie. Podle zdroje ...

Více 0 komentářů

Starší zprávičky

Facebook v Německu spustí systém pro ověřování pravdivosti zpráv

ČTK , 16. leden 2017 07:00

Internetová sociální síť Facebook v příštích týdnech zavede v Německu systém pro ověřování pravdivos...

Více 0 komentářů

Yahoo Japan zvažuje třídenní víkend, chce zaměstnance motivovat

ČTK , 15. leden 2017 15:00

Japonská internetová společnost Yahoo Japan zvažuje, že by do roku 2020 zavedla třídenní víkend. Chc...

Více 0 komentářů

Uber se dohodl s Google na využití jeho map

ČTK , 15. leden 2017 12:32

Internetová firma Google nově propojila své mapy s poskytovatelem přeprav Uber. S novou aktualizací ...

Více 1 komentářů

Fakulta elektrotechnická ČVUT v Praze představí zájemcům o studium moderní techniku i její historii

ITBiz.cz , 14. leden 2017 16:30

Fakulta elektrotechnická ČVUT v Praze pořádá v pátek 20. ledna od 8.30 hodin první letošní Den otevř...

Více 0 komentářů