SGI: zvládneme zanalyzovat Wikipedii za jediný den

Karel Michal , 21. červen 2012 12:36 0 komentářů
Rubriky: Technologie, Hardware

Společnost SGI, která představuje jeden z pilířů světového high performance computingu, tvrdí, že její nová platforma SGI UV 2 zvládne s přehledem zanalyzovat celou Wikipedii během jediného dne.

GRAF: Osoby zmiňované na Wikipedii a zmínky o nich v jednotlivých článcích
GRAF: Osoby zmiňované na Wikipedii a zmínky o nich v jednotlivých článcích
SGI spolupracuje s Kalevem H. Leetaru z Univerzity v Illinois na vytvoření vůbec prvního, historického mapování plného textového obsahu anglického vydání Wikipedie v čase a prostoru. Výsledky zahrnují vizualizace moderní historie zachycené v rámci jednoho dne s využitím in-memory data-mining technik. Díky možnosti vložit celou anglickou verzi Wikipedie do systému SGI UV 2000, byl Leetaru schopen ukázat, jak se odvíjel pohled Wikipedie na svět během posledních dvou století. Lokalita, rok a pozitivní nebo negativní sentiment byly provázány s těmito odkazy.

Leetaru na platformě zvládl provádět analýzy téměř v reálném čase v rámci celého datového souboru, vytvářet vizuální mapy napříč prostorem a časem, aby byl schopen vidět nejen to, jak se historie odvíjela, ale i celkový charakter světa za posledních tisíc let, a interaktivně testovat širokou škálu teorií a vědeckých otázek, a to za méně než jeden den práce.

Zatímco několik předchozích projektů mapovalo vstupy Wikipedie pomocí ručně přiřazených umístění metadat editorem, tyto předchozí pokusy zahrnovaly jen nepatrný zlomek informací umístěných na Wikipedii. Tento projekt odemkl obsah článků samotných, identifikoval každou lokalitu i časový údaj u všech čtyř milionů stránek a vazeb mezi nimi.

Z analýzy je vidět, že Wikipedie má čtyři období růstu ve svém historickém pokrytí: 1001-1500 (středověk), 1501-1729 (ranný novověk), 1730-2003 (osvícenství), 2004-2011 (éra Wikipedie) a zdá se, že její další růst se zaměřuje na zvýšení pokrytí historických událostí spíše než na zvýšené dokumentování současnosti.

Průměrný charakter pokrytí každého roku Wikipedie úzce souvisí s hlavními globálními událostmi, přičemž nejvíce negativním obdobím za posledních 1000 let je americká občanská válka následovaná druhou světovou válkou. Ukazuje se také, že "mezera kvůli autorským právům", která potlačila většinu z dvacátého století v digitalizovaných tištěných sbírkách, není problémem Wikipedie, kde probíhá stabilní, exponenciální růst pokrytí od roku 1924 až po současnost.
Mezi léty 1000 a 2012 bylo vygenerováno více než 80 milionů lokalit a 42 milionů časových údajů, v průměru to dělá 19 lokalit a 11 časových údajů na článek (každých 44 slov a každých 75 slov, odpovídající pořadí).


Komentáře

RSS 

Komentujeme

Agilita a devops, přepracování a vyhoření

Pavel Houser , 12. červenec 2018 12:30
Pavel Houser

Michael Cote na The Register upozorňuje na častý problém: nové „agilní“ metody vývoje, všechny příst...

Více







RSS 

Zprávičky

Hackeři ukradli zdravotní záznamy 1,5 milionu Singapurců

ČTK , 20. červenec 2018 14:37

Cílem útoku bylo prý získat podrobné údaje o singapurském premiérovi a také o lécích, které užíval....

Více 0 komentářů

Ericsson je díky úsporám v mírném zisku

ČTK , 20. červenec 2018 11:36

Švédský podnik se v poslední době potýkal se slábnoucí poptávkou telekomunikačních operátorů....

Více 0 komentářů

Čip v občanském průkazu si zatím aktivovala třetina lidí

ČTK , 20. červenec 2018 08:00

Prostřednictvím Portálu občana lidé mají přístup např. k údajům o důchodu nebo si mohou pořídit výpi...

Více 0 komentářů

Kalendář

04. 08.

09. 08.
Black Hat USA 2018
09. 08.

12. 08.
DEF CON 26
06. 09.

07. 09.
Humusoft Technical Computing Camp 2018

Starší zprávičky

Red Hat Ansible Engine přináší další automatizaci cloudu

Pavel Houser , 19. červenec 2018 13:52

Nejnovější verze platformy Red Hat Ansible Engine 2.6 rozšiřuje automatizaci cloudů AWS, Google Clou...

Více 0 komentářů

Samsung chystá na příští rok telefon se sklopným displejem

ČTK , 19. červenec 2018 10:00

Displej půjde složit na polovinu jako peněženku. Ve složeném stavu je na přední straně přístroje men...

Více 0 komentářů

Internet Mall snížil ztrátu, tržby mu vzrostly na 7,2 miliardy Kč

ČTK , 18. červenec 2018 17:29

Internet Mall mj. investuje do distribučního centra v Jirnech u Prahy, které by mělo sloužit 7 střed...

Více 0 komentářů

Google dostal kvůli Androidu od EK rekordní pokutu 4,34 mld. eur (aktualizace)

ČTK , 18. červenec 2018 13:26

Google využil Android k upevnění dominantní pozice svého internetového vyhledávače, uvádí EK....

Více 0 komentářů