Proč Seznam dokázal vzdorovat Googlu?

Pavel Houser , 18. srpen 2012 10:00 16 komentářů
Proč Seznam dokázal vzdorovat Googlu?

Fulltextové vyhledávání je celá věda. Jak se dnes liší přístup obou hlavních hráčů na českém trhu? Seznam v roce 1996 začínal jako katalog a i když později přidal fulltextové vyhledávání (Kompas), dlouho pro firmu nebylo prioritou. Fulltext se například zapínal až v případě, že odpověď nebyla nalezena v katalogu.

Později Seznam používal pro fulltext cizí technologie (včetně Googlu) a prezentoval se spíše jako médium/portál než vyhledávač (tedy s důrazem na homepage a další služby/vlastní obsah). Situace se nicméně postupně měnila a dnes je Česko jednou z pouhých čtyř zemí, kde domácí hráč nepřenechal hlavní podíl na vyhledávání Googlu. (Další jsou Rusko, Čína a Jižní Korea – ČR je tedy jedinou z těchto zemí, kde se používá latinka.) Konkurenční boj mezi Googlem a Seznamem vede k tomu, že vyhledávací služby pro české dokumenty jsou dnes zřejmě jedny z nejkvalitnějších na světě.

Pár čísel...
Pár čísel...

Hlavní roli převzalo fulltextové vyhledávání na Seznamu v roce 2005. Od té doby firma masivně investuje do této technologie – jak do hardwaru, tak do vývojářů. V roce 2005 pracovali na vyhledávání 4 lidé, letos už 67. Počet indexovaných dokumentů stoupl ve stejném období z 30 milionů na 650. Pro obsluhu vyhledávání je dnes vyhrazeno 250 strojů, robot jich využívá 150. Obvyklou konfigurací těchto systémů je 24 jader a 350 GB RAM. Databázovým řešením je Hadoop (noSQL databáze) – s tím mj. do programovacích jazyků a platforem používaných v Seznamu vstoupila i Java.

Současná čísla: Za jednu vteřinu odpoví fulltext Seznam 350 dotazů, ve špičce je to více než 500. Databáze robota zabírá 35 TB, jeho rychlost se pohybuje mezi 500 a 5 000 URL za vteřinu. Na tiskové konferenci Seznamu se diskutovalo i o tom, proč v okolních evropských zemích místní dominantní hráči nástupu Googlu nedokázali odolat. Asi hlavní příčinou podle představitelů Seznamu byl fakt, že většina z těchto firem byla koupena telekomunikačními operátory. Svoji uživatelskou základnu se pak snažili co nejrychleji monetizovat, namísto investic do technologií se změnili na „prodeje ADSL“. Seznam nebyl k takové politice nikdy nucen.

seznamácké železo
seznamácké železo

Co se týče budoucnosti a přístupů k hledání: Seznam nechce nasazovat personalizaci, kdy by třeba načtení hlavní stránky map vycházelo z polohy uživatele. Uživatelé přijímají takový přístup spíše záporně. Různí uživatelé (nebo stejní uživatelé z různých počítačů) by při hledání měli dostávat stejné výsledky, nezohledňuje se historie hledání ani se neprohledává pošta uživatelů přihlášených k e-mailu Seznamu. Seznam proto mj. nemusí dnes řešit spory týkající se ochrany soukromí. Personalizaci jako takovou ovšem Seznam neodmítá, tyto techniky však hodlá nasazovat pouze pro mobilní telefony.

Rozdíly mezi přístupem hledání Seznamu a Googlu si může každý hračička zkoušet sám. Obě technologie trochu jinak pracují s víceslovnými dotazy, se synonymy, s ohýbáním češtiny (Seznam používá lemmatizační techniky od roku 2005) nebo i s tím, nakolik se snaží „myslet za uživatele“ (asi ve smyslu, že při hledání jahodového piva je možno do výsledků zamíchat i weby o pivu malinovém). Liší se také přístup k tomu, jak do výsledků vyhledávání zařazovat zpravodajské zdroje/často aktualizovaná obsah.

Do budoucna by Seznam mj. chtěl při vyhledávání více využívat specializované databáze.


Komentáře

Migilenik #1
Migilenik 18. srpen 2012 11:34

Protože češi neradi používají kvalitní a udržované služby. Zřejmě.

volani.webnode.cz #2
volani.webnode.cz 18. srpen 2012 12:01

Já používám seznam jako homepage, protože yacy zatím nedává dobré výsledky :(

Ale zisk ze mě seznam asi nemá, protože mám adblock a pravidla že se mi jejich skliky a reklamy nikde neukazují...

A je pravda že technologicky jsou za googlem..
Nejde ani nastavit aby byly výsledky pouze v češtině, třídit podle času atd..
Nemají kvalitní RSS čtečku.
Kašlou na IM a chat..
na lide.cz se nic moc nedělá, blogy zrušili a sweb raději komentovat nebudu :)

Sice jsou špatní, ale jsou naši, Kyperští kamarádi.. :D

Googlebot zasahuje #3
Googlebot zasahuje 19. srpen 2012 01:58

No nevím, když se kouknu do statistiky přímo webserveru, která jediná přesná, jasně nejvíc přístupu generuje vyhledávání přes google.

Seznam stále těží ze 3 věcí:

1. byl první

2. protože byl první, admini ho nastavovali lidem jako homepage

3. má solidní poštu a když už tam jdete občas odklikáte nějaké odkazy na články.

Migilenik #4
Migilenik 19. srpen 2012 08:50

bod 3 plati mozna pro spamery, ne pro uzivatele

oglop #5
oglop 19. srpen 2012 10:47

souhlasím, nekterym známím nedošla pošta už 2 týdny .. mám na mysli aktivační maily a podobně..

regine #6
regine 20. srpen 2012 11:40

Užívám oboje. Ale, pokud vytvořím site/stránky, tak Google ji má v registru do měsíce a Seznam třeba až za rok nebo nikdy.
Navíc Google má "Google Manage Blocked Sites" a zindexuje site/stránky do jednoho týdne. Nenašel jsem tuto službu u Seznamu.

l #7
l 20. srpen 2012 13:24

Seznam se v naší zemi využívá hlavně z toho důvodu, že naprostá většina uživatelů jsou zkostnatělí BFU, kteří jsou rádi, že zapnou počítač.
Obecně počítačová gramotnost v našich zemích je velice špatná, uživatelé neznají ani základní termíny, operace v rámci Windows, atd., pak se nemůžeme divit, že pro většinu platí, že internet = seznam.cz .
Po masivní reklamní akci Googlu s Chromem možná někteří "objevili Ameriku", tedy že Internet Explorer není jediný browser na světě. Nicméně u většiny bych předpokládal, že si jako hlavni stránku nastaví opět seznam.cz .
Proti Seznamu jako takovému nic nemám, spíše proti mentalitě a znalostem našich uživatelů v ČR.
Když vám docela velké procento lidí na dotaz "Co používáte za internetový prohlížeč" nebo "Co máte na tom počítači za operační systém?" Odpovídají v docela dost příkladech "Seznam", dostanete časem mírnou alergii na seznam a jeho služby :)
Dělám na technické podpoře (není podstatné čeho), takže s českými uživateli různého pohlaví, věku, vzdělání i inteligence mám (bohužel) dost zkušeností.
Druhá věc je, že osobně seznam nepoužívám, jejich mail považuji asi za nejhorší z těch co využívám (mám tam historicky pár mailů), ale obecně seznam.cz jako takový zase tak moc nemusím.

Takže můj názor je ten, že to, že u nás seznam.cz vítězí nad Googlem není o tom, že by byl seznam.cz tak úžasný a dokonalý, ale že náš průměrný český uživatel je neskutečně počítačově negramotný, zkostnatělý, a také neschopný se něco učit nebo změnit přístup, ale největším problémem je, že on nechce. Nechce se nic učit, nechce změny, nechce zlepšení. Nezáleží mu na bezpečnosti, kliká na co může, dává si jednoduchá hesla, a za své chyby zásadně nadává všem okolo, jen ne sobě. Bude remcat a nadávat, i když mu nějaké tlačítko posunete o pixel nebo změníte font. Takže sry, kluci a holky ze seznamu, tohle není jen o tom, že jste kdovíjak dobří, nerad to říkám, ale je to tak...

Migilenik #8
Migilenik 20. srpen 2012 18:04

No mě je seznam hrozně nepříjemný právě přístupem svého PR oddělení.

Nějaka načinčaná slepice nebo blbec, co si dlouho s nikym neměřil péro, přijde a ačkoli sám dobře ví, že seznam je úspěšný právě díky zvyku starších generací, začnou z úst pouštět neuvěřitelné sračky o tom, jak hrozně je seznam inovativní a na úrovni. S takovým přístupem jejich PR opravdu nejsem schopen považovat seznam za seriozní společnost.

l #10
l 21. srpen 2012 15:00

S tím by se dalo souhlasit :)

Otázka ale je, jestli tohle produkoval přímo někdo ze seznam.cz, nebo má ITBIZ nějakou potřebu jim podlézat....

A nebo se chtěl jen seznam.cz za nějakou protislužbičku více zviditelnit...

Ovšem v tom případě tenhle článek mají dát do Blesku, Aha, nebo podobného média, které čtou ty masy hloupých Čechů, a věří všemu co je tam psáno.

Tady se podle mě nalézá spíše znalejší nebo odborná veřejnost, ta na tyhle kecy věřit nebude :)

Ale tak co, dobrá snaha ... :D

Rulík #12
Rulík 21. srpen 2012 22:56

Souhlasím, v dnešní době je až neuvěřitelné jak moc lidí nemá ani potuchy k čemu, že to počítač slouží. Polovina národa si myslí, že jsou PC analiticy když jsou schopni otevřít dialogy kustomizace ve Windowsech a druhá polovina tvrdí, že PC a vlastně celé IT půjde v nejbližších letech do kytek, takže co by se oni obtěžovali vůbec učit něco o takové zbytečnosti jako je PC, vždyť přeci o nic nejde, počítače řídí jenom pár letadel, lodí, občas jejich auta, jsou tam registrovaní v různých státních databázích atd. atd.! Osobne mne mnohem více dovádí k šílenství ten druhý přístup, dokážu pochopit člověka natvrdlého jako vlašský ořech, poradím, pomohu, rád dám námět k rozvoji znalostí, ale že mi někdo tvrdí, že on považuje digitální technologie za zhovadilost a myslí si při tom jaký je pán světa a přitom nemá ani maturitu (neříkám, že vždy, ale o to je to potom smutnější), to už mi přijde trochu moc. My nikomu PC necpeme, nenutíme je žít v dnešní době a nekazíme jim jejich svět, tak se sakra nemají co **** do našeho. ;) Za to bych byl velice vděčný.

Conyx 21. srpen 2012 14:17

Ze služeb Seznamu využívám pouze slovník a mapy, ale jsem rád, že v Česku funguje alespoň nějaká konkurence Googlu, přestože kvalita jejích služeb pokulhává. Bez konkurence totiž není snahy.

l #11
l 21. srpen 2012 15:09

Mapy využívám občas také, to je pravda. Přijde mi, že Google nemá vždy úplně aktuální informace ohledně MHD zastávek a spojů na nich.
Slovník využívám Googlí.
Imho Google pracuje na svých službách neustále, je to nadnárodní společnost, která soupeří na mnoha frontách, a proto musí své služby zlepšovat neustále, což také podle mě dělají.

multi #13
multi 27. srpen 2012 09:09

Seznam take nemusim ikdyz ani googl, ale musim uznat ze mapy ze seznamu jsou lepsi nez od googl. Dokonce jednou jsem jel podle googl map v praze a byla tam predelana cela krizovatka bez znamek novoty a googl tam mel uplne neco jineho. Natesti co je OpenStreetMap, tak uz ani nemusim resit malou podrobnosta map od seznamu, ktere jsou navic nepouzitelne mimo jejich sluzby.

Marv-CZ 29. srpen 2012 19:03

Pokud chci přeložit jen slovíčka, tak dávám přednost slovníku od seznamu. Ten mají totiž opravdu profi od Lingei, včetně frází a výkladových poznámek.

Louka #15
Louka 06. září 2012 13:53

No to je jasné, co je dobré a funkční, není dílem Seznamu.... ;-)

spokojeny #16
spokojeny 12. září 2012 08:23

Pro vyhledavani, informaci o firmach pracovnich nabidkach inzeratech apod je rozhodne seznam lepsi nez google. Navic jsem si vsiml v prubehu casu, ze se odpovedi googlu tak nejak priohybaji. Nebojim se rici, ze jednou nam budou servirovat to co oni budou chtit. Proto at uz z tohoto duvodu, nebo z duvodu soukromi radeji pouzivam doma seznam a v zahranici yahoo. Vzdycky najdu to co potrebuji, nepotrebuji aby na me google vyblil milion odkazu, potrebuji ty nejlepsi a na to seznam i yahoo porad staci.
hawk

PS: reci o zkostnatelosti jsou trochu ubohe. vsichni se ohani i-oveckama ale ze se nam tu buduje krasne vykradana g-comunita, zatim vadi asi jen lidem co se zabyvaji bezpecnosti...


RSS 

Komentujeme

Chatbot mluví za mrtvého – od nápadu k realizaci

Pavel Houser , 30. listopad 2016 13:00
Pavel Houser

Na webu The Verge popsala Casey Newton příběh dvou přátel (Eugenia Kuyda a Roman Mazurenko). Peripet...

Více





Kalendář

20. 03.

24. 03.
CeBIT 2017
RSS 

Zprávičky

Nový zákon o výzkumu chystá "blacklist" příjemců i ministerstvo

ČTK , 09. prosinec 2016 16:31

Velké změny ve fungování Grantové a Technologické agentury, novou vědeckou radu ČR i takzvaný "black...

Více 0 komentářů

Fitbit koupil průkopníka chytrých hodinek Pebble

ČTK , 09. prosinec 2016 15:00

Americký výrobce chytrých náramků a hodinek Fitbit koupil software, patenty a další aktiva duševního...

Více 0 komentářů

Američané možná umožní v letadlech telefonování přes wi-fi

ČTK , 09. prosinec 2016 13:00

Aerolinky ve Spojených státech by v budoucnu mohly umožňovat telefonování v letadle s použitím wi-fi...

Více 2 komentářů

Starší zprávičky

Česká pošta od ledna zdraží posílání do zahraničí o pět až 20 Kč

ČTK , 09. prosinec 2016 11:39

Česká pošta od ledna zvýší ceny za posílání listovních zásilek do zahraničí o pět korun, balíky podr...

Více 0 komentářů

Za vzněcováním smartphonu iPhone 6 jsou vnější vlivy, tvrdí Apple

ČTK , 08. prosinec 2016 11:30

Firma Apple odmítla podezření čínských uživatelů svého chytrého telefonu iPhone 6, že za problémy s ...

Více 0 komentářů

Verizon prodá firmě Equinix datová centra za 3,6 miliardy USD

ČTK , 08. prosinec 2016 10:00

Největší americký mobilní operátor Verizon Communications prodá specializované společnosti Equinix 2...

Více 0 komentářů

Tchajwanský Foxconn jedná o rozšíření svých aktivit v USA

ČTK , 07. prosinec 2016 15:00

Tchajwanská společnost Foxconn jedná o rozšíření svých aktivit ve Spojených státech. Oznámila to dne...

Více 0 komentářů