Problemetika IDN a diakritiky u česky psaných domén

Jiří Pomazal, 29. prosinec 2009 06:07 2 komentářů

domena
Zkratka IDN (Internationalized Domain Names) v poslední době značně rozčeřila vody internetu. Rozruch, především u nás, způsobilo hlavně nedávné zavedení .eu IDN domén. O co přesně v IDN jde? Jak pracuje a jaké výhody/nevýhody může přinést nám, českým uživatelům?

Domain

Běžné domény jsou dnes zapisovány v kódování ASCII, což je kódování, se kterým si vystačí všechny znaky anglické abecedy. Myšlenka IDN spočívá v tom, vnést do názvů domén i jiné znaky a umožnit tak všem národům zapisovat a číst názvy domén v jejich mateřštině. Pro Čecha by měl mít tento systém „přínos“ v tom, že doménu bude možné zadávat a číst včetně diakritiky. Vyzkoušet to lze již nyní na doméně http://háčkyčárky.cz. IDN však nezůstává jen u písmenek s diakritikou – ambice jsou zde daleko větší. V praxi se tak běžně setkáme i s čínsky, japonsky, polsky a rusky psanými doménami.

IDN není rozhodně záležitost posledního roku. Jak vyplývá z předchozího odstavce, otázka speciálních znaků v národní abecedě trápí především východní národy. Například Čína má podporu IDN zavedenou již od prosince 2000, Japonsko od února 2001. Jako první v Evropě byla IDN obdařena polská doména (.pl), a to již v září 2003. O několik měsíců později se pak přidali Švédové a Dánové.

Jak IDN pracuje?

V zásadě je třeba mít na paměti dvě hlavní zkratky. IDN (zmíněná výše) a IDNA (Internationalizing Domain Names in Applications). První označuje domény, které mohou obsahovat všechny znaky z Unicode (tedy v podstatě jakýkoliv dnes existující znak), druhá pak jejich podporu v aplikacích. Problém spočívá v tom, jak našroubovat tuto novou vlastnost na již existující systém DNS, který od svého vzniku počítá jen s ASCII názvy, a který zcela jistě není záhodno v zájmu stability světové sítě zbrkle měnit.

IDNA používá obvyklý trik, který známe už z dřívější doby (například z MIME). Potřebujeme-li do technologie omezené na ASCII znaky (zde DNS) dostat i další znaky, vymyslíme vhodné kódování, kterými je převedeme na (zpravidla delší) ASCII sekvenci.

Převod jména obsahujícího nejprapodivnější znaky probíhá ve třech krocích:

Krok první: http://háčkyčárky.cz - pomocí různého mapování se zredukuje počet znaků a variant (převede na malá písmena a různé varianty vyjádření téhož převede na jednotnou formu). Řetězec zatím zůstává v Unicode.

Krok druhý: Punycode (RFC 3492) převede znaky vybočující z ASCII na sekvence ASCII znaků.

Krok třetí: Před výsledek získaný v druhém kroku se přidá předpona xn--, která identifikuje takto kódovaná jména. Následující zápisy jsou tedy ekvivalentní: http://háčkyčárky.cz = http://xn--hkyrkyptac70bc.cz

Důležitý je fakt, že nic z předchozího se neděje na úrovni DNS. Vše obstarává daná aplikace – v nejčastějším případě www prohlížeč. Pokud tedy do adresního řádku zadáte naši doménu http://háčkyčárky.cz stane se to, že si prohlížeč zavolá funkci ToASCII, která jméno převede do ASCII formátu. Tomuto již DNS rozumí, jelikož v tomto formátu má v sobě daný název domény uložen a získá potřebnou adresu. Pokud název domény začíná na „xn--“ je ještě před načtením samotné stránky zavolána funkce ToUnicode, což způsobí, že se doména znovu přeloží do Unicode podoby, kterou na začátku zadal uživatel a je zobrazena v adresním řádku prohlížeče. Celý tento proces je označován jako IDNA.

Praxe

Jak to tak bývá, praxe se vždy od teorie liší a ani zde to není výjimka. Jelikož „překlad“ adres je prováděn na straně aplikace (webového prohlížeče), nabízí se otázka, jak je to s podporou tohoto překladu? V „minitestu“ IDN kompatibility prohlížečů jsem se zaměřil na dle statistik u nás nejpoužívanější trojici (v pořadí): Internet Explorer 8, Mozilla Firefox 3.5.5 a Google Chrome 3.0.195.
Explorer 8 ani Chrome problémy s překladem nemají. V adresním řádku je vždy vidět Unicode tvar domény.

Potíže jsem však zaznamenal s Firefoxem, který na zadanou adresu: http://stránky.háčkyčárky.cz vrátil jako: http://xn--strnky-r ta.xn--hkyrkyptac70bc.cz. Evidentně tedy neproběhl ToUnicode.

Internet

Lepších výsledků jsem nedosáhl ani s aktuálně poslední betaverzí Firefox 3.6.4 Beta. Nabízí se tedy například otázka: Mám vygenerovaný drahý SSL certifikát od CA pro IDN doménu. Certifikát platí vždy jen pro konkrétní tvar domény. Bude tento platný i při neprovedení akce ToUnicode? Světové certifikační autority již certifikáty pro IDN nabízejí. Na tuto otázku se mi však nepovedlo dohledat uspokojivou odpověď.

Výhody a nevýhody

Zastánci IDN argumentují především snahou o „polidšťování“ internetu a jeho zpřístupnění i lidem ze zemí, kde se standardně nepoužívá latinka. Představitelem typického zastánce IDN v rámci České republiky je podle zatím poslední studie zadané sdružením CZ.NIC z roku 2008 (fyzické osoby):

Žena starší 50 let, žijící v obci s méně než 20 000 obyvateli a pracující s internetem jen sporadicky.

Odpůrci IDN pak nečastěji skloňují:


  • Znepřístupnění česky psaných domén zahraničním návštěvníkům.
  • Otevření obrovského prostoru pro doménové spekulace. Jaký je rozdíl například v těchto tvarech domény: google.cz a googIe.cz? Nápověda: druhá možnost používá v názvu místo písmena „el“ „velké i“ a podobných kombinací je v rámci IDN možno vymyslet statisíce, možná i miliony.
  • Snadnější útoky jako typosquatting – vycházejí z překlepů v názvech domén, kdy jsou následně uživatelé přesměrováni zcela na jiný obsah, nebo je jim naopak podstrčen obsah, který se tváří jako pravý (phishing).

CZ.NIC (sdružení pro správu .CZ domény) se zatím na základě průzkumů pro zavedení IDN nerozhodlo. Více o celé problematice včetně průzkumů a diskuse uživatelů se můžete dočíst zde: http://www.háčkyčárky.cz.

Profil

Jiří Pomazal pracuje na pozici Specialista technické podpory ve společnosti IGNUM. Autor článku se při své práci věnuje převážně řešení dotazů zákazníků v oblasti domén, webhostingu a administraci serverů na platformě Windows a Linux. Vystudoval vyšší odbornou školu v oblasti aplikace výpočetní techniky a ekonomika a momentálně dokončuje studium na VŠ v oboru logistika. Mezi jeho hlavní zájmy patří IT, fotografovaní, hudba a cyklistika. Článek vyšel jako součást elektronického měsíčníku Svět hostingu společnosti IGNUM.

Přečtěte si také:


Blackout: výpadek elektrického vedení možným ohrožením pro přenos firemních dat
Jak vypadá státní dohled nad internetem?
Nostalgické domény
Mikroblogy pro byznys: propagace ve 140 znacích


Komentáře

- #1
- 29. prosinec 2009 15:02

Chování Firefoxu (punny code) je naopak naprosto správné - chrání před phishingem u IDN "nesmyslu".

Petr Komárek #2
Petr Komárek 29. prosinec 2009 23:59

FireFox je zcela v pořádku, to pouze autor nerozumí IDN, přesto si dovolí publikovat ...

Firefox samozřejmě umí pracovat s IDN doménami. Akorát pro neznalé a autora - doména CZ se nenachází na IDN-enabled TLDs u Mozzila found.
Kdyby jste si vyzkoušel nějakou info, tak byste zjistil že to funguje jak má.

Vysvětlení "IDNA" je také dost zmatené a argumentovat googlem zkombinovaným z více jazykových sad může jen zarytý odpůrce IDN i když ví, že tyto kombinace již nejsou v nových IDN doménách povoleny.

K nemožnosti psaní háčků pro zahraniční návštěvníky se již nemá smysl vyjadřovat.


RSS 

Komentujeme

Chatbot mluví za mrtvého – od nápadu k realizaci

Pavel Houser , 30. listopad 2016 13:00
Pavel Houser

Na webu The Verge popsala Casey Newton příběh dvou přátel (Eugenia Kuyda a Roman Mazurenko). Peripet...

Více





Kalendář


RSS 

Zprávičky

Nový škodlivý program ukradl údaje k milionu účtů Google

ČTK , 02. prosinec 2016 14:00

Nový škodlivý program Goolian narušil bezpečnost více než jednoho milionu účtů Google. Šíří se na za...

Více 0 komentářů

Telefony Nokia se příští rok vrátí na trh

ČTK , 02. prosinec 2016 10:30

Chytré telefony se značkou Nokia se objeví zpátky na trhu v příštím roce. Finská společnost Nokia dn...

Více 2 komentářů

CETIN nabídne příští rok operátorům připojení až 250 Mbit/s

ČTK , 01. prosinec 2016 17:00

Společnost Česká telekomunikační infrastruktura (CETIN) zvýší od května příštího roku rychlost inter...

Více 0 komentářů

Starší zprávičky

Akcie Samsungu stouply na nový rekord

ČTK , 01. prosinec 2016 12:00

Akcie jihokorejské společnosti Samsung Electronics dnes stouply o více než čtyři procenta na nový re...

Více 0 komentářů

FBI bude moci s povolením soudu pronikat do jakýchkoli počítačů

ČTK , 01. prosinec 2016 10:30

V americkém Senátu dnes selhal poslední pokus o zablokování rozšířených policejních pravomocí, které...

Více 2 komentářů

Gartner: Prodej tabletů v ČR letos klesne o osm procent na 1,1 mil

ČTK , 30. listopad 2016 14:00

Zájem o tablety letos dále klesá. Prodej tabletů a hybridních notebooků na českém trhu se letos sníž...

Více 0 komentářů

Grafen opracovaný laserem

Pavel Houser , 30. listopad 2016 11:00

Na Iowa State University přišli s další metodou pro tištění grafenových součástek. V tomto případě j...

Více 0 komentářů