Problemetika IDN a diakritiky u česky psaných domén

Jiří Pomazal, 29. prosinec 2009 06:07 2 komentářů

domena
Zkratka IDN (Internationalized Domain Names) v poslední době značně rozčeřila vody internetu. Rozruch, především u nás, způsobilo hlavně nedávné zavedení .eu IDN domén. O co přesně v IDN jde? Jak pracuje a jaké výhody/nevýhody může přinést nám, českým uživatelům?

Domain

Běžné domény jsou dnes zapisovány v kódování ASCII, což je kódování, se kterým si vystačí všechny znaky anglické abecedy. Myšlenka IDN spočívá v tom, vnést do názvů domén i jiné znaky a umožnit tak všem národům zapisovat a číst názvy domén v jejich mateřštině. Pro Čecha by měl mít tento systém „přínos“ v tom, že doménu bude možné zadávat a číst včetně diakritiky. Vyzkoušet to lze již nyní na doméně http://háčkyčárky.cz. IDN však nezůstává jen u písmenek s diakritikou – ambice jsou zde daleko větší. V praxi se tak běžně setkáme i s čínsky, japonsky, polsky a rusky psanými doménami.

IDN není rozhodně záležitost posledního roku. Jak vyplývá z předchozího odstavce, otázka speciálních znaků v národní abecedě trápí především východní národy. Například Čína má podporu IDN zavedenou již od prosince 2000, Japonsko od února 2001. Jako první v Evropě byla IDN obdařena polská doména (.pl), a to již v září 2003. O několik měsíců později se pak přidali Švédové a Dánové.

Jak IDN pracuje?

V zásadě je třeba mít na paměti dvě hlavní zkratky. IDN (zmíněná výše) a IDNA (Internationalizing Domain Names in Applications). První označuje domény, které mohou obsahovat všechny znaky z Unicode (tedy v podstatě jakýkoliv dnes existující znak), druhá pak jejich podporu v aplikacích. Problém spočívá v tom, jak našroubovat tuto novou vlastnost na již existující systém DNS, který od svého vzniku počítá jen s ASCII názvy, a který zcela jistě není záhodno v zájmu stability světové sítě zbrkle měnit.

IDNA používá obvyklý trik, který známe už z dřívější doby (například z MIME). Potřebujeme-li do technologie omezené na ASCII znaky (zde DNS) dostat i další znaky, vymyslíme vhodné kódování, kterými je převedeme na (zpravidla delší) ASCII sekvenci.

Převod jména obsahujícího nejprapodivnější znaky probíhá ve třech krocích:

Krok první: http://háčkyčárky.cz - pomocí různého mapování se zredukuje počet znaků a variant (převede na malá písmena a různé varianty vyjádření téhož převede na jednotnou formu). Řetězec zatím zůstává v Unicode.

Krok druhý: Punycode (RFC 3492) převede znaky vybočující z ASCII na sekvence ASCII znaků.

Krok třetí: Před výsledek získaný v druhém kroku se přidá předpona xn--, která identifikuje takto kódovaná jména. Následující zápisy jsou tedy ekvivalentní: http://háčkyčárky.cz = http://xn--hkyrkyptac70bc.cz

Důležitý je fakt, že nic z předchozího se neděje na úrovni DNS. Vše obstarává daná aplikace – v nejčastějším případě www prohlížeč. Pokud tedy do adresního řádku zadáte naši doménu http://háčkyčárky.cz stane se to, že si prohlížeč zavolá funkci ToASCII, která jméno převede do ASCII formátu. Tomuto již DNS rozumí, jelikož v tomto formátu má v sobě daný název domény uložen a získá potřebnou adresu. Pokud název domény začíná na „xn--“ je ještě před načtením samotné stránky zavolána funkce ToUnicode, což způsobí, že se doména znovu přeloží do Unicode podoby, kterou na začátku zadal uživatel a je zobrazena v adresním řádku prohlížeče. Celý tento proces je označován jako IDNA.

Praxe

Jak to tak bývá, praxe se vždy od teorie liší a ani zde to není výjimka. Jelikož „překlad“ adres je prováděn na straně aplikace (webového prohlížeče), nabízí se otázka, jak je to s podporou tohoto překladu? V „minitestu“ IDN kompatibility prohlížečů jsem se zaměřil na dle statistik u nás nejpoužívanější trojici (v pořadí): Internet Explorer 8, Mozilla Firefox 3.5.5 a Google Chrome 3.0.195.
Explorer 8 ani Chrome problémy s překladem nemají. V adresním řádku je vždy vidět Unicode tvar domény.

Potíže jsem však zaznamenal s Firefoxem, který na zadanou adresu: http://stránky.háčkyčárky.cz vrátil jako: http://xn--strnky-r ta.xn--hkyrkyptac70bc.cz. Evidentně tedy neproběhl ToUnicode.

Internet

Lepších výsledků jsem nedosáhl ani s aktuálně poslední betaverzí Firefox 3.6.4 Beta. Nabízí se tedy například otázka: Mám vygenerovaný drahý SSL certifikát od CA pro IDN doménu. Certifikát platí vždy jen pro konkrétní tvar domény. Bude tento platný i při neprovedení akce ToUnicode? Světové certifikační autority již certifikáty pro IDN nabízejí. Na tuto otázku se mi však nepovedlo dohledat uspokojivou odpověď.

Výhody a nevýhody

Zastánci IDN argumentují především snahou o „polidšťování“ internetu a jeho zpřístupnění i lidem ze zemí, kde se standardně nepoužívá latinka. Představitelem typického zastánce IDN v rámci České republiky je podle zatím poslední studie zadané sdružením CZ.NIC z roku 2008 (fyzické osoby):

Žena starší 50 let, žijící v obci s méně než 20 000 obyvateli a pracující s internetem jen sporadicky.

Odpůrci IDN pak nečastěji skloňují:


  • Znepřístupnění česky psaných domén zahraničním návštěvníkům.
  • Otevření obrovského prostoru pro doménové spekulace. Jaký je rozdíl například v těchto tvarech domény: google.cz a googIe.cz? Nápověda: druhá možnost používá v názvu místo písmena „el“ „velké i“ a podobných kombinací je v rámci IDN možno vymyslet statisíce, možná i miliony.
  • Snadnější útoky jako typosquatting – vycházejí z překlepů v názvech domén, kdy jsou následně uživatelé přesměrováni zcela na jiný obsah, nebo je jim naopak podstrčen obsah, který se tváří jako pravý (phishing).

CZ.NIC (sdružení pro správu .CZ domény) se zatím na základě průzkumů pro zavedení IDN nerozhodlo. Více o celé problematice včetně průzkumů a diskuse uživatelů se můžete dočíst zde: http://www.háčkyčárky.cz.

Profil

Jiří Pomazal pracuje na pozici Specialista technické podpory ve společnosti IGNUM. Autor článku se při své práci věnuje převážně řešení dotazů zákazníků v oblasti domén, webhostingu a administraci serverů na platformě Windows a Linux. Vystudoval vyšší odbornou školu v oblasti aplikace výpočetní techniky a ekonomika a momentálně dokončuje studium na VŠ v oboru logistika. Mezi jeho hlavní zájmy patří IT, fotografovaní, hudba a cyklistika. Článek vyšel jako součást elektronického měsíčníku Svět hostingu společnosti IGNUM.

Přečtěte si také:


Blackout: výpadek elektrického vedení možným ohrožením pro přenos firemních dat
Jak vypadá státní dohled nad internetem?
Nostalgické domény
Mikroblogy pro byznys: propagace ve 140 znacích


Komentáře

- #1
- 29. prosinec 2009 15:02

Chování Firefoxu (punny code) je naopak naprosto správné - chrání před phishingem u IDN "nesmyslu".

Petr Komárek #2
Petr Komárek 29. prosinec 2009 23:59

FireFox je zcela v pořádku, to pouze autor nerozumí IDN, přesto si dovolí publikovat ...

Firefox samozřejmě umí pracovat s IDN doménami. Akorát pro neznalé a autora - doména CZ se nenachází na IDN-enabled TLDs u Mozzila found.
Kdyby jste si vyzkoušel nějakou info, tak byste zjistil že to funguje jak má.

Vysvětlení "IDNA" je také dost zmatené a argumentovat googlem zkombinovaným z více jazykových sad může jen zarytý odpůrce IDN i když ví, že tyto kombinace již nejsou v nových IDN doménách povoleny.

K nemožnosti psaní háčků pro zahraniční návštěvníky se již nemá smysl vyjadřovat.

RSS 

Komentujeme

Jak srovnávali jablka s hruškami

Pavel Houser , 27. květen 2017 14:30
Pavel Houser

Absurdní patent či ochranná známka, respektive absurdní výsledek sporu? A že je hloupost srovnávat j...

Více





RSS 

Zprávičky

Výdaje na reklamu na webech v dubnu stouply na 652 milionů Kč

ČTK , 27. květen 2017 09:04

Seznam získal 240 milionů, Mafra inkasovala 118 milionů a Economia 76 milionů korun....

Více 0 komentářů

Dell EMC podporuje transformaci IT s novými produkty pro open networking

Pavel Houser , 26. květen 2017 14:46

Přepínače Dell EMC pro Open Networking tvoří spolu se servery PowerEdge čtrnácté generace a špičkový...

Více 0 komentářů

Hodnota bitcoinu stoupla na nový rekord přes 2400 dolarů

ČTK , 26. květen 2017 09:23

K růstu bitcoinu přispívá příliv nového kapitálu a růst poptávky po dalších digitálních měnách....

Více 0 komentářů

Starší zprávičky

Tři zranitelnosti a opravy: Samba, Joomla, videopřehrávače

Pavel Houser , 25. květen 2017 16:30

Vektorem útoku může být i soubor s titulky....

Více 0 komentářů

Lenovo opět v zisku

ČTK , 25. květen 2017 15:32

Lenovo se snaží omezit svou závislost na trhu s PC a rozšiřuje aktivity v oblasti chytrých telefonů ...

Více 0 komentářů

Zákon o elektronické identifikaci Sněmovna asi schválí beze změn

ČTK , 25. květen 2017 09:00

Jedním z cílů nových občanských průkazů je poskytnout držitelům elektronický podpis....

Více 0 komentářů

PayPal rozšiřuje ochranu prodejců v ČR

Pavel Houser , 25. květen 2017 08:00

Tento program se dříve v České republice vztahoval jen na hmotné zboží, nyní se rozšiřuje i o služby...

Více 1 komentářů