Problemetika IDN a diakritiky u česky psaných domén

Jiří Pomazal, 29. prosinec 2009 06:07 2 komentářů

domena
Zkratka IDN (Internationalized Domain Names) v poslední době značně rozčeřila vody internetu. Rozruch, především u nás, způsobilo hlavně nedávné zavedení .eu IDN domén. O co přesně v IDN jde? Jak pracuje a jaké výhody/nevýhody může přinést nám, českým uživatelům?

Domain

Běžné domény jsou dnes zapisovány v kódování ASCII, což je kódování, se kterým si vystačí všechny znaky anglické abecedy. Myšlenka IDN spočívá v tom, vnést do názvů domén i jiné znaky a umožnit tak všem národům zapisovat a číst názvy domén v jejich mateřštině. Pro Čecha by měl mít tento systém „přínos“ v tom, že doménu bude možné zadávat a číst včetně diakritiky. Vyzkoušet to lze již nyní na doméně http://háčkyčárky.cz. IDN však nezůstává jen u písmenek s diakritikou – ambice jsou zde daleko větší. V praxi se tak běžně setkáme i s čínsky, japonsky, polsky a rusky psanými doménami.

IDN není rozhodně záležitost posledního roku. Jak vyplývá z předchozího odstavce, otázka speciálních znaků v národní abecedě trápí především východní národy. Například Čína má podporu IDN zavedenou již od prosince 2000, Japonsko od února 2001. Jako první v Evropě byla IDN obdařena polská doména (.pl), a to již v září 2003. O několik měsíců později se pak přidali Švédové a Dánové.

Jak IDN pracuje?

V zásadě je třeba mít na paměti dvě hlavní zkratky. IDN (zmíněná výše) a IDNA (Internationalizing Domain Names in Applications). První označuje domény, které mohou obsahovat všechny znaky z Unicode (tedy v podstatě jakýkoliv dnes existující znak), druhá pak jejich podporu v aplikacích. Problém spočívá v tom, jak našroubovat tuto novou vlastnost na již existující systém DNS, který od svého vzniku počítá jen s ASCII názvy, a který zcela jistě není záhodno v zájmu stability světové sítě zbrkle měnit.

IDNA používá obvyklý trik, který známe už z dřívější doby (například z MIME). Potřebujeme-li do technologie omezené na ASCII znaky (zde DNS) dostat i další znaky, vymyslíme vhodné kódování, kterými je převedeme na (zpravidla delší) ASCII sekvenci.

Převod jména obsahujícího nejprapodivnější znaky probíhá ve třech krocích:

Krok první: http://háčkyčárky.cz - pomocí různého mapování se zredukuje počet znaků a variant (převede na malá písmena a různé varianty vyjádření téhož převede na jednotnou formu). Řetězec zatím zůstává v Unicode.

Krok druhý: Punycode (RFC 3492) převede znaky vybočující z ASCII na sekvence ASCII znaků.

Krok třetí: Před výsledek získaný v druhém kroku se přidá předpona xn--, která identifikuje takto kódovaná jména. Následující zápisy jsou tedy ekvivalentní: http://háčkyčárky.cz = http://xn--hkyrkyptac70bc.cz

Důležitý je fakt, že nic z předchozího se neděje na úrovni DNS. Vše obstarává daná aplikace – v nejčastějším případě www prohlížeč. Pokud tedy do adresního řádku zadáte naši doménu http://háčkyčárky.cz stane se to, že si prohlížeč zavolá funkci ToASCII, která jméno převede do ASCII formátu. Tomuto již DNS rozumí, jelikož v tomto formátu má v sobě daný název domény uložen a získá potřebnou adresu. Pokud název domény začíná na „xn--“ je ještě před načtením samotné stránky zavolána funkce ToUnicode, což způsobí, že se doména znovu přeloží do Unicode podoby, kterou na začátku zadal uživatel a je zobrazena v adresním řádku prohlížeče. Celý tento proces je označován jako IDNA.

Praxe

Jak to tak bývá, praxe se vždy od teorie liší a ani zde to není výjimka. Jelikož „překlad“ adres je prováděn na straně aplikace (webového prohlížeče), nabízí se otázka, jak je to s podporou tohoto překladu? V „minitestu“ IDN kompatibility prohlížečů jsem se zaměřil na dle statistik u nás nejpoužívanější trojici (v pořadí): Internet Explorer 8, Mozilla Firefox 3.5.5 a Google Chrome 3.0.195.
Explorer 8 ani Chrome problémy s překladem nemají. V adresním řádku je vždy vidět Unicode tvar domény.

Potíže jsem však zaznamenal s Firefoxem, který na zadanou adresu: http://stránky.háčkyčárky.cz vrátil jako: http://xn--strnky-r ta.xn--hkyrkyptac70bc.cz. Evidentně tedy neproběhl ToUnicode.

Internet

Lepších výsledků jsem nedosáhl ani s aktuálně poslední betaverzí Firefox 3.6.4 Beta. Nabízí se tedy například otázka: Mám vygenerovaný drahý SSL certifikát od CA pro IDN doménu. Certifikát platí vždy jen pro konkrétní tvar domény. Bude tento platný i při neprovedení akce ToUnicode? Světové certifikační autority již certifikáty pro IDN nabízejí. Na tuto otázku se mi však nepovedlo dohledat uspokojivou odpověď.

Výhody a nevýhody

Zastánci IDN argumentují především snahou o „polidšťování“ internetu a jeho zpřístupnění i lidem ze zemí, kde se standardně nepoužívá latinka. Představitelem typického zastánce IDN v rámci České republiky je podle zatím poslední studie zadané sdružením CZ.NIC z roku 2008 (fyzické osoby):

Žena starší 50 let, žijící v obci s méně než 20 000 obyvateli a pracující s internetem jen sporadicky.

Odpůrci IDN pak nečastěji skloňují:


  • Znepřístupnění česky psaných domén zahraničním návštěvníkům.
  • Otevření obrovského prostoru pro doménové spekulace. Jaký je rozdíl například v těchto tvarech domény: google.cz a googIe.cz? Nápověda: druhá možnost používá v názvu místo písmena „el“ „velké i“ a podobných kombinací je v rámci IDN možno vymyslet statisíce, možná i miliony.
  • Snadnější útoky jako typosquatting – vycházejí z překlepů v názvech domén, kdy jsou následně uživatelé přesměrováni zcela na jiný obsah, nebo je jim naopak podstrčen obsah, který se tváří jako pravý (phishing).

CZ.NIC (sdružení pro správu .CZ domény) se zatím na základě průzkumů pro zavedení IDN nerozhodlo. Více o celé problematice včetně průzkumů a diskuse uživatelů se můžete dočíst zde: http://www.háčkyčárky.cz.

Profil

Jiří Pomazal pracuje na pozici Specialista technické podpory ve společnosti IGNUM. Autor článku se při své práci věnuje převážně řešení dotazů zákazníků v oblasti domén, webhostingu a administraci serverů na platformě Windows a Linux. Vystudoval vyšší odbornou školu v oblasti aplikace výpočetní techniky a ekonomika a momentálně dokončuje studium na VŠ v oboru logistika. Mezi jeho hlavní zájmy patří IT, fotografovaní, hudba a cyklistika. Článek vyšel jako součást elektronického měsíčníku Svět hostingu společnosti IGNUM.

Přečtěte si také:


Blackout: výpadek elektrického vedení možným ohrožením pro přenos firemních dat
Jak vypadá státní dohled nad internetem?
Nostalgické domény
Mikroblogy pro byznys: propagace ve 140 znacích


Komentáře

- #1
- 29. prosinec 2009 15:02

Chování Firefoxu (punny code) je naopak naprosto správné - chrání před phishingem u IDN "nesmyslu".

Petr Komárek #2
Petr Komárek 29. prosinec 2009 23:59

FireFox je zcela v pořádku, to pouze autor nerozumí IDN, přesto si dovolí publikovat ...

Firefox samozřejmě umí pracovat s IDN doménami. Akorát pro neznalé a autora - doména CZ se nenachází na IDN-enabled TLDs u Mozzila found.
Kdyby jste si vyzkoušel nějakou info, tak byste zjistil že to funguje jak má.

Vysvětlení "IDNA" je také dost zmatené a argumentovat googlem zkombinovaným z více jazykových sad může jen zarytý odpůrce IDN i když ví, že tyto kombinace již nejsou v nových IDN doménách povoleny.

K nemožnosti psaní háčků pro zahraniční návštěvníky se již nemá smysl vyjadřovat.

RSS 

Komentujeme

Bezpečnost IT a tygří logika

Pavel Houser , 14. únor 2017 11:00
Pavel Houser

Jak praví známý vtip, běží-li za vámi tygr, netřeba se pohybovat rychleji než šelma – stačí předběhn...

Více






Kalendář

22. 02. IT mezi paragrafy
20. 03.

24. 03.
CeBIT 2017
25. 03. INSPO 2017
RSS 

Zprávičky

Jen desetina SMB firem těží z digitální transformace

ITBiz.cz , 21. únor 2017 09:00

Studie IDC a SAP ukázala, že čtyři z pěti SMB firem vidí v digitální transformaci značné výhody včet...

Více 0 komentářů

Trump si nechal registrovat tisíce internetových domén

ČTK , 21. únor 2017 08:30

Málokterá veřejná osoba je tak aktivní ve skupování internetových domén jako americký prezident Dona...

Více 2 komentářů

Mall Group ovládla internetový obchod s elektrem CZC.cz

ČTK , 20. únor 2017 16:39

Skupina Mall Group se stala jediným vlastníkem e-shopu CZC.cz. Od zakladatele obchodu Josefa Matějky...

Více 2 komentářů

Starší zprávičky

Eurowag dokončil akvizici firmy Princip

Pavel Houser , 20. únor 2017 16:12

W.A.G. payment solutions proniká na trh telematických služeb....

Více 0 komentářů

Samsung zpřístupňuje nové čipy 5G RFIC

Pavel Houser , 20. únor 2017 16:01

Čip dokáže poskytnout větší pokrytí v pásmu milimetrových vln (mmWave)....

Více 0 komentářů

Soud povolil vydání Dotcoma do USA, ten se znovu odvolá

ČTK , 20. únor 2017 12:00

Novozélandský soud zamítl odvolání internetového magnáta německého původu Kima Dotcoma proti jeho vy...

Více 0 komentářů

OBSE nezjistila, kdo loni napadl její servery

ČTK , 20. únor 2017 07:00

Organizace pro bezpečnost a spolupráci v Evropě (OBSE) nedokáže identifikovat strůjce loňských hacke...

Více 0 komentářů

AbcPráce