Problemetika IDN a diakritiky u česky psaných domén

Jiří Pomazal, 29. prosinec 2009 06:07 2 komentářů

domena
Zkratka IDN (Internationalized Domain Names) v poslední době značně rozčeřila vody internetu. Rozruch, především u nás, způsobilo hlavně nedávné zavedení .eu IDN domén. O co přesně v IDN jde? Jak pracuje a jaké výhody/nevýhody může přinést nám, českým uživatelům?

Domain

Běžné domény jsou dnes zapisovány v kódování ASCII, což je kódování, se kterým si vystačí všechny znaky anglické abecedy. Myšlenka IDN spočívá v tom, vnést do názvů domén i jiné znaky a umožnit tak všem národům zapisovat a číst názvy domén v jejich mateřštině. Pro Čecha by měl mít tento systém „přínos“ v tom, že doménu bude možné zadávat a číst včetně diakritiky. Vyzkoušet to lze již nyní na doméně http://háčkyčárky.cz. IDN však nezůstává jen u písmenek s diakritikou – ambice jsou zde daleko větší. V praxi se tak běžně setkáme i s čínsky, japonsky, polsky a rusky psanými doménami.

IDN není rozhodně záležitost posledního roku. Jak vyplývá z předchozího odstavce, otázka speciálních znaků v národní abecedě trápí především východní národy. Například Čína má podporu IDN zavedenou již od prosince 2000, Japonsko od února 2001. Jako první v Evropě byla IDN obdařena polská doména (.pl), a to již v září 2003. O několik měsíců později se pak přidali Švédové a Dánové.

Jak IDN pracuje?

V zásadě je třeba mít na paměti dvě hlavní zkratky. IDN (zmíněná výše) a IDNA (Internationalizing Domain Names in Applications). První označuje domény, které mohou obsahovat všechny znaky z Unicode (tedy v podstatě jakýkoliv dnes existující znak), druhá pak jejich podporu v aplikacích. Problém spočívá v tom, jak našroubovat tuto novou vlastnost na již existující systém DNS, který od svého vzniku počítá jen s ASCII názvy, a který zcela jistě není záhodno v zájmu stability světové sítě zbrkle měnit.

IDNA používá obvyklý trik, který známe už z dřívější doby (například z MIME). Potřebujeme-li do technologie omezené na ASCII znaky (zde DNS) dostat i další znaky, vymyslíme vhodné kódování, kterými je převedeme na (zpravidla delší) ASCII sekvenci.

Převod jména obsahujícího nejprapodivnější znaky probíhá ve třech krocích:

Krok první: http://háčkyčárky.cz - pomocí různého mapování se zredukuje počet znaků a variant (převede na malá písmena a různé varianty vyjádření téhož převede na jednotnou formu). Řetězec zatím zůstává v Unicode.

Krok druhý: Punycode (RFC 3492) převede znaky vybočující z ASCII na sekvence ASCII znaků.

Krok třetí: Před výsledek získaný v druhém kroku se přidá předpona xn--, která identifikuje takto kódovaná jména. Následující zápisy jsou tedy ekvivalentní: http://háčkyčárky.cz = http://xn--hkyrkyptac70bc.cz

Důležitý je fakt, že nic z předchozího se neděje na úrovni DNS. Vše obstarává daná aplikace – v nejčastějším případě www prohlížeč. Pokud tedy do adresního řádku zadáte naši doménu http://háčkyčárky.cz stane se to, že si prohlížeč zavolá funkci ToASCII, která jméno převede do ASCII formátu. Tomuto již DNS rozumí, jelikož v tomto formátu má v sobě daný název domény uložen a získá potřebnou adresu. Pokud název domény začíná na „xn--“ je ještě před načtením samotné stránky zavolána funkce ToUnicode, což způsobí, že se doména znovu přeloží do Unicode podoby, kterou na začátku zadal uživatel a je zobrazena v adresním řádku prohlížeče. Celý tento proces je označován jako IDNA.

Praxe

Jak to tak bývá, praxe se vždy od teorie liší a ani zde to není výjimka. Jelikož „překlad“ adres je prováděn na straně aplikace (webového prohlížeče), nabízí se otázka, jak je to s podporou tohoto překladu? V „minitestu“ IDN kompatibility prohlížečů jsem se zaměřil na dle statistik u nás nejpoužívanější trojici (v pořadí): Internet Explorer 8, Mozilla Firefox 3.5.5 a Google Chrome 3.0.195.
Explorer 8 ani Chrome problémy s překladem nemají. V adresním řádku je vždy vidět Unicode tvar domény.

Potíže jsem však zaznamenal s Firefoxem, který na zadanou adresu: http://stránky.háčkyčárky.cz vrátil jako: http://xn--strnky-r ta.xn--hkyrkyptac70bc.cz. Evidentně tedy neproběhl ToUnicode.

Internet

Lepších výsledků jsem nedosáhl ani s aktuálně poslední betaverzí Firefox 3.6.4 Beta. Nabízí se tedy například otázka: Mám vygenerovaný drahý SSL certifikát od CA pro IDN doménu. Certifikát platí vždy jen pro konkrétní tvar domény. Bude tento platný i při neprovedení akce ToUnicode? Světové certifikační autority již certifikáty pro IDN nabízejí. Na tuto otázku se mi však nepovedlo dohledat uspokojivou odpověď.

Výhody a nevýhody

Zastánci IDN argumentují především snahou o „polidšťování“ internetu a jeho zpřístupnění i lidem ze zemí, kde se standardně nepoužívá latinka. Představitelem typického zastánce IDN v rámci České republiky je podle zatím poslední studie zadané sdružením CZ.NIC z roku 2008 (fyzické osoby):

Žena starší 50 let, žijící v obci s méně než 20 000 obyvateli a pracující s internetem jen sporadicky.

Odpůrci IDN pak nečastěji skloňují:


  • Znepřístupnění česky psaných domén zahraničním návštěvníkům.
  • Otevření obrovského prostoru pro doménové spekulace. Jaký je rozdíl například v těchto tvarech domény: google.cz a googIe.cz? Nápověda: druhá možnost používá v názvu místo písmena „el“ „velké i“ a podobných kombinací je v rámci IDN možno vymyslet statisíce, možná i miliony.
  • Snadnější útoky jako typosquatting – vycházejí z překlepů v názvech domén, kdy jsou následně uživatelé přesměrováni zcela na jiný obsah, nebo je jim naopak podstrčen obsah, který se tváří jako pravý (phishing).

CZ.NIC (sdružení pro správu .CZ domény) se zatím na základě průzkumů pro zavedení IDN nerozhodlo. Více o celé problematice včetně průzkumů a diskuse uživatelů se můžete dočíst zde: http://www.háčkyčárky.cz.

Profil

Jiří Pomazal pracuje na pozici Specialista technické podpory ve společnosti IGNUM. Autor článku se při své práci věnuje převážně řešení dotazů zákazníků v oblasti domén, webhostingu a administraci serverů na platformě Windows a Linux. Vystudoval vyšší odbornou školu v oblasti aplikace výpočetní techniky a ekonomika a momentálně dokončuje studium na VŠ v oboru logistika. Mezi jeho hlavní zájmy patří IT, fotografovaní, hudba a cyklistika. Článek vyšel jako součást elektronického měsíčníku Svět hostingu společnosti IGNUM.

Přečtěte si také:


Blackout: výpadek elektrického vedení možným ohrožením pro přenos firemních dat
Jak vypadá státní dohled nad internetem?
Nostalgické domény
Mikroblogy pro byznys: propagace ve 140 znacích


Komentáře

- #1
- 29. prosinec 2009 15:02

Chování Firefoxu (punny code) je naopak naprosto správné - chrání před phishingem u IDN "nesmyslu".

Petr Komárek #2
Petr Komárek 29. prosinec 2009 23:59

FireFox je zcela v pořádku, to pouze autor nerozumí IDN, přesto si dovolí publikovat ...

Firefox samozřejmě umí pracovat s IDN doménami. Akorát pro neznalé a autora - doména CZ se nenachází na IDN-enabled TLDs u Mozzila found.
Kdyby jste si vyzkoušel nějakou info, tak byste zjistil že to funguje jak má.

Vysvětlení "IDNA" je také dost zmatené a argumentovat googlem zkombinovaným z více jazykových sad může jen zarytý odpůrce IDN i když ví, že tyto kombinace již nejsou v nových IDN doménách povoleny.

K nemožnosti psaní háčků pro zahraniční návštěvníky se již nemá smysl vyjadřovat.

RSS 

Komentujeme

V datových centrech už nejde o Windows?

Pavel Houser , 22. březen 2017 12:47
Pavel Houser

Trevor Pott si na The Register pokládá otázku o budoucnosti serverových Windows na platformě ARM. ...

Více






RSS 

Zprávičky

Vloni bylo pravidelně na internetu 77 % Čechů

ITBiz.cz , 28. březen 2017 17:00

V roce 2016 používalo internet 6,7 miliónu obyvatel České republiky starších 16 let, tj. 76,5 %. Ve ...

Více 0 komentářů

Microsoft v Evropě investoval do datových center tři miliardy USD

ČTK , 28. březen 2017 15:30

Americká softwarová firma Microsoft investovala v Evropě do datových center a další infrastruktury, ...

Více 0 komentářů

T-Mobile od dubna nabídne nové neomezené tarify s více daty

ČTK , 28. březen 2017 13:24

Mobilní operátor T-Mobile od 2. dubna nabídne novou řadu neomezených tarifů se zvýšeným objemem dat....

Více 0 komentářů

Starší zprávičky

XS3200: nové úložné systémy SAN pro firmy

Pavel Houser , 28. březen 2017 13:00

Nová řada společnosti QSAN nabízí až 26 hotswap pozic SFF 2,5“ v 2U rack skříni....

Více 0 komentářů

Co Češi objednávají nejčastěji online

ITBiz.cz , 28. březen 2017 11:00

Oblečení, kosmetika a knihy. To jsou tři nejpopulárnější druhy zboží, jak je na internetu nakupují ž...

Více 0 komentářů

Brněnští vývojáři Konica Minolta testují metodiku scrum

Pavel Houser , 28. březen 2017 08:00

Moderní metodiky očekávají vysokou míru automatizace, která začíná už při psaní kódu....

Více 0 komentářů

Do Prahy dnes poprvé přijede šéf Microsoftu Satya Nadella

ČTK , 28. březen 2017 07:00

Nadella do české metropole přijede poprvé v roli výkonného ředitele firmy. ...

Více 0 komentářů