icann社群如何协助构建一个囊括更多语言的互联网-尊龙体育官网

@isc.org.cn

当前位置

尊龙体育官网-尊龙凯时app> 中文域名> 技术标准

2023年09月06日 10:00

icann 的使命在于确保全球互联网的稳定、安全与统一。但为一个全球性互联网提供支持究竟需要哪些内容呢?世界上大多数人的第一语言并不是英语,也不是只用字母"a"到"z"书写自己的语言。事实上,只有略多于三分之一的世界人口使用拉丁文字符,而使用字母"a"到"z"的人口数量则更少。

为了方便全球多样的用户使用互联网和域名系统 (domain name system, dns),本社群多年来一直致力于引进国际化域名 (internationalized domain names, idn)。idn 使世界各地的人们能够使用由当地语言和文字构成的域名,例如:阿拉伯文、中文、西里尔文、梵文、泰国语等等。

启用一个完整的 idn,包括顶级域名 (top-level domain, tld) 标签,是一个复杂而耗时的流程,icann 则会帮助协调这个流程。该流程的一部分是开发一套统一且透明的机制,从而确定有效的 idn 顶级域标签及其在全球社群使用的不同文字中的变体标签。在过去的八年中,各种语言文字社群都成立了生成专家组 (generation panels, gp)。这类专家组由 dns 和语言和文字专家组成,他们共同编制必要规则,采用稳妥和安全的方式使用各自文字构成顶级域。这些规则是通过根区标签生成规则 (root zone label generation rules, rz-lgr) 程序而编制的,目前社群正在考虑将该程序作为验证下一轮新通用顶级域 (generic top-level domains, gtld) 和国家和地区顶级域 (country code top-level domains, cctld) 的机制,并定义各种文字的变体标签。

本周晚些时候,第五版《根区标签生成规则》(rz-lgr-5) 将公开征求公众意见,该版本整合了总共 26 种文字。这些文字被用来书写世界各地的数百种语言。这是一项卓著的成就,也是多利益相关方模型发挥作用的切实证明。icann 组织对支持语言文字社群的这些工作倍感自豪,因为 rz-lgr 是一个重要的工具,可用于使人们更广泛地访问全球多语言的互联网。

rz-lgr-5 将囊括现有活跃的 gp 的所有工作,在这个版本即将发布之际,我想花点时间表彰他们做出的无私奉献,并庆祝他们取得的卓越成就。自 2014 年第一个 gp 成立以来,该社群已经:

创建了 17 个涵盖 26 种文字的 gp 专家组

吸引了 270 多名语言文字社群志愿者的参与

志愿者们共工作了 10,000 多小时

(截至目前)lgr 提案所涵盖并定稿的 26 种独特文字包括:阿拉伯文、亚美尼亚语、孟加拉文、中文(汉字)、西里尔文、梵文、埃塞俄比亚语、格鲁吉亚文、希腊文、古吉拉特文、果鲁穆奇文、希伯来文、日语(平假名、片假名、日文汉字[汉字])、埃纳德文、高棉语、韩文(朝鲜文和韩文汉字[汉字])、老挝语、拉丁文、马来亚拉姆文、缅甸文、奥里雅语、僧伽罗文、泰米尔文、泰卢固文和泰国语。

gp 轶事:

每个 gp 通常由 7 至 15 名志愿成员组成,但根据 gp 的组织方式,成员人数可以更多。

最大的 gp 是新婆罗米文生成专家组。该专家组有来自孟加拉、印度、尼泊尔、斯里兰卡和新加坡的 66 名成员构成,涵盖了 9 种文字。

首个 gp,即阿拉伯文 gp,成立于 2014 年。

gp 工作支持的语言总数:386 种以上

gp 成员代表的国家总数:44 个

迄今为止,为编制 rz-lgr 而进行的 icann 公共评议期的数量:30 次以上

icann 组织将继续支持其他语言文字社群在 rz-lgr 程序的基础上组建 gp。

gp 究竟要做哪些工作,他们的工作为何如此重要?请查看下文了解详情。

gp 的工作有哪些?

在 idn 中启用不同文字有什么复杂之处?由于世界各地使用的文字和书写系统的性质不同,一些文字需要语境规则来形成一个不会造成问题的标签。有时候,语言文字用户可能认为是相同的字符,但实际上却是不同字符时,则可能造成终端用户的混淆,这种情况被称为变体【例如,"a"——拉丁文的小写字母 a(u 0061) 和"а"——西里尔文的小写字母 a(u 0430)】的情况。在某些文字中,变体标签被用来促进 idn 的可用性,例如在简体中文和繁体中文中,变体标签需要具有可分配性(be allocatable)。

gp的任务是制定关于字汇、变体码点和标签形成的一套规则。gp是由志愿者组成的,包括对当地文化、习俗和惯例有深刻了解的语言文字社群代表和语言学专家们。他们还囊括了熟悉注册管理机构和注册服务机构运作的人员,以及政策和 dns 专家们。每个 gp 的主要目标是:

列出用于特定文字的域名的字符短清单。

确定需要被视为"相同"或变体的码点,以减少终端用户的混淆并支持可用性。

定义特定文字的规则,以避免产生安全问题。

以下是一个 gp 应对安全问题的范例:

upfile

*如 chrome 浏览器地址栏所示。mac 电脑 chrome 版本 97.0.4692.71 (官方版)(x86_64)

在这个例子中,案例 1 和案例 2 的码点序列不同,但它们的视觉效果是一样的。案例 1 有一个双组合的波形符号 (u 0303 u 0303),而案例 2 只有一个 (u 0303)。而处理这个问题的拉丁文 rz-lgr 提案并不包括 u 0303 作为一个单一码位,因此,由于这种潜在安全问题,案例 1 是不成立的。

这项工作需要花费多长时间?

gp 可能需要长达数年的时间来最终确定一套文字提案。文字提案一旦编写完成,则将启动公共评议期,然后则由语言学、unicode、dns 和 idn 方面的专家组成的整合专家组进行审议。在审议之后,整合专家组会将文字提案逐步整合到 rz-lgr 之中。更新后的 rz-lgr 将再次发布,以征求公众意见,并在最终出版前验证整合过程。

为什么这项工作很重要?

dns,尤其是根区,是一种共享的全球资源。为了建立一个更加包容和安全的多语言互联网,即为全世界人民服务的互联网,我们需要以谨慎保守的态度推进互联网对文字的支持,和最终对 idn 的支持。如果没有过去八年来所有 gp 和整合专家组成员的综合知识和无私奉献,多语言互联网就不可能成为现实。各 gp 为正确使用文字奠定了基础,平衡了不同文字的域名的可用性和安全性。

我谨代表 icann 组织再次感谢世界各地参与 gp 的所有社群成员和参与者们在这项努力中给予的帮助。

upfile

文章来源:icann北京合作中心


2011-2019 尊龙凯时app copyrights reserved 尊龙体育官网的版权所有:中国互联网协会
尊龙凯时app的技术支持:北京圣明慧力科技有限公司

网站地图