语言编码检测的复合方法.docxVIP

  • 3
  • 0
  • 约1.25万字
  • 约 12页
  • 2017-11-17 发布于河南
  • 举报
语言编码检测的复合方法

一种语言/编码检测的复合方法1. 概要本文提供了三种自动检测方法来判定无明显字符集声明的文档的编码。我们将分别讨论每种方法的优点和缺点,并提供一种复合的、更有效的方法来检测编码,这样,三种检测方法就可以互为补充。我们认为自动检测在使浏览器用户避免经常使用编码菜单手动选择编码上很有用,同时在编码菜单很少出现的情况下,提供了更合理的处理方式。我们假设,文档转化到Unicode 对用户是透明的。无论字符编码采用的是某种Unicode 编码还是本地编码,用户仅需知道字符最终显示是正确的就行了。好的自动编码检测能有效地帮助用户处理大部分编码事项而无需用户手动参与。2. 背景自从进入计算机时代以来,人们创造了许多使用计算机数据表示的编码方案来表达不同的文字/字符集。随着全球化和Internet 的发展,跨语言和区域的信息交换越来越重要。但是,现存的多种编码方案对此是一个屏障。Unicode 提供了通用的编码解决方案,但是,迄今为止,各种各样的因素使它并没有代替现存的区域编码方案,尽管W3C 和IETF 建议使用UTF-8 作为缺省编码,比如在XML、XHTML 或RDF 中。因此,现今的国际化软件不仅要处理Unicode 编码,还要处理其它多种不同的编码方式。我们当前的工作是在开发Internet 浏览器的环境中开展的。为了处理当前Web 上使用不同编码的各种语言,我们做了许多努力。为了获取正

文档评论(0)

1亿VIP精品文档

相关文档