一种语言或编码检测的复合方法.pdfVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种语言或编码检测的复合方法

一种语言//编码检测的复合方法// A composite approach to language/encoding detection Shanjian Li(shanjian@), Katsuhiko Momoi(momoi@) Netscape Communications Corp. [注:本文最初发表在第19届国际Unicode会议(19th International Unicode Conference) (San Jose)上。那以后,我们的实现经受住了时间和实际应用的检验,并且还作了许多改进。 一个主要的变化是我们现在使用正序列来检测单字节字符集,参见4.7部分及4.7.1小节。 本文写于通用字符集检测代码集成到Mozilla的主代码中以前(参见第8部分),此后,字符 集检测代码被合并到了Mozilla代码树中。如需查看最新的实现,请到Mozilla的代码树中 查看相应的代码。——作者,2002-11-25。] [译者注:这篇论文讨论了组合三种不同的检测方法来实现自动字符集检测。翻译自Mozilla 的网站。] 1. 概要 1. 概要 11.. 概概要要 本文提供了三种自动检测方法来判定无明显字符集声明的文档的编码。我们 将分别讨论每种方法的优点和缺点,并提供一种复合的、更有效的方法来检测编 码,这样,三种检测方法就可以互为补充。我们认为自动检测在使浏览器用户避 免经常使用编码菜单手动选择编码上很有用,同时在编码菜单很少出现的情况 下,提供了更合理的处理方式。我们假设,文档转化到Unicode对用户是透明的。 无论字符编码采用的是某种Unicode编码还是本地编码,用户仅需知道字符最终 显示是正确的就行了。好的自动编码检测能有效地帮助用户处理大部分编码事项 而无需用户手动参与。 2. 背景 2. 背景 22.. 背背景景 自从进入计算机时代以来,人们创造了许多使用计算机数据表示的编码方案 来表达不同的文字/字符集。随着全球化和Internet的发展,跨语言和区域的信 息交换越来越重要。但是,现存的多种编码方案对此是一个屏障。Unicode提供 了通用的编码解决方案,但是,迄今为止,各种各样的因素使它并没有代替现存 的区域编码方案,尽管W3C和IETF建议使用UTF-8作为缺省编码,比如在XML、 XHTML或RDF中。因此,现今的国际化软件不仅要处理Unicode编码,还要处理 其它多种不同的编码方式。 我们当前的工作是在开发Internet浏览器的环境中开展的。为了处理当前 Web上使用不同编码的各种语言,我们做了许多努力。为了获取正确的显示结果, 浏览器需要利用HTTP服务器返回的编码信息、网页或者最终由用户通过选择编 码菜单而得到的编码方式。不幸的是,此类信息在许多HTTP服务器和网页中是 缺失的。此外,大部分用户没有能力手动地通过编码菜单来进行操作。如果没有 编码信息的话,网页有时就会显示为“垃圾”字符,用户就无法得到他们想要的 信息。这最终会导致用户认为他们的浏览器有故障或者有Bug。 由于越来越多的Internet标准协议指定Unicode作为缺省的编码方式,网 页将会不容置疑地转向使用Unicode来编码。好的通用自动检测方法可以对这种 转向提供重要的贡献,因为它们得工作很自然,无需用户使用编码菜单。在这种 情况下,渐进的转向将会以用户不易察觉的方式进行,这是因为对用户来说,网 页总会正确显示,他们无需考虑使用编码菜单。这种平滑的转变将使编码对用户 来说越来越不需要关注。自动检测在这种场景中将非常关键。 3. 问题范围 3. 问题范围 33.. 问问题题范范围围 3.1 通用模式 3.1 通用模式 33..11 通通用用模模式式 首先让我们从通用的模式开始。对大多数应用,下面的示例将代表一个自动 检测使用的通用框架: 输入数据 - 自动检测器 - 返回结果 应用程序接受自动检测器返回的结果,并且将信息用于不同的用途,如设置 数据编码、显示原始创建者的数据、将它传给其他的程序等等。 本文讨论的自动检测方法将使用Internet浏览器作为应用环境,其他的应 用也可以很容易地移植。 3.2 浏览器和自动检测 3.2 浏览器和自动检测 33..22 浏浏览览器器和和自自动动检检测测 浏览器可以使用某种检测算法来自动检测网页的编码方式。一个程序可以潜 在的在假定不同编码的前提下,对一段文本

文档评论(0)

wnqwwy20 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7014141164000003

1亿VIP精品文档

相关文档