一种基于Web 数据挖掘构建中英双语对照翻译语料库的方法.pdfVIP

下载本文档

23
0
约7.74千字
约 6页
2015-09-06 发布于重庆
举报
版权申诉

一种基于Web 数据挖掘构建中英双语对照翻译语料库的方法.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于Web 数据挖掘构建中英双语对照翻译语料库的方法

一种基于Web 数据挖掘构建中英双语对照翻译语料库的方法刘东飞，周星武汉理工大学计算机科学与技术学院，湖北武汉(430070) E-mail: 摘要：本文介绍了一种基于 Web 数据挖掘构建中英双语对照翻译语料库的方法，通过网络爬虫技术，搜集海量网页数据，并进行一系列复杂的净化、分析等过程识别含有中英文对照翻译的双页文本，并对双页文本进行DOM 结构分析，提取中英文翻译平行语料，存入数据库。该语料库由机器自动积累，效率较高，翻译内容均来自互联网，数据量大且相对准确，能够为机器翻译提供良好的数据参考。关键词：Web 数据挖掘；翻译；搜索引擎；双语识别中图分类号：TP311.52 1 引言随着我国经济与对外交流的不断发展，翻译市场规模迅速扩大，利用计算机软件等辅助翻译工具越来越受到用户的青睐。目前，机器翻译领域的方法大致可以分为两大类，分别是基于规则的方法和基于语料库的方法。基于规则的机器翻译最大的难题就是语言歧义的消解；基于语料库是采取翻译记忆的模式，用户利用已有的原文和译文，建立起一个或多个语料库，在翻译过程中，系统自动搜索库中相同或相似的翻译资源，并给出参考译文，该方法逐渐打破了语言歧义在翻译领域的瓶颈，因此，构造平行语料库成为当前机器翻译的热点[1]。构造平行语料库是对原始语料首先进行人工预处理，主要包括固定编排、统一格式、消除噪声等工作，然后再用句子对齐算法处理，构建语料库。该方法并非自动积累，需要人工干预，效率不高[1]。因此，能否寻求一种方法，通过机器自动积累语料，成了我们迫切需要解决的问题。 “双语辅助翻译搜索引擎”是我们设计并实现了的一个项目，该项目主要通过 Web 数据挖掘技术，对原始网页进行一系列复杂的识别、匹配、索引等步骤构建出中英双语平行语料库，本文将围绕该项目中关于网页识别和提取双语对照语料的具体细节作详细介绍。 2 web 数据挖掘在高速发展的网络信息时代，万维网已经形成一个巨大的知识数据库，如何在该数据库中提取具有某种价值的相关资料，并构建知识积累，是web 数据挖掘解决的核心问题[2]。基于web 的数据挖掘，不但要充分利用web 文档的内容，而且需要充分利用web 上的资源以及彼此之间的关系。web 数据挖掘一般分为3 类[2]：web 内容挖掘、web 结构挖掘和 Web 使用挖掘（如图 1）。第一类主要是针对数据内容的提取；而结构挖掘则用来判断与请求信息的匹配度，如HITS 算法和Page Rank 算法便是该类挖掘的典型应用；Web 使用挖掘主要致力于数据挖掘智能性及个性化的研究。由于“双语辅助翻译搜索引擎”主要集中在构建语料库方面，因此，我们仅对内容挖掘展开论述。 - 1 - 图1 web 数据挖掘分类[3] Web 上存在大量的无结构和半结构化的文档，大部分的半结构化文档都有助于数据挖掘，Web 内容挖掘采取的策略主要有网页摘要法和搜索引擎结果摘要法，网页摘要法直接挖掘文档内容，从结构化文档、超文本以及半结构化的文档中获取信息[3]；搜索引擎结果摘要法通过网络蜘蛛抓取文档，并收集如 URL 、标题、文件类型、长度、修改日期等信息，然后采用类似 SQL 的描述语言从搜索结果中获取相关文档。狭义上讲 Web 信息检索就是 Web 内容挖掘的一种。 “双语辅助翻译搜索引擎”正是采用了搜索引擎结果摘要法这一策略，并进行一系列复杂的识别、匹配、索引等步骤才得以实现。 3 系统结构总揽该系统利用网络蜘蛛从互联网上抓取双语网页，初步过滤后建立索引，存入数据库，然后对网页进行复杂的识别过程，抽取中英双语对照语料，最后再建立索引供用户使用。“双语辅助翻译搜索引擎”主要包含4 大模块：网络爬虫、网页识别、匹配入库、建立索