基于Web的语料自动采集技术研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 39 卷  专辑 太 原 理 工 大 学 学 报 Vol . 39 Sp ec. Issu e 2 008 年 5 月      J OU RN AL OF TA I YU AN UN IV ERSIT Y OF TEC HNOL O GY     a y 200 8 3   文章编号 :100729432 (200 8) S120059204 基 于 Web 的 语 料 自 动 采 集 技 术 研 究 1 2 1 郭  浩 ,刘  伟 ,段  富 ( 11 太原理工大学 计算机与软件学 院 ,山西 太原 0 30024 ;21 中国 电子科技集团第三十三研究所 ,山西 太原 03000 6) 摘  要 :在为词典编撰进行大规模语料采集工作 的背景下 , 以实现语料 的批量 自动采集为 目 的 ,介绍 了基于 Web 的词典编撰语料 自动采集技术 。同时提 出了该技术在 图书信息领域 的实验模 型 , 图书信息搜寻系统 ( Sear chBook v2. 1. 0 ) 的设计与实现 ,包括如何利用搜索引擎技术及信息提 取技术进行 图书信息的搜索及提取 。 关键词 :语料采集 ;搜索引擎 ;信息抽取 中图分类号 : TP311. 1   文献标识码 :A   2 0 世纪末 , 随着信息科技 的迅猛发展 , 引用大 的 ,为语料采集工作提供 的一个便利工具 。实验模 量 的语言文本及资料进行自然语言理解的研究开始 型如 图 2 所示 。 出现并逐步走 向成熟 ,并被广泛地应用于机器翻译 、 文字识别及语音识别与合成 、数据挖掘 、自然语言理 解等领域 。所有这些研究都是 以构建大规模真实语 料库为基础 。而如何能够将语料加工 人员从繁重 的 、乏味的语料采集工作中解放 出来 ,避免大量 的手 图 1  网上获取图书信息基本流程图 动环节和烦琐 的重复性劳动 ,开发一个 以满足实际 需求为 目的的语料 自动采集工具便是摆在我们面前 的一个重要研究课题 。 1  实验模型 万维网是当今主要 网络信息的集散地 ,不仅汇 聚了批量信息 ,而且信息数量正在 以指数级速度增 长 。CNN IC 统计 ,截止到 2003 年 12 月 3 1 日,我国 网站数量 595 5 50 个 ,半年内增加 12 1 650 个 ,增长 率为 2 517 % ,和 2 002 年 同期相 比增 6 013 %[1 ] 。 图 2  图书信息搜寻系统功能模型图 所 以 ,当我们面对如何进行原始语料采集 的时候 ,我 们将 目光自然而然的落到了万维网这一天然的巨大 2  信息搜索 的数据库 。在万维网上 , 当普通用户想要查找一本 信息搜索模块主要功能是根据用户所提 出的关 书的详细信息时 ,其最主要的信息源便是数量众多 键字 ,获取 图书详细信息页面 的 U RL 并下载至本 的网上购书站点 。基本流程如图 1 所示 。 地 ,然后将过程文件提交于信息抽取模块 。这就应 在 图书信息语料采集过程中 ,我们发现 ,语料加 用到了搜索引擎技术 。 工人员不得不大量地重复上述劳动 ,消耗 了大量 的 搜索引擎作为因特网上提供信息服务的一种工 ( 人力物力 。我们开发的图书信息搜寻系统 Search2 具 ,现在已经不是一个新鲜的概念 了 。按照中国互 Boo k v2 . 1. 0 ) 便是 以实现语料的批量 自动采集为 目 联网络信息中心 2006 年初发布 的报告[2 ] , 中国网民

文档评论(0)

jingpinwedang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档