彝文网络信息获取平台研究.docVIP

下载本文档

0
0
约4.77千字
约 11页
2018-09-08 发布于福建
举报
版权申诉

彝文网络信息获取平台研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

彝文网络信息获取平台研究

彝文网络信息获取平台研究　　随着互联网技术的发展和广泛应用，彝文网页数量不断增多，获取彝文信息的范围也越来越大，但查询所需信息的难度也相对增加。文章通过对传统中文网络信息获取平台技术的研究分析，结合彝文网页自身的结构特点，研究了彝文网页信息采集技术和彝文网页信息抽取技术，实现了彝文网络信息获取平台。最后对该平台进行测试，达到了预期结果。　　【关键词】彝文网页网络爬虫信息采集信息抽取　　1 概述　　彝文和汉语一样，是为数不多的自创性文字，有着非常悠久的历史，是完善发展且具有独特特性的少数民族文字。随着信息时代的到来，特别是计算机在彝族地区的普及，彝文也慢慢出现在网络里。彝文的信息化给用计算机软件实现彝文网页的自动采集和处理提供了可能，如果可以实现彝文网页的自动采集和处理，将会给彝文信息处理工作带来很大的便利，进而可以建立彝文网页数据库，给彝文信息处理打下坚实的基础。　　目前国内外对于少数民族语言网络信息获取的研究已经取得了一定的进展，特别是藏文、蒙古文等少数民族语言网络信息获取已经取得了一定的进展。但由于彝文文字与中文有很大的不同，很多熟悉彝文的语言学专家不是很了解计算机技术，而很多计算机方面的专家又不熟悉彝语。从而导致对于彝文网络信息获取平台的研究一直处于起步阶段，需要更深入的研究。　　2 彝文网页采集技术　　当前彝文网络信息获取平台的研究主要集中在两个方面：一是网页信息采集技术；二是网页信息抽取技术。网络爬虫是彝文网页信息采集技术研究的重点；而基于正则表达式的方法则是彝文网页信息抽取研究的重点。　　2.1 网络爬虫技术介绍　　网络爬虫通常分为以下四种：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。通用爬虫也称为全网爬虫（Scalable Web Crawler），爬行对象由小到大，即从部分URL爬行到整个Web，而且能够自动获取网页中的信息，通过网络爬虫技术对目标网站进行爬取，通用爬虫抓取流程图如图1所示：　　为了进一步提高爬取效率，通用网络爬虫一般会采用一定的爬行策略，常用的爬行策略有两种，一是深度优先搜索策略；二是广度优先搜索策略。　　2.1.1 深度优先搜索策略　　深度优先搜索策略从最初的网页开始，选择一个URL进入，并分析此网页中包含的URL，选择一个再进入。这样一个链接一个链接地抓取下去，处理完一条线路之后才会继续处理下一条线路，深度优先策略的设计简洁易懂。但是，通过此策略抓取的深度将会直接影响到抓取的可靠性及有效性，对抓取深度的把握是使用此策略的重点。所有，通常不采用此策略。　　2.1.2 广度优先策略　　广度优先策略通过页面目录层次的深浅来爬行网页，首先爬行较浅目录层次的网页。爬行完同一层次中的网页后，再进入更深层继续爬行。此策略能够有效的控制页面爬行深度，可以防止爬取到一个无穷深层分支时无法结束爬行的弊端。而且此策略方便实现，对于中间节点的数量没有很大的需求，存在的问题是需要花费一定的时间才可以爬行到目录层次很深的页面。　　根据彝文网页数量较少等特点，并通过对彝文语法结构的分析，本文决定选用通用网络爬虫，并采用广度优先策略。　　2.2 基于正则表达式的信息抽取技术　　正则表达式（Regular Expression，一般写为regex）是一种逻辑公式，它的作用是对字符串进行操作，即用已经定义好的一些特定字符和这些特定字符的组合，组成一个“规则字符串”，通过此“规则字符串”来表达对其它字符串的一种过滤逻辑。　　对于彝文网页文本的分析，本文主要采用正则表达式的方法，主要包括彝文网页预处理、URL抽取和正文文本抽取。　　2.2.1 彝文网页预处理　　彝文网页预处理包括两个步骤：彝文网页的规范化和噪声过滤。第一步是彝文网页的规范化处理，即将彝文网页转换成规范的XML文档；第二步是彝文网页噪声的过滤，除去彝文网页中包括注释、script、from、style、object等与正文无关联的网页节点。除去无用的空白符号，删除无实际意义的嵌套标记，如等空标签。最后去除网页噪声，即广告图片及和正文无关的网页链接等。　　2.2.2 URL抽取　　URL由协议头、端口号、网络域、查询、路径、页内片断等部分组成，每一个组成部分都有既定的分隔符和其既约的合法字符。URL的组成规则是一种特定的匹配方式。与此同时，网页中超链接很容易识别，因为它的组成有明确的标记，即与，标记与之间的内容称为锚文本，锚文本即是用户浏览到的文字；实际的超链接地址存在于标记a的属性href中，它把每个超链接片断限定在一个有界的区域中。所以，抽取网页所有超链接可以通过正则表达式和超链接标记的方式对网页全文进行模式匹配。　　3 彝文网络信息获取平台的实现