基于XPath的新闻信息抽取系统设计与实现.docVIP

下载本文档

1
0
约5.82千字
约 9页
2016-09-04 发布于北京
举报
版权申诉

基于XPath的新闻信息抽取系统设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XPath的新闻信息抽取系统设计与实现.doc

基于XPath的新闻信息抽取系统设计与实现　　摘要：随着互联网技术的迅猛发展，因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上，并分析了目前现有的信息抽取技术和XML技术，提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势，并提出一种基于DOM树的XPath生成算法，使用XSLT语言用于描述抽取规则，并使用路径表达式XPath定位待抽取的信息点。　　关键词：数1据挖掘；信息抽取；新闻抽取系统；XPath 　　中图分类号：TP391.3 文献标识号：A 文章编号：2095-2163（2015-）02- 　　Design and Implementation of News and Information Extraction System based on XPath 　　RUAN Juan 　　（Taizhou Vocational Technical College， Taizhou Zhejiang 318000， China）　　Abstract： With the rapid development of Internet technology， the Internet is now the main source of the most abundant information. On the basis of the analysis of news Web pages， and analysis of the current existing information extraction technology and XML technology，the paper presents a Web news extraction system based on XML technology. This paper mainly uses the XPath XML technology in data location advantages， and puts forward a DOM tree based XPath generation algorithm， using XSLT language to describe the selection rules， and the path expression XPath to extract information point. 　　Keywords： Data Mining；Information Extraction；News and Information Extraction System； XPath 　　0 引言　　随着时代发展，高校信息化建设成为影响学校发展的重要因素。目前高校主要活动由党委宣传部集中报道并及时发布门户网站，其他信息则由宣传部下属各二级单位信息员提供，或是宣传部采集二级网站新闻来进行获取。但网站在为学校教职工提供大量丰富信息的同时，却也为如何获得更加高效实用信息带来了巨大挑战，具体来说主要包括两个方面。一方面，随着学校的发展，各系部处室工作内容的增加，Web信息呈现爆炸式地增长，这就需要耗费信息采集员大量的时间、精力去搜集信息，但该种方式仍然还是会出现信息遗漏或新闻失去时效性等众多问题。另一方面，虽然二级网站存在本站搜索引擎，但是并没能给信息获取带来便捷。针对这一状况，并且随着对于信息获取要求的提高，用户已然趋向于更加精细、便捷的信息抽取方式。　　1 目前国内外信息抽取系统　　Web信息抽取的主要信息源就是互联网。互联网的Web页上散布着隐含在HTML页面中的信息点，信息抽取的目的就是将用户需要查询和利用的信息从网页上提取出来[1]，并转换成具有清晰语义的结构化文档形式，再反馈给用户。　　从20世纪80年代开始，信息抽取技术即已成为IT行业的研究热点之一。随着互联网的普及，Web信息抽取方面的研究逐渐兴起，研究人员开发了多种算法和系统。目前在世界上最为著名的“Web挖掘”项目就是卡耐基？梅隆大学的“自动学习和发现中心”[2]。这个项目的主要实现目标就是通过大型数据库存储自动从Web中提取的用户所需信息。国内一些单位对信息抽取方面也已开展了大量研究。例如中科院软件所研究的“基于DOM的信息抽取”[3]，其抽取规则主要是通过归纳学习法半自动化算法生成。数据源包装器中的类就是由抽取规则而产生及实现的。　　2 基于XPath的信息抽取方法　　2.1 抽取方法概述　　抽取规则生成是信息抽取的核心任务，而抽取规则实际上就是定位用户感兴趣的信息数据。若要定位Web文档中的数据，就必须从头至尾遍历网页