基于XML的Web信息抽取研究-计算机应用技术专业论文.docxVIP

下载本文档

0
0
约5.23万字
约 58页
2019-02-15 发布于上海
举报
版权申诉

基于XML的Web信息抽取研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要摘要基于基于 XML 的 Web 信息抽取研究 -I- -I- - - PAGE IV- 摘要随着互联网的迅速发展，Web 上信息量急速增加，Web 已经发展成为一个巨大的分布和共享信息资源的平台，如何从中获得想要的信息成为亟待解决问题， Web 信息抽取技术由此产生。Web 信息抽取是从已经存在多年的信息抽取技术中繁衍出来的，它继承和发展了信息抽取领域的一些关键技术，并结合 Web 页面自身的特点，它是把互联网上存在的网页作为信息源，从中抽取用户感兴趣信息的过程。可扩展标记语言 XML 技术的出现，为 Web 的信息抽取和应用提供强有力的支持。我们可以把页面文档解析成 DOM 树的结构，对页面的操作转化为对 DOM 树的处理，然后采用 XPath 路径表达式定位 DOM 树中节点；XSLT 是 XML 文档的转换语言，有了它我们可以对已知 XML 文档编写抽取规则，实现 XML 文档与 Web 页面的转换。本文结合 XML 技术优势实现对 Web 网页的信息抽取，构建了一个基于 XML 的 Web 信息抽取系统，提出了基于最小 DOM 树的信息定位方法。本文首先将待抽取的 Web 页面通过工具 HTML Tidy 进行优化，将 HTML 文档转换成符合 XML 语法的 XHTML 文档，然后采用 DOM4J 软件包在 JAVA 平台下将 Web 页面解析为 DOM 树结构；依据信息模型和知识库提供的文本，对 DOM 树中的文本进行匹配，当匹配程度大于设定的阈值时，我们可以认定当前页面中包含要抽取的信息，将返回匹配成功的信息的 XPath 路径并存入信息路径表；根据信息路径表获取最小 DOM 树的路径，生成针对当前站点的抽取规则；把抽取结果存储为 XML 文档格式，在已知抽取结果 XML 文档的基础上，根据应用的需要，利用 XSLT 生成针对 XML 文档的抽取规则，在兼容 XSLT 的浏览器上都可以运行显示。本文的信息抽取系统目标并不是构建一个通用的信息抽取系统，而是针对某一领域或者说是针对某一类的信息构建的抽取系统，需要系统的构建者制定抽取领域的信息模和建立对应的知识库。在本文的实验室中，针对某一网站的招聘信息进行抽取，建立了简单信息模型和知识库；根据获取的最小 DOM 树的 XPath 路径生成抽取规则，并把抽取结果存储为格式良好的 XML 文档。关键字：信息抽取,Web,XML,DOM 树,XSLT Abstract With the explosion of Web, the rapid development of the Internet has become an important source of global information dissemination and sharing, how to get the piece of information what we want from the web has bee become a serious problem， Under this background，technique of web information extraction occurs. I t is inherited from Information Extraction technique that came into effect many years ago. What’s more, it inherits and develops some key techniques of information extraction field, and combined with the characteristics of web pages. The internet is the source of web information extraction system which extract the information users interest in. XML came forth and became factual criterion to express internet information ,it provides many supports to the extraction technique of Web information. To build DOM tree, based on standard XSLT XPath , we can locate the information and produce the general rules. This paper apply st