网页信息抽取模块研制.docVIP

下载本文档

1
0
约1.23万字
约 24页
2018-01-24 发布于贵州
举报
版权申诉

网页信息抽取模块研制.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

网页信息抽取模块研制

专科毕业设计（论文）设计题目：网页信息抽取模块研制系部：信息工程系专业：微机应用班级：姓名：学号：指导教师：职称：讲师 2009年6月南京摘要4种Web的信息抽取技术，然后结合Jtree和Xpath技术来实现动态网页信息抽取系统. 关键字：信息抽取；垂直搜索引擎；结构化信息提取；JTree；XPath Abstract The difference between search engine and simple search engine is that Plumb search engine structed the file that catch,and the search information become the core technology to build the Plumb search engine.This article talk about four different technology for web search first,and then combine the Jtree with xpath to build this search system. Keywords： Information search;Plumb search engine;structed information extraction;Jtree;xpath; 目录引言 5 第一章开发概述 6 1.1 研究背景和意义 6 第二章 Web信息抽取相关技术 7 2.1垂直搜索引擎中的信息抽取技术的选用 7 2.2 几种Web的信息抽取技术简介 7 2.3 JTidy简介 10 2.4 XHTML简介 11 第三章系统分析与设计 12 3.1需求分析 12 3.2系统设计 12 3.2.1网页抓取功能 12 3.2.2 样本页转换成XHTML功能 12 3.2.3 XHTML转换成XML功能 13 3.2.4 XpathViewer解析器 13 3.2.5 XSLT解析器文件 13 3.2.6 提取信息 13 第四章信息抽取系统的实现 14 4．1 解析页面并生成Jtree 14 4．2 抽取规则的生成算法生成 15 4．3 根据Xpath生成XSLT文件 17 第五章试验 18 5.1 获取抽取页面并测试 18 总结 21 致谢 23 参考资料引言随着互联网信息的不断增长，人们越来越多地使用搜索引擎来寻找自己需要的信息。研究表明，搜索引擎所能搜索到的信息资源只是能被其建立索引的部分，而很多信息资源不能被搜索引擎索引到。比如专利、文献数据库内的信息，往往需要人们通过查询表单来进行访问。实际上这些不能被搜索引擎索引到的信息内容更加专门化并具有更高的价值。其次，搜索引擎主要是从大量的文档集合中找到与用户需求相关的文档列表；而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。用户对直接获取有用信息的需求越来越强烈。开发概述研究背景和意义信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。在实际的情报研究中，需要进行统计分析的对象是网页或者文本中特定字段的内容，而不是整个网页或者文本本身。为了能够更有效地支撑情报研究工作，方便地获取和利用这部分信息，需要设计专门的信息抽取、解析工具等对这些信息资源进行抽取和整理。本文所要介绍的就是一个实现了信息自动抽取的系统，与其他信息抽取程序比较，这个系统在使用界面上对用户更加直观友好，在抽取功能上实现了动态的包装器自动生成，即对不同的信息资源都能自动生成对应的抽取程序。通过分析这些不能被搜索引擎索引到的网页信息，发现有以下两方面的特点：a．动态网页或网页的动态生成。这些网页并不稳定存在于服务器端，只有当用户通过访问接口访问资源数据库时，服务器才动态生成这些网页并产生一个含有用户信息变量在内的URL地址指向这些页面。这也是其很难被搜索引擎索引到的原因。b．网页结构上的一致性。这些由数据库生成的网页在减轻网站的页面维护负担的同时，按网页模版批量生成的页面在结构上是基本一致的。垂直搜索引擎就是针对性的为