基于模板的网页数据抽取系统实现杜小勇.pptVIP

下载本文档

4
0
约5.38千字
约 26页
2018-05-21 发布于河北
举报
版权申诉

基于模板的网页数据抽取系统实现杜小勇.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于模板的网页数据抽取系统实现杜小勇

基于模板的网页数据抽取系统实现指导教师：杜小勇教授 05级计算机科学与技术康菁菁 2009.5.8 提纲开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作提纲开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作开发背景课题组任务构建法学知识检索系统开发任务实现HTML网页抓取和数据抽取系统为法学检索系统提供互联网上的语料支持思路：基于模板的网页数据抽取网页的通用特性同一网站中网页的结构，往往被数量很少的固定模板承载网页内容可能会更新，其模板却相对可靠稳定基于模板的网页数据抽取对特定的网页配置抽取模板在模板中定位需要提取的信息使用模板的优点网页通过模板然后转化为结构化数据，网页格式的变化不需要修改抽取系统的代码提纲开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作系统架构网页抓取扩展开源爬虫的功能数据抽取使用XSL模板抽取数据网页抓取：开源爬虫ItSucks的扩展 ItSucks爬虫：Java Web Spider开源项目下载规则：通过下载模板、正则表达式定义网页存储：镜像形式扩展爬虫的链接抽取功能 HTMLParser工具包：网页解析器提高解析正确率、可解析含中文的链接网页抓取定义下载模板配置： URL 路径连接规则过滤器保存网页抓取用正则表达式过滤链接运行爬取网页的界面数据抽取规范化网页格式：JTidy 获得数据引用点：XPath 转换为结构化数据：XSL模板数据存储到数据库 1.规范化网页格式：JTidy 修正网页中非规范的语法将 br 修改为 br / 自动补齐缺少的/table 将网页解析为一棵DOM树 Document parseDOM( InputStream in, OutputStream out ) 2.获得数据引用点：XPath XPath语言：定位XML文档中元素和属性定位到数据所在节点 td[@bgcolor=‘#E7E7E7] 提取法规颁布单位信息 normalize-space(substring-after(., 来源)) 3.转换为结构化数据：XSL模板 XSL模板：XHTML XML 数据抽取结果 4.数据存储到数据库获得属性标签和属性内容正向扫描XML文件，构造一个HashMap散列表，键对应XML标签，值对应标签内容时间信息的规范化建立一个类kjj.util.FormalTime 将不规范的日期格式转换为“yyyy-mm-dd” 抽取界面用户指定信息网页文件夹模板文件 XML文件存储路径数据库表名网页编码方式功能：自动抽取数据并存入数据库抓取结果属性：URL链接、法规案例标题、内容、颁布时间、颁布单位等提纲开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作系统实现的关键点数据定位的准确性数据的导航：根据数据周围内容属性的选取：与网页内容相关、格式无关中文编码转换 GB2312、UTF-8、ISO-8859-1等编码方式方案：从文件中按字节读取，然后转换成指定的编码方式 Swing多线程问题将耗时的任务放在一个独立的线程中提纲开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作系统贡献连续爬取抽取目录页和主页精确抽取基于模板的数据抽取技术用户友好的界面模板自定义，可保存提纲开发背景系统体系结构网页抓取数据抽取关键技术系统贡献未来工作未来的工作抽取模板如何建立模板、评价准确性模板的修复爬取周期覆盖率与效率的平衡 Q A 要获得网络上的资源，首先必须要构造一个高效的自动获取HTML网页的工具，也就是网络爬虫。在具体实现中，我们扩展了开源爬虫ItSucks， 1.易用性：下载模板、正则表达式定义 2.URL地址按“/” 切分，按出来的层次存储然而这个开源爬虫自带的链接抽取的功能不很完善（只是简单地匹配3个正则表达式），因而对下面这段HTML代码就不能正确的抽取出链接所以我们在ItSucks爬虫中嵌入了HTMLParser这个网页解析器，扩展链接抽取功能，提高解析正确率、还可解析含中文的链接使用模板抽取数据有什么优点呢？由于网页对应到模板，系统只是根据模板对网页进行抽取，因此一旦网页的格式变化引起之前定义的模板失效，我们不必对系统进行修改只要重新定义模板，更改网页到模板的这一级映射，就可以使系统持续运行。这一点与之前的爬虫系统不同系统的另一模块是数据抽取，主要包含下面几个步骤