- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模板的网页数据抽取系统实现杜小勇
基于模板的网页数据抽取系统实现 指导教师:杜小勇教授 05级计算机科学与技术 康菁菁 2009.5.8 提纲 开发背景 系统体系结构 网页抓取 数据抽取 关键技术 系统贡献 未来工作 提纲 开发背景 系统体系结构 网页抓取 数据抽取 关键技术 系统贡献 未来工作 开发背景 课题组任务 构建法学知识检索系统 开发任务 实现HTML网页抓取和数据抽取系统 为法学检索系统提供互联网上的语料支持 思路:基于模板的网页数据抽取 网页的通用特性 同一网站中网页的结构,往往被数量很少的固定模板承载 网页内容可能会更新,其模板却相对可靠稳定 基于模板的网页数据抽取 对特定的网页配置抽取模板 在模板中定位需要提取的信息 使用模板的优点 网页通过模板然后转化为结构化数据, 网页格式的变化不需要修改抽取系统的代码 提纲 开发背景 系统体系结构 网页抓取 数据抽取 关键技术 系统贡献 未来工作 系统架构 网页抓取 扩展开源爬虫的功能 数据抽取 使用XSL模板抽取数据 网页抓取:开源爬虫ItSucks的扩展 ItSucks爬虫:Java Web Spider开源项目 下载规则:通过下载模板、正则表达式定义 网页存储:镜像形式 扩展爬虫的链接抽取功能 HTMLParser工具包:网页解析器 提高解析正确率、可解析含中文的链接 网页抓取 定义下载模板 配置: URL 路径 连接 规则 过滤器 保存 网页抓取 用正则表达式过滤链接 运行爬取网页的界面 数据抽取 规范化网页格式:JTidy 获得数据引用点:XPath 转换为结构化数据:XSL模板 数据存储到数据库 1.规范化网页格式:JTidy 修正网页中非规范的语法 将 br 修改为 br / 自动补齐缺少的/table 将网页解析为一棵DOM树 Document parseDOM( InputStream in, OutputStream out ) 2.获得数据引用点:XPath XPath语言:定位XML文档中元素和属性 定位到数据所在节点 td[@bgcolor=‘#E7E7E7] 提取法规颁布单位信息 normalize-space(substring-after(., 来源)) 3.转换为结构化数据:XSL模板 XSL模板:XHTML XML 数据抽取结果 4.数据存储到数据库 获得属性标签和属性内容 正向扫描XML文件,构造一个HashMap散列表,键对应XML标签,值对应标签内容 时间信息的规范化 建立一个类kjj.util.FormalTime 将不规范的日期格式转换为“yyyy-mm-dd” 抽取界面 用户指定信息 网页文件夹 模板文件 XML文件存储路径 数据库表名 网页编码方式 功能: 自动抽取数据 并存入数据库 抓取结果 属性:URL链接、法规案例标题、内容、颁布时间、颁布单位等 提纲 开发背景 系统体系结构 网页抓取 数据抽取 关键技术 系统贡献 未来工作 系统实现的关键点 数据定位的准确性 数据的导航:根据数据周围内容 属性的选取:与网页内容相关、格式无关 中文编码转换 GB2312、UTF-8、ISO-8859-1等编码方式 方案:从文件中按字节读取,然后转换成指定的编码方式 Swing多线程问题 将耗时的任务放在一个独立的线程中 提纲 开发背景 系统体系结构 网页抓取 数据抽取 关键技术 系统贡献 未来工作 系统贡献 连续爬取 抽取目录页和主页 精确抽取 基于模板的数据抽取技术 用户友好的界面 模板自定义,可保存 提纲 开发背景 系统体系结构 网页抓取 数据抽取 关键技术 系统贡献 未来工作 未来的工作 抽取模板 如何建立模板、评价准确性 模板的修复 爬取周期 覆盖率与效率的平衡 Q A 要获得网络上的资源,首先必须要构造一个高效的自动获取HTML网页的工具,也就是网络爬虫。 在具体实现中,我们扩展了开源爬虫ItSucks, 1.易用性:下载模板、正则表达式定义 2.URL地址按“/” 切分,按出来的层次存储 然而这个开源爬虫自带的链接抽取的功能不很完善(只是简单地匹配3个正则表达式),因而对下面这段HTML代码就不能正确的抽取出链接 所以我们在ItSucks爬虫中嵌入了HTMLParser这个网页解析器,扩展链接抽取功能,提高解析正确率、还可解析含中文的链接 使用模板抽取数据有什么优点呢? 由于网页对应到模板,系统只是根据模板对网页进行抽取,因此 一旦网页的格式变化引起之前定义的模板失效,我们不必对系统进行修改 只要重新定义模板,更改网页到模板的这一级映射,就可以使系统持续运行。这一点与之前的爬虫系统不同 系统的另一模块是数据抽取,主要包含下面几个步骤
您可能关注的文档
- 化妆品行业营销方案—兰蔻.ppt
- 化妆品工艺学教学武汉工业大学.ppt
- 化学元素与人体健康(人教版)精编.ppt
- 化学化工专业英语课件科技论文.ppt
- 化学反应进行的方向及热力学初步精编.ppt
- 化学因素及药物对心脏活动的影响推荐.ppt
- 化学有机反应条件北京陈经纶中学.ppt
- 化工仪表及自动化华东理工大学信息学院自动化系.ppt
- 化工热力学精编.ppt
- 化粪池安全管理技术培训会.ppt
- 人教版英语5年级下册全册教学课件.pptx
- 部编人教版2年级上册语文全册教学课件含单元及专项复习.pptx
- 人教版8年级上册英语全册教学课件(2021年8月修订).pptx
- 教科版(2017版)6年级上册科学全册课件+课时练.pptx
- 人教版PEP版6年级英语下册全册教学课件(2022年12月修订).pptx
- 部编人教版2年级下册语文全册课件(2021年春修订).pptx
- 人教版数学6年级下册全册教学课件(2023年教材).pptx
- 湘少版5年级下册英语全册教学课件(2021年春修订).pptx
- 人教PEP4年级下册英语全册教学课件 [2}.pptx
- 人教版6年级上册英语全册教学课件.pptx
最近下载
- 2025年鹤壁职业技术学院单招职业倾向性测试题库完整版.docx VIP
- 以科技创新推动现代产业体系创新PPT课件(带内容).pptx
- 江苏红色文化-第五学习单元 江苏红色文化之“魂”:淮海战役精神-江苏开大复习资料.docx
- 2024年山东省临沂市中考生物试卷附参考答案.pdf VIP
- 优选课件:鲁教版 高中地理必修一第四单元环境与发展41交通运输与区域发展.ppt
- 科研管理科研项目评审专家岗面试真题题库参考答案和答题要点.docx VIP
- 1.3丙类谐振功率放大器技巧.ppt
- 2022半导体行业并购趋势报告-云岫资本.ppt
- 《建立良好人际关系》课件.pptx VIP
- 直线与直线垂直 教学课件.pptx
文档评论(0)