- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web就业信息抽取系统的实现分析-计算机技术专业论文
表格清单
表 2-1 Web 挖掘分类 6
表 2-2 XML 与 HTML 比较 11
表 4-1 数据整整理模块组成 33
表 4-2 数据整理模块接口 34
表 4-3 规则学习模块组成 34
表 4-4 规则学习模块接口 35
表 4-5 查准率统计表 37
表 4-6 数据表列表 38
表 4-7 规则类型表结构 39
表 4-8 规则表结构 39
表 4-9 模板表结构 39
表 4-10 规则与模板关联表结构 39
表 4-11 就业信息表结构 40
插图清单
图 2-1 Web 数据的分类 5
图 2-2 Web 挖掘过程 7
图 2-3 XML 示例文档--学生列表 9
图 2-4 学生列表 DOM 树示意图 10
图 2-5 Web 页解析得到的 DOM 树 14
图 2-6 网页预处理流程 15
图 2-7 Tidy 工具使用示例 15
图 3-1 Web 就业信息的抽取系统 Jobhunting 总体模块结构图 18
图 3-2 规则制定依据 20
图 3-3 归纳学习系统模型 21 图 3-4 样本页先序遍历的 DOM 树层次结构 22
图 3-5 样本学习得到的规则存入相应数据表 22
图 3-6 Web 样本页学习生成规则示例 23
图 3-7 模板生成过程 24
图 3-8 Web 就业信息抽取 Jobhunting 的一个抽取规则模板 24
图 3-9 人工标注信息点 27
图 4-1 系统总体框架图 31
图 4-2 Web 就业信息抽取系统 Jobhunting 主界面 32
图 4-3 heritrix 运行抓取任务界面 32
图 4-4 数据整理模块结构图 33
图 4-5 数据抽取模块组结构图 35
图 4-6 jobhunting 就业信息抽取系统规则学习的结果 36
图 4-7 就业信息抽取系统抽取结果 36
图 4-8 学习样本数与抽取结果数趋势图 37
图 4-9 抽取的部分数据统计图 38
图 4-10 数据库表结构图 38
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据 我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得 合肥工业大学 或其他教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:方少卿 签字日期: 2010 年 10 月28 日
学位论文版权使用授权书
本学位论文作者完全了解 合肥工业大学 有关保留、使用学位论文的有关规定,同意 合 肥工业大学 有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文 被查阅和借阅。本人授权 合肥工业大学 可以将本学位论文的全部或部分内容编入有关数据 库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。
学位论文作者签名:方少卿 导师签名:胡学钢
签名日期:2010 年 10 月28 日 签名日期:2010 年11 月 1 日
学位论文作者毕业后去向
工作单位: 电话:
通讯地址: 邮编:
-
- PAGE 10 -
1.1 问题的提出
第一章 绪 论
二十一世纪的今天,随着 Internet 的迅猛发展,存储在网络中信息资源 呈爆炸式的增长。据国外媒体报道,截止 2008 年 7 月,在谷歌官方博客中
称,其索引的网页数量已经突破 1 万亿幅[1];据工信部最新数据显示,截止到
2009 年底,中国国内的网站数量已经达到了 323 万个,网页数量达到 336 亿个 [2] 。互联网已经是人们传播信息、学习知识与共享科技、教育、商业和社会等 活动的巨大信息源,同时也带来了严重的挑战。其一,如何科学合理利用因特 网信息资源;其二,从互联网这个的数据海洋中寻找我们所需的数据时,经常 是投入大量时间和精力得到的数据却有相当比例不是我们所需的。如何能自动 地从 Web 上获取有用信息,为此人们迫切需要一种在海量信息源中迅速找到真 正需要的信息的自动化工具,以便自动获取信息,且能对信息进行分析处理、 便于查询。经过研究,一种帮助人们通过给定的关键词来获取相关页面的技 术—— 搜索引擎技术出现了,该项技术只是对 信息搜索的问题存在的部分问 题,结果不是很理想。主要不足表现在以下三个方面[3]:
(1)只列出了一系列 Web 链接,仍须用户利用手工方式去浏览网页才能很 困难地找出相关信息。
(2)由于罗列了许多无用的搜索结果,从而也影响了搜索的效率。 (3)检索模式简单。大多只提供关键词搜索,查询功能有限。
Web 上信息资源与传统的信息资源
您可能关注的文档
- UHF频段RFID系统中运动物体方向与速度识别的研究-电路与系统专业论文.docx
- UHF频段RFID读写器系统的研究-计算机应用技术专业论文.docx
- UHMWPE纳米纤维增强PBS基复合材料的 制备与降解行为研究-材料工程专业论文.docx
- UHMWPE超高分子量聚乙烯的链缠结初始研究-物理化学专业论文.docx
- UHRF1在骨肉瘤细胞侵袭过程中的作用及其机制研究-外科学专业论文.docx
- UHRF1蛋白在结直肠癌组织中的表达情况及其辅助诊断、预后判断价值的分析-内科学(消化系病)专业论文.docx
- UKF煤矿井下捷联惯导大失准角初始对准应用研究-信号与信息处理专业论文.docx
- UL29shRNA表达质粒与ACV对HSV-2抑制效果的比较-生物化学与分子生物学专业论文.docx
- UHF频段高性能基站天线研究-电子与通信工程专业论文.docx
- Unigear 550在电力系统的应用-控制工程专业论文.docx
- Web就业信息抽取系统的实现研究-计算机技术专业论文.docx
- Web信息检索中基于Web挖掘的查询优化研究-计算机软件与理论专业论文.docx
- Web应用前端安全策略研究及应用-计算数学专业论文.docx
- Web应用安全测试技术与漏洞扫描系统设计-电路与系统专业论文.docx
- WEB应用安全漏洞挖掘的研究与实现-计算机应用技术专业论文.docx
- Web应用常见漏洞的产生场景和检测规则研究-电子与通信工程专业论文.docx
- Web应用安全确保技术研究与应用-信息与通信工程专业论文.docx
- Web应用性能测试方法及其应用研究-软件工程专业论文.docx
- Web应用漏洞的分析和防御-计算机系统结构专业论文.docx
- Web应用的漏洞检测与防范技术研究-计算机应用专业论文.docx
文档评论(0)