- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Deep Web数据集成若干关键技术研究及系统原型实现 导师:XXX 作者:XXXX VSM模型构建 基于接口文本VSM的Web数据库分类 5 接口文本VSM:抽取接口文本,构建VSM模型。 基于接口文本VSM的Web数据库分类 5 查询接口分类实现 分类思想: 1)使用已标记的查询接口文本VSM中的数据作为训练数据集, 构建区分查询接口领域类别的分类模型; 2)根据获得的分类模型,对未知的查询接口对象进行分类。 分类实现: 引入数据挖掘工具,使用数据挖掘分类算法可实现对查询接口的分类。 基于接口文本VSM的Web数据库分类 5 实验结果 绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于DOM的Deep Web查询接口模式抽取 4 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 总结与展望 8 基于正则表达式的Deep Web结果数据抽取 6 结果数据正则表达式 正则表达式: 结果数据正则表达式: 描述航班号 基于正则表达式的Deep Web结果数据抽取 6 结构数据模式构建 自动化或人工构建结果模式: 航班查询领域查询结果中包含了 一些相同的属性,如航班号、 起飞时间、到达时间、机型、价格等 基于正则表达式的Deep Web结果数据抽取 6 结果数据区域定位 结果数据区域定位 基于正则表达式的Deep Web结果数据抽取 6 公共路径选举算法: 设有元素路径集合: 公共路径选举算法思想: 设有n个投票人,它们也可以是候选人(即可以自选),其中,假设在投票中,有m个成为最终候选人,从m个候选人中选定得票最多者为目标人选, 但该目标人选的得票数c必须不小于此次候选人m。 基于正则表达式的Deep Web结果数据抽取 6 结果数据区域定位 公共路径选举算法: 基于正则表达式的Deep Web结果数据抽取 6 结果记录分离抽取 如关系数据库表有主键一样,Deep Web的结果数据记录中也存在着唯一的、 值不重复的关键字段,例如,航班机票查询领域返回的结果数据中的航班号 是唯一的、不重复的 。 通过关键数据项获取数据区域中的分歧路径集合,每一条分歧路径可以把结果数据区域中的记录区分开,分开抽取每条记录的Html片段实现数据记录的分离抽取。 基于正则表达式的Deep Web结果数据抽取 6 结果数据标注与抽取 + 基于正则表达式的Deep Web结果数据抽取 6 结果保存 绪论 1 Deep Web数据集成研究相关概述 2 Web数据库快速发现策略研究 3 基于接口文本VSM的Web数据库分类 5 基于正则表达式的Deep Web结果数据抽取 6 Deep Web数据集成原型系统实现 7 基于DOM的Deep Web查询接口模式抽取 4 总结与展望 8 Deep Web数据集成原型系统实现 7 原型系统架构 Deep Web数据集成原型系统实现 7 原型系统设计与实现 Deep Web数据集成原型系统实现 7 原型系统设计与实现 Web数据库发现器:URL定位、网络爬行、Deep Web查询接口判定 原型系统设计与实现 Deep Web数据集成原型系统实现 7 Web数据库模式抽取:基于Jexplor工具最终实现对查询接口的模式抽取器。 Deep Web数据集成原型系统实现 7 原型系统设计与实现 Web数据库分类器:编辑领域关键词汇集 ,构建查询接口VSM , 使用训练集接口文本VSM进行训练、保存和更新分类模型可利用生成的模型, 对未知类别的查询接口进行分类 。基于Weka二次开发。 Deep Web数据集成原型系统实现 7 原型系统设计与实现 接口集成:借用Protégé和Jena框架编程实现查询接口的领域本体构建与集成 。 * Deep Web 选题背景 大数据(Big Data)时代的到来 2012年7月份,美国Brightplanet公司在白皮书《Exploiting Big Data from the Deep Web》中指出,大数据(Big Data)无处不在,每时每刻有204,166,667封邮件在发送,有571个新网页生成等等。全球互联网数据量以40%的速度在增长,在未来的5年将到达现在的800% 。其中绝大部分来自于Deep Web 。 爆炸式的Web信息含量 英国著名网络咨询收集和数据统计机构Netcraft公司于2012年7月份的统计,目前全球互联网上约有698,000,000个站点,是2010年1月份统计的3倍多。中国互联网信
文档评论(0)