- 4
- 0
- 约 21页
- 2017-01-18 发布于安徽
- 举报
面向领域的deepweb查询接口发现研究
第一章 绪论
1.1 研究背景
互联网自从被发明的那一刻起就深刻地改变了我们每个人的生活,影响到了社会的方方面面,互联网对影响人们生活的集中体现就是能够通过大量的存储信息和快速的传递信息,极大地降低了社会运行成本,互联网也因此优势获的了飞速发展,与此同时而来的是网络信息的爆发式增长,统计表明,截止2013年1月,中国的网页总长度(总字节数)已经达到492155GB,且已同比55.14%的增长率飞速增长。如此海量的信息若能去伪存真加以合理利用,必能最大化地实现信息价值,这是针对web领域研究的目的所在。
互联网信息因其海量数据看起来庞杂不堪,人们一般根据其信息获取方式的不同和获取难度将其分为Surface Web(表面网络)和Deep Web(深层网络)。Surface Web是这样的一些页面的集合,他们能够被我们通常所用的搜索引擎所搜索到;而Deep Web是一个与Surface Web相对应的概念,在1994年由吉尔埃尔斯沃思博士[1]提出的不可以是传统搜索引擎搜索到的web页。因此,从这个意义上说,Deep Web指向的内容很多,几乎囊括了所有人们能在网络上获取的信息。相对于网络上的静态页面,人们对服务器后台数据库产生的数据更感兴趣,而这是需要查询获得的,一般方式是通过提交请求,然后后台数据库根据请求返回所要求的信息,这部分内容是人们更加关心更加想要得到的。人们把这些知识发现并且可以动态查询的结果称为Web数据库,它和静态页面的根本区别是动态获得的,一般通过填写表单请求得到的。随着使用各种动态数据库在各类网站的普及,通过对网站的动态数据库的访问已经成为人们获取信息的基本手段,也加大了获取Web深层数据的难度,而对Deep Web的研究也越来越受到人们的关注。
Deep Web受到如此多的关注的原因在于它所提供的信息不但多而且利用价值大,即兼备海量性和专业性。根据2012年全球互联网发展报告的数据指出,截止2011年12月,全球网站数量已达5.55亿个,可以想见,其中绝大部分网站都包含了Web数据库。此前的调查显示:
(1)Deep Web蕴含的信息量是Surface Web的400-500倍。
(2)对Deep Web数据的访问量比Surface Web要高出15%。
(3)Deep Web蕴含的信息量比Surface Web的质量更高。
(4)Deep Web的增长速度要远大于Surface Web。
(5)超过半数的Deep Web的内容是局限于某个特定领域的,即面向某个领域。
(6)Deep Web包括了商业社会的各个方面,比如金融、教学、政府等等。
(7)Deep Web上95%的信息是可以公开访问的,即免费获取。
由此可见,Deep Web的信息在数量,质量和易存取性上都更胜一筹。但Deep Web的复杂性也是显而易见的,复杂性集中体现在Web数据库数量多,实现技术多样,信息易更改等等。因此,如何快速的获取Deep Web中隐藏的信息成为我们亟待解决的问题,对于怎么样取得Deep Web中的信息的研究具有重要的现实意义,其中包括,查询接口发现,查询接口抽取,查询接口分类,查询转换,结果合成等,查询接口作为第一步对整个信息的提取过程有着重要的意义,其准确性和效率直接关系到我们所抽取信息的价值大小。因此,如何准确判定哪些表单是所需要的查询接口意义重大。
1.2 研究现状
国内外对Deep Web的研究取得了一些进展,攻克了一些技术难点。但近几年该研究领域的进展比较缓慢,很少有取得重大进步。由于Deep web中蕴含有巨大的信息,这些信息对人们有着重要意义。
现有的工作中很多都是对如何取得DeepWeb信息内容的研究,它们大多集中于如何实现表单自动获取,数据源的选择等方面。然而这些研究的基础是已经获得准确的查询接口,关于怎么样判别提取表单的接口方面的研究比较匮乏。
近些年提出了一些能够在无人干预的条件下自动封装和提取DeepWeb数据的方法,其中包括MDR[2],MDRII[3],RoadRunner[4].
MDR和MDRII是建立在标签树的结构特征之上的,是在相似子树中寻找结构化数据。当网页结构比较清晰时这种处理方式效果良好。然而当网页结构多变或者存在很多的扰乱信息时该方法无法得出准确结果。
RoadRuuner则是使用一种封装器启发式学习算法,它能够通过比较样本页面的相同或类似点和不匹配点来训练学习,这样数次迭代就能够分辨出可选属性和嵌套属性,但是算法有一个指数时间复杂度。
DU等人[5]提出页面分割法:首先将网页分割成为几个独立的部分,将不包含查询接口的部分移除掉,然后建立基于主题的查询最后通过分析查询结果获得我们需要的深层网络接口。然而,由于
您可能关注的文档
- 浅析桑植民歌的演唱风格与艺术特色.doc
- 温州房地产市场特色研究.doc
- 微表情在面试中的应用.doc
- 基于Gamebryo引擎的3D游戏动作的设计与实现.doc
- 筒形件拉深成形工艺分析及模具设计.doc
- 中国寿险业的发展现状、经营特殊性及智力资本探析.doc
- 电涡流传感器的设计与仿真.doc
- 队伍管理信息系统设计与实现.doc
- 莆田市城厢区公共停车场的现状分析与对策.doc
- 浙江省出口贸易的环境效应分析.doc
- 数据流通利用设施发展研究白皮书_37页_1004kb.pptx
- 食品饮料行业深度报告_原奶价格周期向上_板块配置价值愈显_59页_2mb.pptx
- 风电2026年行业策略_国内需求稳升_出海加速_国内外盈利共振_34页_2mb.pptx
- 数读IPO系列_2025年沪深新股总结_36页_1mb.pptx
- 2026年投资展望系列之十二_股债之锚_2026通胀的温度_34页_1mb.pptx
- 家电行业资金面系列专题一_从业绩博弈到稀缺性溢价——家电板块估值重构与白电龙头新机遇_47页_3mb.pptx
- 医药行业2026年度医疗器械策略报告出海篇_破局内卷_向全球价值链中高端迈进_53页_2mb.pptx
- 出海概念股票池及主题指数_扬帆出海孕育的四个投资机遇_17页_1mb.pptx
- 交运行业2026年投资策略_航空盈利修复可期_航运绿色转型提速_45页_3mb.pptx
- 资本周期系列_从业绩变脸到价值修复_22页_697kb.pptx
最近下载
- (高清版)B-T 34370.9-2020 游乐设施无损检测 第9部分:漏磁检测.pdf VIP
- 古籍《伤寒论特解》.pdf VIP
- IPC-SM-785表面安装焊接件加速可靠性试验导则.pdf VIP
- 迅达电梯SMLCD人机界面培训5400主板按键操作培训.pptx
- 小学三(上)人教版PEP版单词字帖(可打印).pdf VIP
- 2026年国有企业招聘笔试真题解析与模拟.docx VIP
- 起重机轨道国家标准.pptx VIP
- ISO 9001(DIS)-2026《质量管理体系——要求》(含附录使用指南-中文版-译-2025年9月).docx VIP
- 《英语课堂教学技能训练第2版》课件完整全套教学课件.pdf
- 企业所得税税务处理综合案例.pdf VIP
原创力文档

文档评论(0)