- 1
- 0
- 约7.89千字
- 约 8页
- 2017-06-13 发布于湖北
- 举报
Deep Web数据获取论文:Deep Web数据源发现与采样研究
【中文摘要】随着技术的进步,知识的积累,越来越多的丰富资源不断地被加入到网络中,使得通过网络就可访问的数据量呈现巨大的增长。尤其是在近一二十年的时间内,随着各种商业应用的广泛推广,各种各样的大型数据库建立起来。银行、商店、学校、学术机构、政府、媒体、图书等等,通过互联网,人们能查到几乎所有领域的信息。由于信息的复杂多样,使得整个Web看似杂乱无章,但如果按这些信息可被访问的途径,可以将其划分为Surface Web(浅层网络)和Deep Web(深层网络)两个部分。一般来说,Surface Web是指那些有固定的超链接地址,能被传统搜索引擎索引或者通过其他页面访问到的静态网页的集合。而Deep Web是指网络中不能被传统搜索引擎索引到的那部分内容,尤其是指那些实时产生的动态页面,如利用JavaS cript等脚本语言动态产生内容的页面。据研究,Deep Web中蕴藏着海量高质量数据,为了能够充分利用这些宝贵的数据资源,以对其进行深入的分析和挖掘,我们必须获取这些高质量的数据。对Deep Web的数据获取过程也是数据集成过程的第一步,其他两个步骤分别为数据抽取和数据整合。数据获取的主要任务就是限定某一特定领域,发现尽可能多的数据源,在对所获取的数据源进行科学评估后,选择优质的数据源,然后,最大限度地获取这些优质数据源
您可能关注的文档
- CU的安装及使用.ppt
- C程序设计第12节.pdf
- C程序设计第八篇课件.ppt
- C语言 第2章 数据及操作.ppt
- C语言 第4节 数据运算.ppt
- C语言 第7节 函数1.ppt
- C语言 结构体与联合体.pptx
- C语言:2.5同步及死锁.ppt
- c语言new C++new.docx
- C语言变量及常量.doc
- 2026届甘肃省民勤三中高考化学三模试卷含解析.doc
- 2021年人力资源年终工作汇报 附2026年人力预算测算表 可直接套用.pptx
- 2021年直播间氛围打造提升停留时长培训课件.pptx
- 2026届广西钦州市第二中学高三第二次模拟考试历史试卷含解析.doc
- 2020应对儿童厌学叛逆专属心理健康教育宣讲课件.pptx
- 2026届江苏省南通巿启东中学5月高三月考物理试题.doc
- 2026年初中语文写作课件.pptx
- 2026年电子元件检测实训教程PPT.pptx
- 2026届安徽省肥东县圣泉中学高三下期末模拟联考数学试题.doc
- 广东省惠东县惠东高级中学2026届高三考前热身生物试卷含解析.doc
最近下载
- 2022特种设备焊工理论考试真题模拟及答案(4).pdf VIP
- 市场经济条件下的政府职能的转变.doc VIP
- 《养老机构消毒卫生要求》DB31T 1662-2025(上海标准).pdf
- 燃气场站安全运行监管规范.pptx
- 2026届高三语文全国T8联考作文题目解析及6篇范文“顶端优势”.docx VIP
- 知识产权法自学考试复习资料(史上最全的复习资料)欢迎大家来下载.doc VIP
- 钢板桩支护板桩施工技术交底.doc VIP
- (2025秋新版)科学二年级上册教学计划及进度表.docx VIP
- (2026 春新版)二年级科学下册教学计划及进度表.docx VIP
- 2026年医院食堂食品安全与院感协同方案.docx
原创力文档

文档评论(0)