基于主题Deep Web数据挖掘探究及探索.docVIP

下载本文档

3
0
约3.16千字
约 5页
2017-08-16 发布于福建
举报
版权申诉

基于主题Deep Web数据挖掘探究及探索.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于主题Deep Web数据挖掘探究及探索摘要:通过分析Deep Web信息的特点，提出一个可搜索不同主题Deep Web框架。针对框架中Deep Web数据库发现和Deep Web爬虫爬行策略两个难题，分别提出了使用通用搜索引擎以加快发现不同主题的Deep Web数据库和采用常用字最大限度下载Deep Web信息的技术。关键词：Deep Web；web数据库；数据挖掘；搜索引擎中图分类号：TP311文献标识码：A文章编号：1009-3044(2012)16-3792-04 Research Based on Data Mining of the Deep Web ZHAO Hao, WEI Gang, ZHAO Xiao-dong (Electronic and Information Engineering Department, Tongji University, Shanghai 201804,China) Abstract: Characteristics of deep web information are analyzed, and a framework of crawler for searching different subject information in deep web is put forward, to solve the difficult problems of deep web database discovery and deep web crawler crawling strategy, the tech? nologies of discovering different subject deep web database quickly to use the universal search engine and downloading deep web informa? tion to the utmost by adopting the commonly used Chinese characters are proposed respectively. Key words: Deep Web; Web database; data mining; search engine 随着Internet的发展和普及，如何从互联网的海量信息中获取有效的信息成为当务之急。因此，以谷歌，百度等网页搜索引擎为代表的Internet信息资源检索技术发展迅猛。但是由于各种技术原因，传统网页搜索引擎一般只访问Surface Web中利用超链接能够到达的文件、静态网页等信息资源，潜藏在Deep Web网络数据库中得海量信息却得不到发现和有效利用。为了提高网络资源的利用率，Deep Web数据挖掘成为Internet信息资源挖掘的新方向。深层网（Deep Web）,也称隐形网络（Invisible Web）和隐藏网络（Hidden Web）。Web网资源按其蕴含信息的深度可以分为“表层网”（Surface Web）和“深层网”（Deep Web）两大部分。表层网（Surface Web）是指存储在Web并由超链接指向的文件、静态网页等资源，一般可以被传统搜索引擎访问到。深层网（Deep Web）是指存储在网络数据库中、超链接无法指向而只能通过动态网页访问的资源集合，一般不能被传统的搜索引擎覆盖到。Deep Web的资源容量是Surface Web的数百倍，而且信息更专业，更有价值。访问Deep Web网络数据库中的资源，需要通过动态网页的查询接口提交查询，Deep Web的数据挖掘和传统搜索引擎的差别在于： 1）Deep Web数据挖掘检索后对结果的排序依据资源的某个属性的值，而搜索引擎检索结果的排序依据搜索结果与查询关键词的相似程度。 2）Deep Web网络数据库的接口通常比较复杂，提供多种属性的选择，而搜索引擎的接口相对简单，一般为关键词的输入即可。 3）Deep Web数据挖掘的结果多是结构化的数据资源，而搜索引擎的结果通常是Web网页。在Deep Web的研究与应用中，上述的第三部分内容更受关注，这是因为结构化信息更有利用价值且有大量与之相关的技术。Deep Web数据挖掘通常是对网络数据库中结构化数据的提取。网络数据库（WDB）是指web中可通过接口访问的在线数据库。静态页面可以通过超链接直接访问，而网络数据库中的内容没有超链接指向，只有当用户查询时生成动态页面，将查询结果返回给用户（如图1所示）。以商业网络数据库为例，如图书网站当当(http://home.省略)，若用户想要查