一种基于深网个性化信息爬取方法.docVIP

下载本文档

15
0
约7.86千字
约 14页
2018-08-13 发布于福建
举报
版权申诉

一种基于深网个性化信息爬取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于深网个性化信息爬取方法

一种基于深网的个性化信息爬取方法　　摘要：Deep Web蕴含海量的可供访问的信息，是数据库领域的研究热点。目前已有的多数研究主要集中在Deep Web数据集成的技术层面.数据集成虽然满足了对Deep Web信息查询的需要，但这样的查询不能学习用户的兴趣，造成时间和资源的浪费。针对这样的需求，本文将个性化推荐引入到Deep Web的数据查询中，提出了一种结构化数据细粒度管理的用户模型，和基于树结构的Deep Web爬取方案，用树的遍历方法解决了个性化服务中分布在各个Web数据库中信息爬取的问题。最后通过实验验证了个性化推荐的执行效率及Deep Web爬取的覆盖率。　　关键词：Deep Web；个性化爬取；相似度；用户兴趣模型　　中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2016）02-0008-03 　　Abstract： Deep Web is becoming a hot research topic in the area of database. Most of the existing researches mainly focus on Deep Web data integration technology. Deep Web data integration can partly satisfy peoples needs of Deep Web information search， but it cannot learn users’ interest， and people search the same content online repeatedly would cause much unnecessary waste. According to this kind of demand， this paper introduced personalization recommendation to the Deep Web data query， proposed a user interest model based on fine-grained management of structured data and a crawl technology based on the tree structure is presented， with the traversal method of tree to solve the information crawl problems in the personalization service distributed in various web databases. Finally， developed a prototype recommendation system and verified the efficiency and effectiveness of the personalization recommendation and the coverage and cost of Deep Web crawl through the experiment. 　　Key words： Deep Web； Personalization Crawl； Similarity； User Interest Model 　　1 概述　　互联网的飞速发展使Web成为了海量的信息中心，Web上的网站和网页数量快速增长，其信息量巨大，提供的数据携带着重要的价值，能应用于许多业务领域。这些信息按照蕴含的深度可以将整个网络分为两大部分：Surface Web和Deep Web。那些直接通过超级链接由传统搜索引擎爬取到的页面集合属于Surface Web；而广泛存在于可在线访问的Web数据库中的大量信息，通常传统的搜索引擎是索引不到的，这些内容则属于Deep Web的范畴。随着Web 2.0时代的到来，目前的整个网络至少有65万个数量级的可访问Web数据库，其信息容量覆盖了商业，教育，医学等众多领域，远远超过了Surface Web的信息含量。越来越多的国内外学者投入到对Deep Web的应用研究中。　　本文提出了一种结构化数据细粒度管理的用户模型；同时，针对在Web数据库中信息的个性化爬取的问题，采用了树结构模型的爬取技术；并通过原型试验进行了验证。　　2 相关原理　　网站，超链接，数据库及其查询接口是构成Deep Web的基本要素。网站后台由服务器支持，包含多个网站数据库，用以存放在线访问的信息；同时网站数据库又通过HTML表单查询，表单即为查询接口。个性化服务是依据用户的浏览习惯和历史记