- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主题Deep Web爬虫框架研究.pdf
计算机工程与设计 ComputerEngineeringandDesign 2010,31(5) 929
·信息化技术 ·
主题DeepWeb爬虫框架研究
黄聪会 , 张水平 , 胡 洋
(空军X-程大学 电讯工程学院,陕西 西安710077)
摘 要:为满足用户精确化和个性化获取信息的需要,通过分析Deepw_eb信息的特点,提 出了一个可搜索不同i~DeepWeb
信息的爬虫框架。针对爬虫框架中DeepWeb数据库发现和DeepWeb爬虫爬行策略两个难题 ,分别提 出了使用通用搜索引擎
以加快发现不同主题的DeepWeb数据库和采用常用字最大限度下载DeepWeb信息的技术。实验结果表明了该框架采用的
技术是可行 的。
关键词:深网;爬虫;搜索引擎;信息抽取;常用字
中图法分类号:TP311 文献标识码:A 文章编号:1000—7024(2010)05-0929—03
Researchforframeworkofsubjectdeepwebcrawler
HUANG Cong—hui, ZHANG Shui—ping, HU Yang
(InstituteofTelecommunicationEngineering,AirForceEngineeringUniversity,Xi’an710077,China)
Abstract:Tosatisfypeople’Sdemandforgettingpreciseandpersonalinformation,characteristicsofdeepwebinfomr ationraeanalyzed,
anda~ameworkofcrawlerforsearchingdifferentsubjectinformationindeepwebisputforward.Tosolvethedi伍cultproblemsofdeep
webdatabasediscoveryanddeepwebcrawlercrawlingstrategy,thetechnologiesofdiscoveringdifferentsubjectde印webdatabase
quicklytousetheuniversalsearchenginena ddownloadingdeepwebinformationtotheutmostbyadoptingthecommonlyusedChinese
chraactersareproposedrespectively.Atlasttheexperimentshow thatthe~ameworkiscorrect,andthetechn ologiesarefeasible。
Keywords:deepweb;crawler;serachengine;inofrmationextraction;commonlyusedChinesecharacters
0 引 言 1 主题DeepWeb爬虫框架 中的关键 问题及其
通用搜索引擎已成为人们定位所需welb资源的利器,然 解决方案
而随着 Web技术的发展和人们对通用搜索引擎需求的精细 DeepWeb信息大多隐藏在其后台数据库中,用户只有通
化,通用搜索引擎 已越来越不能满足人们 日常的搜索需要。 过网站提供的查询接 口才能访 问其信息。因此主题DeepWeb
一 方面,由于动态网页技术的出现与广泛使用,由Web数据库 爬虫除了能够从因特网上发现给定主题的数据库之外,还应
动态产生链接生成的网页,即DeepWeb信息,已经远远超过 能利用DeepWeb网站提供的查询接 口,检索DeepWeb数据
静态网页所拥有的信息,且此类信息质量高、价值大、主题鲜 库,最后从返回的结果网页中抽取 出结构化的DeepWeb信
明,只是由于通用搜索引擎的网络蜘蛛是通过网页链接来捕 息。针对这些 问题,本文提出一个主题DeepWeb爬虫框架,
获网页,所以没有得到有效利用
原创力文档


文档评论(0)