- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于VSM主题爬虫爬行策略的研究
2014 年第 2 期 信息通信 2014
(总第 134 期 INFORMATION COMMUNICATIONS (Sum. No 134
基于VSM 主题爬虫爬行策略的研究
张 锦,罗 钊
兰州交通大学电信学院,甘肃兰州730070 )
要:网络爬虫作为搜索引擎重要的组成部分,其抓取网页资源主题相关性的高低直接决定爬虫性能的好坏。文章在
VSM 模型的基础上引入关键词的同义、继承、属性等关系的相关词汇来增强VSM 模型的语义,通过实验进行验证,改进
能够取得较好的抓取效果。
关键词:主题爬虫;爬行;V SM
中图分类号:TP391 文献标识码:A 文章编号:1673-1131(2014 )02-0037-02
0 引言 VSM 即向量空间模型的基本思想是:利用文本中词与词
之间的不相关性,使用向量来表示文本,这样的话就简化了模
随着互联网的快速发展,网络上的信息量也急速增加。传
型的复杂性。在V SM 模型中,每 篇文档都是由词组成的(,,,
统的搜索引擎已经不可能提供给用户既全面又具有专业深度
…, , 根据不同的词在文档中的重要程度,对其赋予 定的权
的服务了,垂直搜索引擎应运而生。主题网络爬虫作为垂直
值,每一个词对应一个权值,这样用横坐标表示,纵坐标表示,
搜索引擎的抓取模块,负责搜集网上的网页信息。主题爬虫
经过把(,,, …, 进行分解,得到的正交此条的矢量组就构成了
的好坏直接影响着搜索引擎的服务质量,故作为搜索引擎的
表示该文档的向量空间。
重要组成部分,尤其值得去研究和改进。
主题爬行是在预定主题的指导下最大限度地在网络上搜 1 改进的VSM
[ ]
索、抓取与主题相关的网页,并尽量避免爬行不相关的网页1 由于传统VSM 的无语义性,本文引入关键词的同义、继
[ ,]
通用爬虫主要用于通用搜索引擎中,它的目的是尽可能多地 3 4
承、属性等关系的相关词汇来增加VSM 的语义性 。一个完
覆盖网络中的页面, 般采用广度优先算法。而主题爬虫常 善的领域本体是最好的主题描述。在本体中,通过概念的同
用在垂直搜索引擎中,它的目标是尽可能多地搜集与给定主 义、继承、属性等关系对主题进行描述,这样对主题词的语义
题相关的网页,使得到的主题资源更专业更全面,从而能够更 有了好的概括。
好地为网
您可能关注的文档
最近下载
- 河南省许昌市2025年某中学小升初入学分班考试英语考试真题含答案.docx VIP
- 大型泵站工程运行管理实施方案.docx
- ISO45001-2018职业健康安全管理体系之4-2:“4 组织及环境-4.2理解工作人员和其他相关方的需求和期望”解读和应用指导材料(2024A1-雷泽佳).docx VIP
- 医疗信息系统的网络安全数据标注指南.docx
- SH∕T 3543-2017 石油化工建设工程项目施工过程技术文件规定 非正式版.pdf VIP
- 中国专利法详解读书重点笔记.doc VIP
- 2026届高考语文背诵诗词补充:《菩萨蛮·书江西造口壁》.pptx VIP
- 强制性条文执行计划(完整版).doc
- 关于夏天的课件.pptx VIP
- 2025中铁五局集团有限公司笔试参考题库附带答案详解.pdf
文档评论(0)