- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
采用URL特征的Hub网页识别方法研究-北京玛格泰克科技发展有限
研究论文
采用URL 特征的Hub 网页识别方法研究*
张 策 1 都云程 1,2 梁 然 2
1(北京信息科技大学TRS 软件开放实验室 北京 100085)
2(北京拓尔思信息技术股份有限公司 北京 100101)
摘要: 【目的 】通过构建简单数据样本, 解决传统网页类型识别方法效率低的难题。【方法 】采用URL 特征作为
识别依据, 抽取URL 信息构建训练集与测试集, 使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结
果 】在同样的数据集上,该方法的准确率为91.2%, 优于其他识别方法。在效率性能方面, 该方法提升近60%。【局
限 】当遇到URL 特征不明显甚至完全相背的网站时, 识别准确率会大幅度降低。【结论 】该方法在效率方面存
在很大优势, 应用到采集系统中可提高采集效率。
关键词: URL 特征 Hub 网页 支持向量机
分类号: TP391.1 G35
供入口[3] 。主题型网页是具体讲述某一主题。经实验
1 引 言 证明, 很多新网页都是从 Hub 网页链接过去的[4] 。因
随着网络的发展, Web 上的网页数量增长迅猛, 此, 增量式采集系统只要找出Hub 网页进行采集就能
即使采用大规模的分布式网页采集系统, 采集整个网 发现新出现的URL 。如上所述, 识别哪些网页是Hub
络中的绝大多数重要网页也要花费很长时间。研究结 网页就成为首先要解决的问题。
果表明, 中国的网页一个月内大约只有 8.52%发生变 针对此问题, 本文提出一种基于 URL 特征的
化[1], 所以采用全采集的方式, 存在很大的资源浪费。 Hub 网页识别方法, 首次将URL 特征作为Hub 网页
另外由于两次采集的周期过长, 在此周期内网页变化 识别的全部依据, 这将会弥补传统 Hub 网页识别所
频率大的网页发生了多次变化, 而采集系统不能及时 带来的巨额开销, 最后通过对比实验验证该方法的
抓取变化后的网页, 就会导致搜索引擎系统不能对这 有效性。
些网页提供检索服务。为了解决这个问题, 产生了网
2 相关工作
页增量采集系统。
网页增量采集系统不是采集所有得到的URL, 只 目前主要的Hub 网页识别方法有基于简单规则的
是通过估计网页的变化规律采集新出现的网页、变化 识别方法[4] [5-6]
、基于多特征启发式规则的分类方法 和
的网页和消失的网页, 不关心没有变化的网页。这样 基于网页内容的机器学习方法[7-9] 。
极大减少了采集量, 能快速同步Web 上的网页与搜索 基于简单规则的识别方法是分析 Hub 网页 URL
引擎中的网页, 从而给用户提供更实时的检索服务。 的特点, 总结出其规律, 制定简单规则, 符合条件的
在增量式采集研究中, 网页通常被分为目录型网 就是Hub 网页。Meng 等提出选择网站首页, 以及网站
页(Hub 网页)与主题型网页(Topic 网页)[2], Hub 网页在 中网页文件名包含index、class 和default 等单词的网
网站中的作用是引导用户找到相关的主题网页, 相当 页作为Hub 网页[4], 采集Hub 网页中链接所对应的网
于目录索引, 没有具体表达的内容, 为主题型网页提 页。该方法能采集到一大部分新网页, 但是对新网页
通讯作者: 张策, ORCID: 0000-0001-6640-4460, E-mail: smiling_boy@163.com 。
*本文系国家自然科学基金项目“网页内容真实性评价研究
文档评论(0)