采用URL特征的Hub网页识别方法研究-北京玛格泰克科技发展有限.PDFVIP

下载本文档

4
0
约2.72万字
约 8页
2018-03-29 发布于天津
举报
版权申诉

采用URL特征的Hub网页识别方法研究-北京玛格泰克科技发展有限.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

采用URL特征的Hub网页识别方法研究-北京玛格泰克科技发展有限

研究论文采用URL 特征的Hub 网页识别方法研究* 张策 1 都云程 1,2 梁然 2 1(北京信息科技大学TRS 软件开放实验室北京 100085) 2(北京拓尔思信息技术股份有限公司北京 100101) 摘要: 【目的】通过构建简单数据样本, 解决传统网页类型识别方法效率低的难题。【方法】采用URL 特征作为识别依据, 抽取URL 信息构建训练集与测试集, 使用支持向量机(SVM)建立机器学习模型以提高识别效率。【结果】在同样的数据集上,该方法的准确率为91.2%, 优于其他识别方法。在效率性能方面, 该方法提升近60%。【局限】当遇到URL 特征不明显甚至完全相背的网站时, 识别准确率会大幅度降低。【结论】该方法在效率方面存在很大优势, 应用到采集系统中可提高采集效率。关键词: URL 特征 Hub 网页支持向量机分类号: TP391.1 G35 供入口[3] 。主题型网页是具体讲述某一主题。经实验 1 引言证明, 很多新网页都是从 Hub 网页链接过去的[4] 。因随着网络的发展, Web 上的网页数量增长迅猛, 此, 增量式采集系统只要找出Hub 网页进行采集就能即使采用大规模的分布式网页采集系统, 采集整个网发现新出现的URL 。如上所述, 识别哪些网页是Hub 络中的绝大多数重要网页也要花费很长时间。研究结网页就成为首先要解决的问题。果表明, 中国的网页一个月内大约只有 8.52%发生变针对此问题, 本文提出一种基于 URL 特征的化[1], 所以采用全采集的方式, 存在很大的资源浪费。 Hub 网页识别方法, 首次将URL 特征作为Hub 网页另外由于两次采集的周期过长, 在此周期内网页变化识别的全部依据, 这将会弥补传统 Hub 网页识别所频率大的网页发生了多次变化, 而采集系统不能及时带来的巨额开销, 最后通过对比实验验证该方法的抓取变化后的网页, 就会导致搜索引擎系统不能对这有效性。些网页提供检索服务。为了解决这个问题, 产生了网 2 相关工作页增量采集系统。网页增量采集系统不是采集所有得到的URL, 只目前主要的Hub 网页识别方法有基于简单规则的是通过估计网页的变化规律采集新出现的网页、变化识别方法[4] [5-6] 、基于多特征启发式规则的分类方法和的网页和消失的网页, 不关心没有变化的网页。这样基于网页内容的机器学习方法[7-9] 。极大减少了采集量, 能快速同步Web 上的网页与搜索基于简单规则的识别方法是分析 Hub 网页 URL 引擎中的网页, 从而给用户提供更实时的检索服务。的特点, 总结出其规律, 制定简单规则, 符合条件的在增量式采集研究中, 网页通常被分为目录型网就是Hub 网页。Meng 等提出选择网站首页, 以及网站页(Hub 网页)与主题型网页(Topic 网页)[2], Hub 网页在中网页文件名包含index、class 和default 等单词的网网站中的作用是引导用户找到相关的主题网页, 相当页作为Hub 网页[4], 采集Hub 网页中链接所对应的网于目录索引, 没有具体表达的内容, 为主题型网页提页。该方法能采集到一大部分新网页, 但是对新网页通讯作者: 张策, ORCID: 0000-0001-6640-4460, E-mail: smiling_boy@163.com 。 *本文系国家自然科学基金项目“网页内容真实性评价研究