基于图像内容检索的主题爬虫设计方法-Core.PDFVIP

基于图像内容检索的主题爬虫设计方法-Core.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于图像内容检索的主题爬虫设计方法-Core.PDF

第25 卷 第2 期 广西师范大学学报: 自然科学版 V o l. 25 N o. 2 2007 年6 月 Jou rn a l o f Gu an gx i N o rm a l U n iver sity:N atu ra l Scien ce E d it ion J un. 2007 基于图像内容检索的主题爬虫设计方法 1 1 2 1 张 磊 , 林坤辉 , 周昌乐 , 毛红朝 ( 1 厦门大学 软件学院, 福建 厦门 36 1005; 2 厦门大学 信息科学学院计算机系, 福建 厦门 36 1005) ) 摘 要: 图像主题爬虫能获取网上特定主题的大量图像信息, 对专业搜索引擎及数据挖掘应用都具有重大价 值。针对 目前基于图像内容检索主题爬虫的不足, 提出了一种图像主题爬虫的设计方法, 设计了一种新的爬 虫系统框架, 采用了基于颜色累加直方图的方法进行图像的特征提取与特征匹配。最后提出了优化爬虫的方 法, 改进爬虫的搜索策略, 提高了爬虫的搜索效率。 关键词: 基于图像内容检索; 主题爬虫; 特征提取; 特征匹配 中图分类号: T P 39 13   文献标识码: A    文章编号: 100 16600 (2007) 020 18204 爬虫是搜索引擎的关键部分, 它通常从一个初始的种子页面出发, 访问并下载w eb 页面, 分析w eb 页 面的内容并提取其中的链接, 然后访问链接中的页面内容再提取其中的链接, 如此往复循环。主题爬虫是 网络爬虫的一种, 主要应用在受限领域内进行面向主题信息的采集, 为搜索引擎的构建收集数据。 目前的主题爬虫大多是面向文本的, 较少是面向图像方面的。然而, 随着多媒体技术和计算机网络的 飞速发展, 数字图像的数量层出不穷, 图像的应用和传播也越来越广泛, 建立高效的图像检索机制成为 目 前迫切需要解决的问题之一, 而建立高效的主题爬虫则成了其中的关键问题。图像检索从性质上可分为两 种主要的方式: 基于文本的图像检索与基于内容的图像检索。基于内容的图像检索则解决了基于文本的图 像检索效率不高等问题, 它利用图像本身的一些特征, 如颜色、纹理、形状等进行索引, 具有传统基于文本 的图像搜索所不具有的优越性。本文介绍的是基于内容的图像检索主题爬虫。 1 基于图像的主题爬虫的构架 1. 1 系统组成 面向图像主题爬虫的整个系统可分为以下几个模块: 主题确定模块、初始种子模块、 模块、主题 sp ider 相关度分析模块。 ①主题确定模块。 主题确定模块是整个爬虫系统的重点之一, 它涉及到图像的特征提取问题。为统一格式, 方便图像特 征的提取和匹配, 本文只研究目前最流行的jp g 图像格式。事先由人工筛选出一组与主题相关的图像, 然 后根据特征提取算法由计算机提取出这些图像的特征, 作为该主题的特征信息。 ②初始种子模块。 初始种子模块确定了一个初始的U RL 种子集, 该种子集含有面 向特定主题 的较好 的种子站点 ( ) , 使得 模块能顺利的展开工作。该种子集一般由人工来确定, 以保证其可靠性。 U RL sp ider ③sp ider 模块。 Sp ider 模块从数据库中取出待处理的U RL 进行处理, 调用主题相关度分析模块进行主题相关度分 析, 过滤掉与主题无关的页面, 根据处理的结果对 进行分类管理, 并下载新的 , 最后将与主题相 U RL U RL 收稿 日期: (

文档评论(0)

2752433145 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档