面向垂直搜索的聚焦爬虫研究及应用.pptVIP

面向垂直搜索的聚焦爬虫研究及应用.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
功能需求 考虑到今后实际在多个招聘站点抓取时,可能需要建立一套统一的类目信息映射关系,系统要求单独记录“职位类别”和“行业类别”这两个特殊元数据信息到数据库 功能需求 支持有条件地保存抓取来的职位信息,譬如只保存晚于某指定日期发布的职位信息 含控制台程序,可控制、监视系统运行,运行结束反馈总结报告信息 性能需求 可配置性 可修改性 并发性 组件化可扩展 通用性 开发环境 开发语言:Java 开发工具:Eclipse 数据库:MySQL 核心技术 Heritrix:(版本1.12.1) WebHarvest:(版本1.0) Spring Framework:(版本2.0.7) iBatis:(版本77) Jakarta Commons 系统结构图 算法流程图 数据流图 代码实现 点击播放演示 存在的问题 网站改版,维护成本高 不适合大范围站点抓取 服务器端运行,容易被封IP 增量抓取,无特别有效的处理办法,大多依赖站点的排序规则来优化 解决方向 网页库级 智能化信息获取 分布式 致谢! 面向垂直搜索的聚焦爬虫研究及应用 OUTLINE 背景 研究综述 应用技术研究 招聘搜索聚焦爬虫设计与实现 背景 搜索引擎 搜索引擎分类 通用全文搜索 特点:关键字查询,海量数据 例:Google、Baidu、Yahoo 垂直搜索 特点:“专、精、深”,行业化 例:Healthline、Kooxoo、Koubei 通用全文搜索的不足 质量与性能之间难以兼顾,倾向于网络覆盖与响应速度 搜索意图不明,基于关键字检索,结果含有大量干扰信息 缺乏行业化的特征分析,无法实现提供个性化服务 垂直搜索 服务于局部专业领域的精确搜索 用户难以描述他要找什么,除非让他看到想找的东西 注重专业化与结构分析 数据倾向于结构化和格式化 垂直搜索的本质 从主题相关的领域内,获取、加工与搜索行为相匹配的结构化数据和元数据信息。 如数码产品mp3:内存、尺寸、大小、电池型号、价格、生产厂家等,还可以提供比价服务 网络爬虫 因沿超链接 “爬行”的工作方式,被称为爬虫或蜘蛛 基于超链接与图的遍历算法,自动从网络下载Web信息的程序 通常用来为搜索引擎提供数据源 面向垂直搜索的聚焦爬虫 将定向或非定向的网页抓取下来并进行分析后得到格式化数据的技术 服务于垂直搜索,目标获取与主题相关的结构化数据和元数据信息 研究综述 工作原理与流程 以一定的网页分析算法,提取与主题相关的超链接,加入待抓取队列 根据一定的搜索策略,从待抓取链接队列中选择下一步抓取链接,并重复上述过程,直到满足某一条件停止 从被抓取网页中提取结构化数据和元数据信息 基础核心工作环节:网页抓取和信息提取。 关键技术分析 抓取目标的定义与描述 网页URL的搜索策略 网页的分析与信息的提取 抓取目标的定义与描述 针对有目标网页特征的网页级信息 对应网页库级垂直搜索,抓取目标网页,后续还要从中抽取出需要的结构化信息。稳定性和数量上占优,但成本高、性活性差。 针对目标网页上的结构化数据 对应模板级垂直搜索,直接解析页面,提取并加工出结构化数据信息。快速实施、成本低、灵活性强,但后期维护成本高。 URL的搜索策略 IP地址或域名搜索策略 搜索全面,不受多站点交错引用URL的干扰,但不适合多域名、分布式的大规模搜索。 广度优先搜索策略 类似先进先出的队列方式,逐层深入搜索。适合级数少的目标站点,但对于信息量大、层次结构深的目标站点,难以深入执行 。 深度优先搜索策略 类似先进后出的队列方式。比较适合搜索深层次页面嵌套的目标站点,还能发现最大数目的交叉引用,但是容易导致爬虫的陷入 。 URL的搜索策略 深度与广度综合的搜索策略 逐步向下延伸,同时往广度方向遍历。虽然这种搜索方法综合平衡,但是容易造成重复搜索,降低效率且加重网络负担。 最佳优先搜索策略 预测候选链接与目标网页的相似度或主题相关性,对预测认为“有用”的链接进行搜索。优点在分析策略有效的前提下,搜索效率非常高;缺点是难以避免会遗漏一些链接。 网页的分析及信息的提取 基于网络拓扑关系的分析算法 根据页面间超链接引用关系,来对与已知网页有直接或间接关系对象作出评价的算法。网页粒度PageRank ,网站粒度 SiteRank。 基于网页内容的分析算法 从最初的文本检索方法,向涉及网页数据抽取、机器学习、数据挖掘、自然语言等多领域综合的方向发展。 基于用户访问行为的分析算法 有代表性的是基于领域概念的分析算法,涉及本体论。 发展趋势 网页库级层次垂直搜索 智能化的数据分析和挖掘方向 自动化地结构化数据信息抽取技术 应用技术研究 网络爬虫Heritrix Herit

文档评论(0)

小教资源库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档