面向垂直搜索的聚焦爬虫研究及应用.pptVIP

下载本文档

0
0
约2.85千字
约 42页
2019-05-20 发布于江西
举报
版权申诉

面向垂直搜索的聚焦爬虫研究及应用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

功能需求考虑到今后实际在多个招聘站点抓取时，可能需要建立一套统一的类目信息映射关系，系统要求单独记录“职位类别”和“行业类别”这两个特殊元数据信息到数据库功能需求支持有条件地保存抓取来的职位信息，譬如只保存晚于某指定日期发布的职位信息含控制台程序，可控制、监视系统运行，运行结束反馈总结报告信息性能需求可配置性可修改性并发性组件化可扩展通用性开发环境开发语言：Java 开发工具：Eclipse 数据库：MySQL 核心技术 Heritrix：（版本1.12.1） WebHarvest：（版本1.0） Spring Framework：（版本2.0.7） iBatis：（版本77） Jakarta Commons 系统结构图算法流程图数据流图代码实现点击播放演示存在的问题网站改版，维护成本高不适合大范围站点抓取服务器端运行，容易被封IP 增量抓取，无特别有效的处理办法，大多依赖站点的排序规则来优化解决方向网页库级智能化信息获取分布式致谢！面向垂直搜索的聚焦爬虫研究及应用 OUTLINE 背景研究综述应用技术研究招聘搜索聚焦爬虫设计与实现背景搜索引擎搜索引擎分类通用全文搜索特点:关键字查询，海量数据例：Google、Baidu、Yahoo 垂直搜索特点：“专、精、深”，行业化例：Healthline、Kooxoo、Koubei 通用全文搜索的不足质量与性能之间难以兼顾，倾向于网络覆盖与响应速度搜索意图不明，基于关键字检索，结果含有大量干扰信息缺乏行业化的特征分析，无法实现提供个性化服务垂直搜索服务于局部专业领域的精确搜索用户难以描述他要找什么，除非让他看到想找的东西注重专业化与结构分析数据倾向于结构化和格式化垂直搜索的本质从主题相关的领域内，获取、加工与搜索行为相匹配的结构化数据和元数据信息。如数码产品mp3：内存、尺寸、大小、电池型号、价格、生产厂家等，还可以提供比价服务网络爬虫因沿超链接 “爬行”的工作方式，被称为爬虫或蜘蛛基于超链接与图的遍历算法，自动从网络下载Web信息的程序通常用来为搜索引擎提供数据源面向垂直搜索的聚焦爬虫将定向或非定向的网页抓取下来并进行分析后得到格式化数据的技术服务于垂直搜索，目标获取与主题相关的结构化数据和元数据信息研究综述工作原理与流程以一定的网页分析算法，提取与主题相关的超链接，加入待抓取队列根据一定的搜索策略，从待抓取链接队列中选择下一步抓取链接，并重复上述过程，直到满足某一条件停止从被抓取网页中提取结构化数据和元数据信息基础核心工作环节：网页抓取和信息提取。关键技术分析抓取目标的定义与描述网页URL的搜索策略网页的分析与信息的提取抓取目标的定义与描述针对有目标网页特征的网页级信息对应网页库级垂直搜索，抓取目标网页，后续还要从中抽取出需要的结构化信息。稳定性和数量上占优，但成本高、性活性差。针对目标网页上的结构化数据对应模板级垂直搜索，直接解析页面，提取并加工出结构化数据信息。快速实施、成本低、灵活性强，但后期维护成本高。 URL的搜索策略 IP地址或域名搜索策略搜索全面，不受多站点交错引用URL的干扰，但不适合多域名、分布式的大规模搜索。广度优先搜索策略类似先进先出的队列方式，逐层深入搜索。适合级数少的目标站点，但对于信息量大、层次结构深的目标站点，难以深入执行。深度优先搜索策略类似先进后出的队列方式。比较适合搜索深层次页面嵌套的目标站点，还能发现最大数目的交叉引用，但是容易导致爬虫的陷入。 URL的搜索策略深度与广度综合的搜索策略逐步向下延伸，同时往广度方向遍历。虽然这种搜索方法综合平衡，但是容易造成重复搜索，降低效率且加重网络负担。最佳优先搜索策略预测候选链接与目标网页的相似度或主题相关性，对预测认为“有用”的链接进行搜索。优点在分析策略有效的前提下，搜索效率非常高；缺点是难以避免会遗漏一些链接。网页的分析及信息的提取基于网络拓扑关系的分析算法根据页面间超链接引用关系，来对与已知网页有直接或间接关系对象作出评价的算法。网页粒度PageRank ，网站粒度 SiteRank。基于网页内容的分析算法从最初的文本检索方法，向涉及网页数据抽取、机器学习、数据挖掘、自然语言等多领域综合的方向发展。基于用户访问行为的分析算法有代表性的是基于领域概念的分析算法，涉及本体论。发展趋势网页库级层次垂直搜索智能化的数据分析和挖掘方向自动化地结构化数据信息抽取技术应用技术研究网络爬虫Heritrix Herit