- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
王鹏云:实时搜索架构分析
王鹏云:实时搜索架构分析
王鹏云:大家下午好,感谢主办方把我安排在第一个演讲, 有一个好处,听众还醒着。不过今天的演讲应该是很有吸引力,后面两位都会很精彩,应该大家不会这么轻易的睡着了。我们在交流的时候,刘主编在很早的时候给 我们发了一个邮件说这次报名非常踊跃很快达到250了。跟大家开一个玩笑,我们下面开始我今天的主题演讲。
我讲的是实时搜索架构分析,今天大概内容主要是先简单了解一下实时搜索是什么东西,其实实时搜索和传统搜索技术体系基本是一样的,没有太大的变化,简单介绍一下搜索系统基础知识,再把它跟传统搜索区别关键点给大家介绍介绍.
其实实时搜索也不是什么新鲜的事物,很早以前就有了。原来新闻搜索,社区搜索,包括我做贴吧 的时候,其实都需要用户发帖子内容可以很快的展现出来。这个东西不是什么新鲜事物,刚好赶上这个潮流,微博来了,把这个东西一推动,变成了一个热点,没有 什么神秘的东西。我觉得实时搜索,一些商业价值到现在为止没有什么特别明显。大家目前还没有靠这个挣钱,但是我觉得它的商业价值体现在这些地方。他是一种 新信息的聚合和放大。实时搜索在社交网络,是对信息传播方式很好的补充。你跟踪一个热点会看到你跟踪的人有了一些新的信息,你要获得这个全面信息你要进行 搜索。能够通过搜索的情况,不管是结果还是搜索量,对当前一些热门和热点趋势进行一些分析。我觉得这以后很可能成为一种商业模式的一部分。所有搜索非常关 键的一点就是能够直接表达用户的意图,通过这种意图投放广告是非常直接的方式。我觉得未来在搜索广告方面应该会有大的作为,这是我觉得实时搜索所具有商业 价值的一些关键地方。
目前号称提供实时搜索搜索引擎的非常多,谷歌不用说了,还有Twitter,还有一些第三方 的独立搜索引擎。我找了一下,结果发现太多,基本上各家都是大同小异。简单介绍一下搜索引擎基础知识,有几个大模块。不知道大家以前对搜索系统了解不了 解,我就介绍快一些。首先要获得你要希望搜索的一些内容,就是通过抓取,超链分析,或者信息索引,就是要对你获得这些网页进行索引内容提取,对这些内容进 行综合分析。然后是用户提交检索过程,对用户查询词进行分析,还有一些查询分析,做索引查询包括索引一些合并,一些过滤,一些计算。
传统搜索引擎和实时搜索区别主要在,第一个就是直观,就是一般我们实时搜索会做成一种比较酷的,信息会随着时间自动推移滚动的方式。这个不是一个很显著的区别,区别在于呈现方式。传统搜索会用静态的方式处理、显示这些内容,在搜索效果上传统引擎 会更关注与搜索相关性,实时搜索更注重时效性,实时搜索有很强新闻媒体价值在里面,如果很旧信息做搜索没有什么太大的价值。传统搜索引擎对信息重要性排序 一个关键因素就是PAGERANK,谷歌、百度都有这个指标。搜索PAGERANK值会变成一些数字化特征的东西,包括有多少人回复了,有多少人引用,有 多少人推动其他方式来对你发布的这个信息进行一种放大。我们提供一个API让信息员直接推送信息,这里面有几个考虑我们后面会简单介绍一下。基本数据分布,在分布上对数据进行切分也会有一些区别,传统搜索我们是通过URL切分,我们数据在几十亿量级,一个索引库不可能把所有数据都处理下来,必须分布到很多物理机器上。这种切分我们更多会采用URL方式。在实时搜索更多我们通过时间这个纬度切分库,这个也是比较明显的区域。
对于信息提取有两种方式。一种我们通过PUSH方式提供信息。为什么喜欢PUSH的方式?其 他方式会有很多麻烦,比如说我要搜索Twitter数据,这个抓取是通过超链分析的,这个是很困难的,通过抓取方式很难得到一个完整数据。另外通过抓取方式很难处理重复信息,一个信息会有多个URL反映,通过抓取方式你必须能够处理这些情况。还有另外很多原因。包括信息抽取,通常时候用抓取方式提取这个页面最关键的信息,这个通常比较准确,利用模板方式做,这样是比较准。通过一些启发式通用算法很难提取准确信息。通过模板做如果对方模板发生变化你所有这些模板必须跟着改,这是很大一个缺陷。我们更喜欢通过PUSH方式完成,为什么两者都要提供?因为不是所有人都会配合你做PUSH。对于你想搜索别人不配合你的时候,你只能用其他方式。在进入系统之前,我们会过滤一些垃圾信息,因为现在大家在新浪微博会看到很多信息是没有价值的,这些信息不过滤会导致搜索结果非常糟糕。这个在传统搜索引擎里面也有,整个搜索引擎核心是在索引这个部分。主体有两块,一个是放在内存里面,就是上面的蓝色的部分,然后下面是一个磁盘索引。内存索引里面我们有两个库,后面会讲到,这样做的意思是能够使它支持很多特性,包括整个索引过程中不会堵塞整个查询。怎么提高数据安全性?他们会通过定期的跟硬盘方式合并,硬盘索引会分成很多库,有一个查询器会对所有库进行数据查询,做出一个合
您可能关注的文档
最近下载
- 建筑施工高处作业安全技术规范JGJ80-202420240805.pptx VIP
- 【精编版】部编教材四年语文上册全册课后作业(含答案解析) .pdf VIP
- BHE-336F风电-光伏箱变智能监控装置说明书.pdf VIP
- 通力电梯LCE无机房KDM KDL中文注释版电气原理图.pdf
- 第二单元+探索+3+物联网的定位技术+课件+2024—2025学年苏科版(2023)+初中信息技术八年级上册.pptx VIP
- 人教版美术七上 第一单元第1课《情感的表达》课件.pptx
- 2025年招聘考试宝典物流经理竞聘笔试模拟题与答案详解.docx VIP
- 小学语文六年级上册期末试卷 (21).doc VIP
- 关于勤奋学习的名人故事(通用63则).docx VIP
- 2025年压裂装备市场分析报告.docx
文档评论(0)