计算机的技术前沿总结.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
计算机的技术前沿总结

搜索引擎与信息检索 搜索引擎技术是集体智慧在Web领域里的一个重要应用,主要包含搜集文档 、建立索引 、结果排序等 全文搜索算法是最重要的集体智慧算法之一,事实证明,人们在这一领域里所产生的新想法已经创造出了大量的财富 信息检索是研究对大规模信息进行快速、准确而全面地获取、组织、挖掘和提供访问的一门学科,其目标是要从大规模文档集合中返回满足用户需求的文档子集 信息检索涉及自然语言处理、机器学习、数据挖掘、并行分布式处理等多个领域的相关理论和技术 基于内容的度量方法 单词频度 文档位置 单词距离 基于链接的度量方法 到目前为止,我们对评价度量的讨论都是基于网页内容本身 对搜索结果加以改善,我们可以考查外界就该网页所提供的信息——尤其是谁链向了该网页 基于网页链接的度量方法,最为简单的做法,是针对每个网页统计其链接的数目,并将链接总数作为针对该网页的度量 基于链接的度量方法中 最著名的算法是PageRank算法 基于链接的度量方法 通过一个具体的例子来看一看PageRank的计算方法 图中,网页B、C和D均指向A,它们的PageRank值已经计算得出。B还指向另外三个网页,而C则指向其他三个网页,D只指向A。为了得到A的PageRank值,我们将指向A的每个网页的PageRank值除以这些网页中的链接总数,然后乘以阻尼因子0.85,再加上一个0.15的最小值 PR(A) = 0.15 + 0.85 * ( PR(B)/links(B) + PR(C)/links(C) + PR(D)/links(D) ) = 0.15 + 0.85 * (0.5/4 + 0.7/5 + 0.2/1) = 0.54525 推荐系统 全球的网络化、信息化进程深刻地改变了人类的生存方式,Internet 技术的应用给人们生活和工作的各个层面带来了深刻的影响 网络上的“信息过载”和“信息迷航”问题日益严重 解决这些问题的关键在于将Internet 从被动接受浏览者的请求转化为主动感知浏览者的信息需求 推荐系统 推荐系统中的推荐技术主要分为三类 基于内容的推荐技术 协作型过滤推荐技术 混合推荐技术 几乎所有的大型电子商务系统,如A、eBay、China-pub等,都不同程度地使用了各种形式的推荐系统 各类图书馆的联机数据检索、网络信息检索、社交网络、在线信息共享社区等各种信息服务都开始应用相关的推荐算法 推荐系统 协作型过滤通常的做法是对一大群人进行搜索,并从中找出与当前人品味相近的一小群人 算法会对这些人所偏爱的其他内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表 推荐系统的经典案例──Netflix Netflix是美国最著名的流媒体影视播放服务商,它为全球上千万顾客提供DVD电影租赁服务和影视剧在线观看服务 Netflix拥有一个自行研发的推荐系统──Cinemath 设计推荐系统的基本方法 建立模型 寻找相近用户 欧几里德距离(Euclidean distance)评价 皮尔逊(Pearson)相关度评价 其他相关度评价方法 为用户寻找最佳匹配 为用户推荐商品 集体智慧中的常用算法 贝叶斯分类器 决策树分类器 神经网络 k-最近邻 优化技术 贝叶斯分类器 贝叶斯分类器常用于文档处理,比如垃圾邮件过滤,基于关键字的文档分类等 贝叶斯分类器需要利用样本数据进行训练 ,每个样本包含了一个特征列表和对应的分类 以文档分类为例,所谓的特征也就是文档中出现的单词 一篇包含单词“java”的文档究竟是关于编程语言的,还是关于咖啡的。那么“编程语言”和“咖啡”就是两个分类 单词 编程语言 咖啡 Static 0.6 0.1 Drink 0.0 0.6 Island 0.1 0.2 Source 0.3 0.1 And 0.95 0.95 优缺点 朴素贝叶斯分类器与其他方法相比最大的优势在于,它在接受大数据量训练和查询时所具备的高速度 尤其当训练量逐渐递增时更是如此——在不借助任何旧的训练数据的前提下,每一组新的训练数据都有可能引起概率的变化 朴素贝叶斯分类器的最大缺陷是它无法处理组合特征的情况 “在线”和“药店” VS “在线药店” 决策树分类器 利用决策树进行分类非常简单,只要从树的根结点开始,对每个结点的判断条件进行检查 ,如果结点的判断条件满足,就走某个分支,否则,就走另一个分支 直径 颜色 水果 4 Red Apple 4 Green Apple 1 Red Cherry 1 Green Grape 5 Red Apple Red Green Apple Apple Cherry Grape Apple 直径 4

文档评论(0)

liwenhua00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档