现代信息检索研究 - 谢谢您的光临哦.pptVIP

现代信息检索研究 - 谢谢您的光临哦.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代信息检索研究 - 谢谢您的光临哦

ACM Transactions on Information Systems ACM Transactions on Information Systems (TOIS) * * Hyperbolic双曲树 * * * * * 在命题逻辑中,有些问题得不到解决 例如:判断以下推理是否正确: 凡人都是要死的, 苏格拉底是人, 所以苏格拉底是要死的。 这是著名的“苏格拉底三段论”,若用分别表示以上3个命题,推理形式为,不是重言式,也就是说用命题逻辑无法解决这个根据常识就可断定的正确推理。 因此,有必要研究简单命题的各种成分(个体词,谓词,量词),以及它们的形式结构和逻辑关系,总结出正确的推理形式和规则。这部分内容即一阶逻辑(又称谓词逻辑)。 贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是: ?    已知类条件概率密度参数表达式和先验概率 ?    利用贝叶斯公式转换成后验概率 ?    根据后验概率大小进行决策分类   显然我们得到后验概率的提条件是已经知道先验概率和条件概率密度函数。当特征向量的维数不高时,我们可以通过样本统计出类的条件概率密度。不幸的是,我们面临的数据往往具有非常多的特征,即实际中我们往往面临的是一个高维特征向量,在这种情况下,如果我们仍然想通过样本统计的方法来求条件概率密度就会遇到问题:   首先,我们很难得到一个容量足够大的样本。   其次,即使我们的样本足够多,在实际操作上也是不可行的。因为进行统计的时间复杂度是无法忍受的。   为了解决“维数”问题,我们有两种思路:一是朴素贝叶斯方法,另一种就是贝叶斯网络。 朴素贝叶斯分类器采用最简单的假设,即:给定类别下各特征量x=[x1,…,xd]是条件独立的,即有?????? P(x1,…,xd|ωi)=∏s=1,..,d P(xs|ωi) ? ?? 按照这种方法,现在的联合概率分布空间的大小为d。这样就使得统计方法来求类的条件概率密度成为可能。当然朴素贝叶斯方法的缺点是显而易见的。   贝叶斯网络采取另一种思路。一般认为人类在推理过程中,信息并不是以联合概率分布形表现的,而是以变量之间的相关性和条件相关性表现的,即可以用条件概率表示。因此,BN有一个非常重要的假设就是变量Xi在给定其父节点的条件下独立于其非后继节点。 ??? 上面关于贝叶斯网络的叙述显得过于抽象,下面我将给出更加具体的描述。简而言之,贝叶斯网络是一个带有概率注释的有向无环图.任何一个结点出现的概率只受它的父结点的影响。 关于一组变量X = {X 1, X 2, ... , X n}的Bayesian网络由以下两部分组成: 1) 一个表示X 中变量的条件独立断言的网络结构S ;2) 与每一个变量相联系的局部概率分布集合P。S 是一个有向无环图, S中的节点一对一地对应于X 中的变量, 节点之间缺省弧线表示条件独立。S 和P 定义了X 的联合概率分布. ?第1 步, 必须确定为建立模型有关的变量及其解释。 ?第2 步,建立一个表示条件独立断言的有向无环图 ??? X的联合概率公式:p(X)=∏p(xi|x1,x2,…xi-1)???????? ?? 用Pai 表示Xi的父结点集,则Pai=(x1,x2,…xi-1) ?为了构建贝叶斯网络,需要决定每个节点的父结点集Pai (i=1,2,…,n)。 * Query R:Query Reconstruction Text R: Text Reconstruction 中文分词(Chinese Word Segmentation),词干还原(Stemming),停用词消除(Stop word removal),查询处理(Query operations):对经过文本处理后的查询进行进一步处理,得到查询的内部表示(Query Representation),查询扩展(Query Expansion):利用同义词或者近义词对查询进行扩展,查询重构(Query Reconstruction):利用用户的相关反馈信息对查询进行修改,文本标引(Indexing):对经过文本处理后的文本进行进一步处理,得到文本的内部表示(Text Representation),通常基于标引项(Term)来表示 * * Repository知识库,仓储 Corpus语料库 * XML是eXtensible Markup Language的缩写。扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用。 XML与Access,Oracle和SQL Server等数据库不同,数据库提供了更强有力的数据

文档评论(0)

精华文库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7111022151000002

1亿VIP精品文档

相关文档