- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
NMF 低秩分解 * * plsa是一种topic model,它属于生成模型,给定文档d后,以一定的概率选择d对应的主题z,然后以一定概率选择z中的词语w. PLSA的通俗理解: 想象某个人要写N篇文档,他需要确定每篇文档里每个位置上的词。假定他一共有K个可选的主题,有V个可选的词项,所以,他制作了K个V面的 “主题-词项” 骰子,每个骰子对应一个主题,骰子每一面对应要选择的词项。然后,每写一篇文档会再制作一颗K面的 ”文档-主题“ 骰子;每写一个词,先扔该骰子选择主题;得到主题的结果后,使用和主题结果对应的那颗”主题-词项“骰子,扔该骰子选择要写的词。他不停的重复如上两个扔骰子步骤,最终完成了这篇文档。重复该方法N次,则写完所有的文档。在这个过程中,我们并未关注词和词之间的出现顺序,所以pLSA也是一种词袋方法;并且我们使用两层概率分布对整个样本空间建模,所以pLSA也是一种混合模型。 * 与pLSA的不同?? * * * 信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法 本质上是对相关度建模 * 三类 基于内容的信息检索模型 结构化模型 浏览型数学模型 基于内容的信息检索模型有 集合论模型 布尔模型、模糊集合模型、扩展布尔模型 代数模型 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型 概率模型 经典概率论模型、推理网络模型、置信(信念)网络模型 非覆盖列表(non-overlapping lists)模型和近似结点(proximal nodes)模型 * * 文档是文献在系统中的存储形式,主要由词构成。词包括关键词或标引词 查询反映了用户表达的信息需求 匹配函数把经过处理的文献表示和查询表示同时放在系统中进行匹配,通过设置不同的匹配函数得到不同的输出结果 然而,搜索引擎建设所有的词都是索引term(全文本表达) * * 布尔模型的优点 布尔模型为普通用户提供了一个容易掌握的框架。在模型中,查询被描述为具有精确语义的布尔表达式,其特点简单而整齐,为现代许多商业系统所用 只能严格匹配(得分不是0就是1),不能近似或者部分匹配,多个结果无法排序 ??一般用户构造查询不是很容易,构造不利可能造成结果过多或者过少 由康奈尔大学Salton等人在上世纪70年代末提出并倡导的,原型系统为SMART* * * 由于信息检索中文本信息相关判断的不确定性和信息表示的模糊性 * N-gram * * 布尔代数 在集合上的运算 例如文档集合 有四种运算操作 (就像在代数运算上一样): A: 取回集合A 我想要包含term library的文档 A AND B: 取回集合A 和 B 交集运算用 A ? B表示 取回同时包含library and digital 的文档 A OR B取回集合A 或者 B 并集运算用 A ? B表示 我想要至少包含library 和 digital 之一文档 A NOT B: 取回集合A 但不包含集合 B 否运算 用A – B表示 取回library但不包含 digital 的文档 使用Boolean 模型的检索系统 * 布尔模型——优缺点 布尔模型的优点 简单而整齐,为现代许多商业系统所用 自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好 布尔模型的缺点 检索是基于二值运算确定的,没有部分匹配的概念 检索回的文档之间没有排序 检索词必须被翻译成布尔表达式,这让很多用户感觉到不方便 由用户形式化的布尔检索词大多数情况下太简单了 因此,用布尔模型检索回的结果不是太多就是太少 布尔模型目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点 基于向量的模型 用二值的权重太受限制 向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标 这些权重用于计算系统中的每个文档与用户的查询请求的相似程度,向量模型通过对文档按照相似程度降序排列的方式,来实现文档与查询项的部分匹配 文档排列有序可使检索词与文档之间的匹配更好,返回的结果更合理 基于向量的模型 若干独立的词被选作索引项(terms) 索引项代表了一个应用中的重要词项 例如计算机科学图书馆中的索引项应该是哪些? 基于向量的模型 Define: wij 0 当ki ? dj时 wiq = 0 与(ki,q)关联 vec(dj) = (w1j, w2j, ..., wtj) vec(q) = (w1q, w2q, ..., wtq) 这些terms之间是不相关的,他们形成了一个向量空间(vector space) 基于向量的模型 实际上,这些词项之间是相互关联的 当你在一个文档中看到“计算机”
您可能关注的文档
- 2.2设计中的人机关系要点详解.ppt
- 2.3.1有理数的乘法要点详解.ppt
- 2.3.1政府的职能:管理和服务要点详解.ppt
- 2.3化学反应的利用要点详解.ppt
- 2.3快与慢1要点详解.ppt
- 2.3民主管理:共创幸福生活要点详解.ppt
- 2.3声的利用.要点详解.ppt
- 2.3声的利用优质公开课要点详解.ppt
- 2.3用频率估计概率要点详解.ppt
- 2.4.22015权力的行使需要监督(修订)要点详解.ppt
- 《2025年公共卫生应急报告:AI疫情预测与资源调配模型》.docx
- 《再生金属行业2025年政策环境循环经济发展策略研究》.docx
- 2025年开源生态AI大模型技术创新与产业协同趋势.docx
- 《2025年智能汽车人机交互创新研究》.docx
- 2025年专利申请增长趋势下的知识产权保护机制创新分析报告.docx
- 《2025年数字藏品元宇宙技术发展趋势分析报告》.docx
- 2025年折叠屏技术迭代中AI功能集成市场反应量化分析报告.docx
- 《2025年教育培训视频化教学与会员学习服务》.docx
- 《2025年工业软件行业CAD国产化应用场景分析报告》.docx
- 《2025年生物制药行业趋势:单抗技术迭代与产业链自主可控规划》.docx
最近下载
- 2023年资料员资格考试题库附参考答案(完整版).docx
- 2023《BIM工程师》继续教育题库及参考答案【夺分金卷】.docx
- 部编版道德与法治四年级上册《3我们班 他们班》教学反思(两篇).pdf
- 现代重工小型挖掘机_R150LVSPRO_产品手册用户使用说明书技术参数图解图示电子版.pdf VIP
- 22G101-2 现浇混凝土板式楼.docx VIP
- 部编版道德与法治五年级上册《5协商决定班级事务》教学反思(两篇).pdf
- R32装置操作规程.ppt VIP
- 2025年医学高级职称-卫生毒理(医学高级)历年参考题库含答案解析(5卷单选一百题).docx VIP
- 2023年心理咨询师考试题库含答案(满分必刷).docx
- 蔚蓝色精简风人力资源主管简历模板.docx VIP
原创力文档


文档评论(0)