- 5
- 0
- 约1.14万字
- 约 60页
- 2016-09-18 发布于河南
- 举报
TF*IDF 的指导思想建立在这样一条基本假设之上:在一个文本中出现很多 次的单词在另一个同类文本中出现次数也会很多,反之亦然。所以如果特征空间 坐标系取TF词频作为测度,就可以体现同类文本的特点。另外还要考虑单词区 别不同类别的能力,TF*IDF法认为一个单词出现的文本频率越小,它区别不同类别的能力就越大,所以引入了逆文本频度 IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度。 * NMF 低秩分解 * * plsa是一种topic model,它属于生成模型,给定文档d后,以一定的概率选择d对应的主题z,然后以一定概率选择z中的词语w. PLSA的通俗理解: 想象某个人要写N篇文档,他需要确定每篇文档里每个位置上的词。假定他一共有K个可选的主题,有V个可选的词项,所以,他制作了K个V面的 “主题-词项” 骰子,每个骰子对应一个主题,骰子每一面对应要选择的词项。然后,每写一篇文档会再制作一颗K面的 ”文档-主题“ 骰子;每写一个词,先扔该骰子选择主题;得到主题的结果后,使用和主题结果对应的那颗”主题-词项“骰子,扔该骰子选择要写的词。他不停的重复如上两个扔骰子步骤,最终完成了这篇文档。重复该方法N次,则写完所有的文档。在这个过程中,我们并未关注词和词之间的出现顺序,所以pLSA也是一种词袋方法;并且我们使用两层概率分布对整个样本空间建模,所以pLSA也是一种混合模
您可能关注的文档
- 基于单片机的多功能住宅安防报警系统的毕业设计论文.doc
- 基于网络和计算机的大学英语教学模式毕业论文.ppt
- 基于Android智能家居详细设计(经典)毕业论文.doc
- 单片机C语言程序设计实训100例-基于8051+PROTEUS仿真毕业论文.doc
- 单片机C语言程序设计实训100例—基于8051+Proteus仿真毕业论文.doc
- 基于PLC的数字电子钟毕业设计论文.doc
- 基于LLVM的编译器的设计与实现毕业论文.doc
- powerdesigner系统分析与建模(基于V15)毕业论文.ppt
- 基于PLC立体车库控制系统的设计应用毕业论文.doc
- 基于单片机的循迹小车实验报告毕业论文.doc
最近下载
- 45米砖烟囱人工拆除施工方案方案.docx
- 广西专升本财经与商贸大类冲刺模拟卷2.doc VIP
- 广西专升本财经与商贸大类冲刺模拟卷1.doc VIP
- 和经1988年议定书修正的1966年国际载重线公约(附英文).doc VIP
- f船舶流体力学仿真计算工程应用基础第3章.pdf VIP
- 120米烟囱脚手架方案.doc VIP
- 2025春季中国长江三峡集团有限公司校园招聘笔试历年参考题库附带答案详解(10卷合集).docx
- 国际金融英文课件2【ppt】.ppt VIP
- 2025中国长江三峡集团有限公司春季校园招聘笔试历年参考题库附带答案详解.docx VIP
- 2026中考历史知识点归纳总结.docx
原创力文档

文档评论(0)