- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何计算两个文档的相似度
如何计算两个文档的相似度
52nlp
前几,发布了一个和在线教育相的网站课程谱, 个网站的目的通
过对开课的导航推荐和点评等能方便大家找到感趣的开课,特别是目
前最火的 Coursera,Udacity 等开课的课 程在发布之前,遇到的一
个问题是如何找到两个相的开课,最早的计划是通过用户对课程的注和用
户对用户的注来做推荐,譬如你注的朋注 些课程,但是问题
是网站发布之前,没有积累用户注的数据外一个想法是提前给课程打
好标签,通过标签来计算它门之间的相似度,过是一个人工 标注的过程,
需要一定的时间然,一个很自然的想法是通过课程的文本内容来计算课程
之间的相似度,开课相对来说有很多的文本描述信息,文本分析的 角度来
处理种推荐系统的冷启问题失一个好的处理方法通过一些调研和
之前的一些工作经验,最终考虑采用 Topic model 来解决个问题,实方案很
简单,就是将两个开课的文本内容映射到 topic 的维度,然再计算相似度
然的然就通过 google 发现 了 gensim 个大的 Python 工包,它的简介
有一topic modelling for humans, 用过之,能由衷的说一感
谢帝,感谢 Google,感谢开源!
前课程谱中所有课程之间的相似度全部基于 gensim 计算,自写的调用
码到一行,topic 模型采用 LSI (Latent semantic indexing, 中文译浅层
语索引,LSI 和 LSA Latent semantic analysis,中文译浅层语分析
两个词常常混在一起,实,在维基科,有建将两个词合
一是课程谱的一个效果,课程著的机器学专家Andrew Ng 教
在 Coursera 的机器学开课,显示的是题模型计算排前 10 的相
课程,Andrew Ng 教时是 Coursera 的始人之一
最回到篇文章的题,将会分 3 个部分介绍,首先介绍一些相知识点,
过会细介绍每个知识点的细节,要是简要的描述一时提供一些互
联网现有的错的参考资料,如果读者经很熟悉,直接跳过去第部
分会介绍 gensim 的安装和使用,特别是如何计算课程谱 课程之间的相似
度的第部分包括如何基于全量的英文维基科400 多万文章,压缩 9 个
多 G 的语料在一个4g 内的macbook LSI 模型 和 LDA 模型,如何
将用到课程谱来改进课程之前的相似度的效果,注意课程谱的课程内
容要是英文,目前的效果是第部分的结果,第部分 们一起来实现
如果你的英文没问题,第,第部分直接阅读 gensim 的 tutorail,所
做的情要是基于个 tutorail 在课程谱做了一些验证
一相的知识点参考资料
篇文章会写很长,但是涉的知识点蛮多,所首先会在介绍相的知
识点,了解的学一笑而过,了解的学最好能做一些预,对于你 了
解 topic model gensim 更有好处如果时间允许,能会基于中
的某几个点写一篇较细的介绍性的文章过任何知识点首推维基科,然
才 是面所罗列的参考资料
1 TF-IDF,余弦相似度,向量空间模型
几个知识点在信息检索中是最基本的,入门级的参考资料看看吴军老师在
数学之美中第 11 章如何确定网页和查询的相性和第 14 章余弦定理
和新闻的分类中的通俗介绍或者阮一峰老师写的两篇科文章TF-IDF 余
弦相似性的用一自提取键词和TF-IDF 余弦相似性的用
找出相似文章
专业一点的参考资料推荐王斌老师在中科院所的研究生课程现信息检索
(Modern Information Retrieval)的课,中第讲向量模型权计
算和题相或者更细的参考王斌老师翻译的经的信息检索导论
第 6 章或者它相的信息检索书籍
2SVD 和 LSI
想了解 LSI 一定要知道 SVD Singular value decomposition, 中文译奇异值
分解,而 SVD 的作用仅仅局限于LSI,在很多地方都能到身影,SVD 自
生之,用领域断被发掘,夸张的说如果学了线性数而明
SVD,基本等于没学想快速了解或复SVD 的学参考个英文tutorail:
Singular Value Decomposition Tutorial , 然更推荐MIT 教 Gilbert
Strang 的线性数开课和相书籍,你直接在网易开课看相章节的
视频
于 LSI,简单说两,一种情况们考察两个词的系常常考虑的是它们在
一个窗口长度譬如一,一段或一个文章的共现情况,在语料语
您可能关注的文档
- 天线6.1_电偶极子.pdf
- 天线第八讲-同相直立天线与八木天线.pdf
- 天线阵列设计.pdf
- 天津井上高分子材料制品有限公司介绍资料(中文).pdf
- 大雅金开国际项目推介书.pdf
- 天翼团情第一期 (高清版).pdf
- 天翼对讲可视化调度2.0平台用户手册(开睿动力).pdf
- 天辰院管道材料、压力等级表.pdf
- 天翼对讲可视化调度业务介绍(开睿动力)V2.8.pdf
- 天线量测与场强量测(含EMC).pdf
- 人教版九年级英语全一册单元速记•巧练Unit13【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit9【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit11【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit14【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit8【速记清单】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit4【单元测试·提升卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit13【单元测试·基础卷】(原卷版+解析).docx
- 人教版九年级英语全一册单元速记•巧练Unit7【速记清单】(原卷版+解析).docx
- 苏教版五年级上册数学分层作业设计 2.2 三角形的面积(附答案).docx
- 人教版九年级英语全一册单元速记•巧练Unit12【单元测试·基础卷】(原卷版+解析).docx
文档评论(0)