- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
lecture18-lsi 第18讲 隐性语义索引 现代信息检索导论 教学课件
Introduction to Information Retrieval
现代信息检索
中科院研究生院2011年秋季课程《现代信息检索》 更新时间:
Modern Information Retrieval
授课人:王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/
第18讲 隐性语义索引
Latent Semantic Indexing
2011/11/27
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
4
层次聚类
层次聚类的目标是生成类似于前面提到的Reuters目录的一个层次结构:
这个层次结构是自动创建的,可以通过自顶向下或自底向上的方法来实现。最著名的自底向上的方法是层次凝聚式聚类(hierarchical agglomerative clustering,HAC)。
5
单连接: 最大相似度(最短距离)
6
全连接: 最小相似度
7
质心法
8
组平均
9
四种HAC算法的比较
方 法
结合相似度
时间复杂度
是否最优?
注 释
单连接
簇间文档的最大相似度
Ɵ(N2)
yes
链化效应
全连接
簇间文档的最小相似度
Ɵ(N2 log N)
no
对离群点敏感
组平均
所有文档相似度的平均值
Ɵ(N2 log N)
no
大部分应用中的最佳选择
质心法
所有簇间相似度的平均值
Ɵ(N2 log N)
no
相似度颠倒
10
簇标签生成的例子
文档数目
簇标签生成方法
质心
互信息
标题
4
622
oil plant mexico production crude power
000 refinery gas bpd
plant oil production
barrels crude bpd mexico dolly capacity petroleum
MEXICO: Hurricane
Dolly heads for Mexico coast
9
1017
police security russian
people military peace killed told grozny court
police killed military
security peace told troops forces rebels people
RUSSIA: Russia’s
Lebed meets rebel
chief in Chechnya
10
1259
00 000 tonnes traders
futures wheat prices
cents september tonne
delivery traders futures
tonne tonnes desk wheat prices 000 00
USA: Export Business
- Grain/oilseeds complex
三种方法:选择质心向量中的突出词项,使用MI的差别式标签,使用离质心最近的文档的标题
三种方法的结果都不错
11
本讲内容
矩阵SVD分解
隐性语义索引LSI(Latent Semantic Indexing)
LSI在IR中的应用
提纲
上一讲回顾
隐性语义索引
空间降维处理
LSI 在IR中的应用
13
回顾一下词项-文档矩阵
该矩阵是计算文档和查询相似度的基础,接下来我们要介绍,能否通过对该矩阵进行转换来获得文档和查询之间的一个更好的相似度计算方法?
Anthony and Cleopatra
Julius Caesar
The
Tempest
Hamlet
Othello
Macbeth
anthony
5.25
3.18
0.0
0.0
0.0
0.35
brutus
1.21
6.10
0.0
1.0
0.0
0.0
caesar
8.59
2.54
0.0
1.51
0.25
0.0
calpurnia
0.0
1.54
0.0
0.0
0.0
0.0
cleopatra
2.85
0.0
0.0
0.0
0.0
0.0
mercy
1.51
0.0
1.90
0.12
5.25
0.88
您可能关注的文档
- Governance for sustainable development environment and sustainable development 教学课件.ppt
- GPIO 嵌入式课件.ppt
- google_earth指南.pdf
- GPS原理与应用 教学大纲 (全套).doc
- GPS原理与应用 实验指导(全套).doc
- Google Earth 摄影测量基础 教学课件.ppt
- GPS出租车定位管理系1.doc
- GRE – Graduate Records Examination.pdf
- GQ001石膏板隔墙培训 装饰施工分项作业培训教材 教学课件.ppt
- Groovy DSLs 教学课件.ppt
最近下载
- 人教新目标八年级下册英语全册教案(最全).doc
- 中国风能太阳能资源年景公报2014.pdf
- 2021年数学英才登高系列活动(CMTS)试题.pdf
- 对培育当代革命军人核心价值观的调查与思考.docx
- 2013-2022年十年高考英语各题型考点对比分析(共7个专题).pdf
- 某市医疗保障局年深入开展医保领域群众身边腐败和作风问题专项整治工作方案.docx VIP
- 论持久战全文--毛泽东_txt下载.docx
- RIGOL普源精电DSA800配置手册用户手册.pdf
- 【大单元教学】第一单元《民艺蕴情》第2课《多样的中国民间美术》课件(36页)--人美2024版七年级下册.pptx VIP
- 劳动出版社《电机与电气控制(第三版)习题册》答案.pdf
文档评论(0)