- 1、本文档共88页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五讲网络检索
* 最近邻聚类(Nearest Neighbour) 算法流程 Step1:随机选择一个样本,以该样本为中心建立一个新簇; Step2:取下一个要分析的对象,如果没有对象需要聚类,那么聚类结束; Step3:计算当前对象与当前所有簇的相似度,得到相似度最大的簇及对应的相似度d,如果d阈值T,那么将该对象分配给选中的簇,更新簇的中心;否则以该对象为中心新建一个簇; Step4:返回Step2 * MaxDist算法 算法流程 Step1:从Ds中任取一个样本,例如D1,以D1作为簇中心新建一个簇 Step2:在Ds中找一个与D1最远的样本并以之为中心新建一个簇,从而形成两个簇,记录该最远距离为max,同时算出阈值(可以为max的p倍,1/2=p1); Step3: 对于剩下的点顺序扫描,计算该点与所有的簇的距离的最小值; Step4: 如果最小距离大于阈值并且未达到需要的类数,则以该点新建一个簇;返回Step3,否则如果没有点了或者达到需要的类数,结束聚类 Step5:返回Step3 * 文本聚类评估——纯度 用已有分类结果作为评测集合来评估 对于聚类结果中的类别r,nr是r中文档个数,表示属于分类中第i类在r中的文档个数 整个结果的纯度 * 文本聚类评估——F值 n(i,r)是属于i类但是分到r类中文档个数,nr是r类文档个数,ni是测试集合中i类中的文档个数,F是R和P的调和平均 最终结果,n是文档总数 * 分类聚类在搜索引擎中的应用 将检索语料进行事先分类,可以实现更准确的检索,降低检索的消耗,也便于检索结果的组织和显示。 将检索语料进行事先聚类,也可以在降低检索消耗的同时,实现更准确的检索 将检索结果进行事后聚类,便于快速用户定位所需要的结果 * 信息索引(indexing) 为加快搜索速度,建立特定的数据结构 不可能是逐个文档扫描(太慢) 倒排表、后缀树、签名表等等 大规模海量数据的索引常常用倒排表结构 Inverted file 所有的搜索引擎都用倒排表 速度最快 * 前向索引(Forward index) 文档1 b d a b b c b a d c 文档2 a b c d a c d b d a b * 倒排索引(Inverted index) 文档1 b d a b b c b a d c 文档2 a b c d a c d b d a b * 信息搜索 查询的分析 词法分析(分词/Stemming) 转换成搜索引擎可以处理的格式 查询的意图分析 相关度计算—信息检索模型(参见第三章) 查询扩展和相关反馈 摘要生成 * 查询的分析和挖掘 查询的意图分析 查询的意图分类 informational: 中国科学院 navigational: 中国知识产权局主页 transactional: 赴美签证表格下载 通过查询的意图分析可以指导后续的工作,是一个新的研究方向 查询日志挖掘 发现用户的兴趣 * 查询扩展 对用户的查询进行扩充 比如用户输入计算机,我们扩充一个词电脑 同义词扩展 同义词词典 通过统计构造的同义词词典 相关词扩展 相关词:“2006世界杯”与“德国” 基于全局分析的查询扩展:对文档集合进行分析得到某种相关词典 查询重构 对用户的初始查询进行修改(可以是加词、减词,或者对于向量模型表示的初始查询进行权重的修改等等),是比查询扩展更泛的一个概念 * 相关反馈 指根据用户对初始检索结果的干预来重新生成查询或者修改模型参数等等 伪相关反馈 系统假定一些相关的结果,并根据这些结果来进行返回 相关反馈是一种手段,目的可以是查询扩展或者重构,也可以是模型的调整 基于伪相关反馈和局部分析进行查询重构 根据某些文档中的信息来对查询进行重构 * 摘要生成 静态摘要 一个网页事先生成其摘要 动态摘要 基于Query的摘要,不同的Query会生成不同的摘要 静态摘要比较简单,但是由于多Topic问题的存在,效果往往不好 现代搜索引擎往往采用动态摘要,用户也认可这种方式 * 信息搜索的研究趋势 更精确的查询分析方法 更快捷的信息检索模型 多因素综合检索方法 快速并行检索 相关查询的快速推荐方法 结果的聚类 * Web作弊与反作弊 Web作弊(Web Spam)是指采取一些迷惑、欺骗搜索引擎的手段,使某些Web页面在检索结果中的排名高于实际应得的排名的行为 有人估计WEB中有10%~15%的作弊内容 搜索引擎优化(Search Engine Optimizing) 行业的诞生 正当手段:对网页进行优化(标题、布局) 作弊手段:欺骗搜索引擎的手段 反作
文档评论(0)