06第六章查询与界面试题.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * 举例: * * * * * 简单方法 根据多个文档摘要中出现的非停用词进行简单的聚类 改进方法 使用短语 使用其它特征 - 短语出现在标题中还是页面摘要中 - 短语的长度 - 短语在文档中出现的频率 - 聚类结果簇之间的相互重叠度 结果聚类方法 * 逐步分类法(Faceted classification) 由一些类别构成,通常这些类别被组织成层次形式,每个类别用一组层面来描述与其相关的一些重要属性 层次的分类主要是通过人工定义,也可以使用自动生成簇标签。 -人工定义优点是类别更易于被用户理解,缺点是对于每个 新的应用和领域,都要重新定义类别,并且人工构建的 类别是静态的,不能动态调整。 结果聚类方法(Cont.) * 逐步分类法适用于电子商务领域 Eg. 查询“tropical fish”返回的类别集合 这种组织方式在用户浏览检索结果时,具有很好的引导性和灵活性。 结果聚类方法(Cont.) * 图 在类别“Home Garden”中的子类别和层面 * 通过对一个或多个采用不同语言的单语言搜索引擎中的查询进行翻译,可以实现跨语言搜索。 跨语言搜索引擎中,采用一种语言的查询和其他各种语言的文档。 用户一般不会熟悉多种语言,所以跨语言搜索引擎必须能够自动翻译查询:包含查询翻译和文档翻译。 自动翻译最显而易见的方法是,使用一个大型双语字典将源语言词汇翻译到目标语言,通过在字典中查找句子中的每个词进行翻译。这个方法的主要问题是如何处理歧义。通常,单纯利用字典进行翻译效果很差,但可以采用一些技术,如“查询扩展”去减少歧义,并将跨语言系统的排序效果提高到与单语言系统相当的程度。 6.3.3 跨语言搜索 * 6.3.3 跨语言搜索(Cont.) * 基于统计机器翻译模型:是最有效和最常用的自动翻译方法。 与翻译查询不同,翻译文档或网页时,不仅歧义是一个问题,而且需要考虑翻译的句子是否符合语法。 在翻译句子的时候,一些词的顺序可能会改变,可能会被略掉或者翻译成更多的词。 统计翻译模型用概率来表示这些变化,这意味着这个模型描述了一个词被翻译成另一个词的概率、词改变顺序的概率、词被略掉或翻译成多个词的概率,用这些概率计算出句子最有可能的翻译结果。 如果翻译概率很准确,那么会有高的翻译质量 基于短语的翻译模型:它不是计算单个词的概率,而是计算词序列的概率,这种模型能够在翻译中更好地使用上下文。 6.3.3 跨语言搜索(Cont.) * 查询转换与提炼 停用词去除与词干提取 拼写检查和建议 查询扩展 相关反馈 上下文和个性化 搜索结果显示 搜索结果页面与页面摘要 广告与搜索 结果聚类 跨语言搜索 - -。 总 结 * Rocchio算法图示 能够将相关/不相关文档完美地分开 * Rocchio 1971 算法 (SMART系统使用) qm: 修改后的查询; q0: 原始查询; Dr 、Dnr : 已知的相关和不相关文档集合 α, β, γ: 权重 新查询向相关文档靠拢而远离非相关文档 α vs. β/γ 设置: 如果判定的文档数目很多,那么 β/γ可以考虑设置得大一些 一旦计算后出现负权重,那么将负权重都设为0 在向量空间模型中,权重为负是没有意义的。 实际中使用的公式: * 正(Positive)反馈 vs. 负(Negative)反馈 正反馈价值往往大于负反馈 比如,可以通过设置 β = 0.75, γ = 0.25来给正反馈更大的权重 很多系统甚至只允许正反馈,即γ=0 * Rocchio算法(Cont.) * Rocchio算法(Cont.) * 显示相关反馈存在的问题 显示相关反馈开销很大 相关反馈生成的新查询往往很长 长查询的处理开销很大 用户不愿意提供显式的相关反馈 很难理解,为什么会返回(应用相关反馈之后)某篇特定文档 Excite搜索引擎曾经提供完整的相关反馈功能,但是后来废弃了这一功能 * 隐式相关反馈 通过观察用户对当前检索结果采取的行为来给出对检索结果的相关性判定。即从用户行为中推断出来的,这些行为比如观察用户选择查看或不查看哪些文档,查看文档所持续的时间,或者浏览页面、卷动滚动条操作等。 判定不一定很准确,但是省却了用户的显式参与过程。 * 隐式相关反馈小结 优点: 不需要用户显式参与,减轻用户负担 用户行为某种程度上反映用户的兴趣,具有可行性 缺点: 对行为分析有较高要求 准确度不一定能保证 某些情况下需要增加额外设备 * 伪相关反馈:不是让用户去识别相关文档,而是系

文档评论(0)

4477769 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档