- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web查询操作
同义词词林 《同义词词林》 梅家驹、竺一鸣、高蕴琦、殷鸿翔,上海辞书出版社1983 (第一版) ,1996年 (第二版) 架构 12大类,94中类,1428小类,3925个词群 12大类 A人,B物,C时间和空间,D抽象事物 E特征,F动作,G心理活动,H活动 I现象与状态,J关联,K助语,L敬语 举例: “苹果” Bh07, “西红柿” Bh06,…… 基于词典的扩展 对于在查询中的词t,通过同义词或者相关词进行扩展 土豆:土豆、马铃薯 优点 提高找回率 在科技工程领域应用广泛 不足 由于歧义,可能会降低精确率 人工构建词典,需要更新 Query assist 一般通过对查询日志的挖掘 推荐包含用户查询词的最近频繁发生的查询 排序问题,按照匹配的字符进行排序 第6章 查询操作 基本用户查询构造 单一词查询 逻辑操作 上下文查询 位置临近 短语查询 问题的提出 当系统确定了其索引形式和相似度计算方法后,性能的提高主要依赖于查询的表示和处理 在绝大多数系统中,索引过程和检索过程对于用户来说都是不透明的。用户不了解检索系统内部文档的分类,特征项的选取等情况。所以很难根据自己的需求来构造精确的查询。 解决方法 为了提高检索系统的性能,必须对用户输入的查询进行进一步的修改和调整 人们采取了相关反馈技术来修改查询,以提高检索系统的性能 通过移走不需要的结果和加入更多用户需要的结果去改善检索的结果 通过从用户处得到的相关性和非相关性的信息来实施 Query处理——相关反馈 文档检索 查询规范化 用户的信息需求 形式语言 文档表示 文档 索引 检索 相关反馈 检索出来 的文档 Query修改过程 F: 从用户那里接受相关性评估,输出相关文档和不相关文档 G: 实现相关反馈公式 检索 过程 F G 原始Q 排序输出 相关和不相关 的文档 重新形成的 query Q’ 相关评估 相关反馈的作用 x x 原始query x x 重新形成的query x 相关文档 不相关文档 根据原始的query 检索出5篇文档 Query修改的基本思路 出现在相关文档中的terms被添加到原始的query向量中, 或者这些term的权重在创建新的query时有某种程度的增长 出现在不相关文档中的terms被从原始query中删除,或者这些term的权重某种程度地降低 理想情况 Q = t1, t2, t3 处理query term后 相关 不相关 分值 N documents 分值 initial Rel docs Nonrel docs 分值 t1贡献的分值 t2贡献的分值 t3贡献的分值 理想情况:query terms只 出现在相关文档中! 一般情况 Q = t1, t2, t3 相关 不相关 分值 t1贡献的分值 t2贡献的分值 t3贡献的分值 一般来说,一个term可能在相关文档和不相关文档中都出现 问题是:是否应该在query中包含它,如果包含,怎样打分 优化的Query 根据已知的相关文档集DR和不相关文档集DN , 令 tik 表示词项 k 在文档i中的权重, 词项 k在两个集合中的平均权重分别为: 和 在优化后的query Qopt中词项 k 的权值定义为: 考虑不同的情况: 如果tk 仅出现在相关文档中, 它的权值非常高 如果tk 仅出现在不相关文档中, 它的权值就小,甚至为负 如果tk 在两类文档中都出现, 它的权值介于中间 Query修改 将用户提示的相关文档集DR’ 和不相关文档集DN’作为对DR 和DN 的估计,重复地修改query达到优化的目的 从初始query开始 Q 是初始的query, ?, ?和? 是一个合适的常数 Q, Q’,Di均为加权向量 以上的query修改公式是建立在已知全部相关文档集和不相关文档集的基础上,但是相关反馈只告诉了你“一些”相关或不相关的文档 举例 Q:初始query D1: 相关文档 D2:不相关文档 ? = 1, ? = 1/2, ? = 1/4 假设: T1 T2 T3 T4 T5 Q = ( 5, 0, 3, 0, 1) D1 = ( 2, 1, 2, 0, 0) D2 = ( 1, 0, 0, 0, 2) S(Q,D1) = (5?2)+(0 ? 1)+(3 ? 2)+(0 ? 0)+(1 ? 0) = 16 S(Q’,D1)=(5.75 ? 2)+(0.5 ? 1)+(4 ? 2)+(0 ? 0)+(0.5 ? 0)=20 S(Q,D2) = (5?1)+(0 ? 0)+(3 ? 0)+(0 ? 0)+(1 ? 2)
您可能关注的文档
最近下载
- 新解读《GB_T 6618-2009硅片厚度和总厚度变化测试方法》最新解读.docx VIP
- 英语专业四级(TEM4)词汇辨析.ppt VIP
- 2016款昂科威使用说明书.pdf VIP
- 三年级上册《体育与健康》全册教案.docx VIP
- YD∕T 2165-2017 通信用模块化交流不间断电源(可复制版).pdf
- 昂科威使用说明!昂科威问题汇总!从小白到高手的一瞬间!.doc VIP
- 2022蓝天消防JB-QB-5SI型火火报警控制器用户手册.docx VIP
- XXX加气站Z职业卫生预评价报告.pdf VIP
- Brunnstrom技术Brunnstrom技术Brunnstrom技术.ppt VIP
- “三全育人”工作实施意见.docx VIP
原创力文档


文档评论(0)