1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
20081128mazh

对电子环境下主题控制系统检索应用的思考 北京大学信息管理系 马张华 讨论内容 在文本检索、关键词检索系统迅速发展的情况下,基于主题控制词表的检索系统还有没有价值?目前的主题标引规则、方法应如何发展,以及研究动向等。 主题控制系统检索应用的思考 一、对词汇控制系统的重新审视 二、控制系统与文本系统性能比较 三、文本检索系统电子环境下的应用以及词汇控制系统差距 四、关于主题控制系统标引实践和规则改进的思考 一、对词汇控制系统的重新审视 1.1 自然语言特点及其控制的必要性; 1.2 主题分析基础上的标引。 1.1自然语言特点及其控制的必要性 --简要的标引语言类型区分 1.1自然语言特点及其控制的必要性 词汇控制指根据标引和检索的需要,对自然语言的词汇进行选择、规范并揭示其相关性。原因: 词汇量过大——一些词无标引价值。(控制方式:选词) 词汇与概念不一一对应: (控制方式:参照、限定、加注 一义多词:计算机、电子计算机、电脑 一词多义:病毒-医学、计算机 词义含糊:计算机分析-分析计算机、用计算机分析? 缺乏明确的结构——自然语言词汇之间关系的多元性和不确定性,不符合检索系统的使用特点。(控制方式:建立参照、多种索引系统) 1.2 主题分析基础上的标引 通过主题分析弄清文献有标引价值的主题,有效揭示文献主题内容; 结合主题分析的结果按照检索语言及其标引规范,加以标识,有助于提供适用的标识。 对词汇控制系统的重新重新审视 对词汇控制系统的重新审视: 1.1自然语言特点及其控制的必要性; 1.2主题分析基础上的标引。 常识判断:词汇控制和标引有助于有效揭示和检索文献主题。 二、控制系统与文本系统性能比较 控制语言有没有价值,或词汇控制是不是必要: 两者的功能讨论。检全率、检准率,处理速度、易用性、成本效益。各自的问题。 两者对于文献的适用性讨论。网络资源,论文资源,图书。使用现状。 ? 两者的功能讨论。各自的问题。 检全率 检准率 处理速度 易用性 成本效益 在一些方面中是相对与互补的关系:如检全率,控制系统可以进行概念检索、相关词扩展,文本系统的标识量大,均是检全因素。应结合具体应用讨论。 控制系统与文本系统比较—功能的相对性与互补性 两者对文献适用性的讨论 不同领域应用的情况: 图书。控制系统与相关字段文本检索结合; 论文资源。文本检索是主流,结合部分控制系统; 网络资源。文本检索是主流。 影响控制使用的因素主要包括:资源数量与处理能力,成本效益的结合考虑等。 概要结论 控制有益于检全、检准、易用性。不利于,处理速度、输入成本。影响控制使用的因素主要包括:资源数量与处理能力;成本效益的结合考虑等。 文本系统应引入控制;控制系统则应加强处理能力,降低成本,应用好控制系统的功能。 三、文本检索系统电子环境下的应用以及词汇控制系统差距 文本检索系统的改进努力 词汇控制系统的努力与差距 文本系统的改进努力:控制的纳入 检索方式:提供简单检索、高级检索、专业检索等检索界面。上述方面文本系统略优;努力提供自然语言检索能力。 (引入句法控制、词汇控制) 检索排序:多因素结合提供;多种排序方式的采用; 两者差距不大。(引入多因素控制) 检索优化:相关检索帮助,百度,Ask; 二次检索;Vivisimo(引入词汇控制) 检索入口的改进,以搜索引擎为例:自然语言检索,还不是智能检索 检索排序显示的发展与改进,以网络为例 排序显示的意义:是提高检准率的重要手段。 采用检索匹配加权的形式进行排序显示,可以在保障检全率的同时,将符合检索要求的对象排列在检索结果的前列,提高检准率。 网络系统中检索排序因素的拓展 目前采用作为排序依据的加权方案涉及的因素包括: –网页中查询词匹配数量 –网页中多个查询词匹配的完备程度 –匹配单元和分解问题 –匹配词的接近程度 –网页中术语的位置e.g. title, h1, link text, body text –本页词频和总词频之比 –指向本页的锁定文本 –指向本页的链接分析 –有时,点击分析 –对于新网页,结合考虑新鲜度问题 关于商业因素。例如:某些系统如发现检索对象与人为增加检索要素的商业公司网站有联系,则不予排列等。 链接控制 -作为重要性测量(略) 例:每一网页从100分开始。 按入链分数重新计算 。 延续计算直到分数不再变化。 网络社区的识别与应用 网络关键词检索技术的特点与传统文本检索的不同 主要表现在: 1.??重视查准因素,忽略检全因素。 2.?结合网络文献的特点,?扩大了检索算法的应用,提高结合多种因素的应用能力。 3.??更加重视易用性。 检索优化的发展 检索优化的含义与必要性 检索优化

文档评论(0)

kabudou + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档