对电子环境下主题控制系统检索应用的思考.pptVIP

对电子环境下主题控制系统检索应用的思考.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
同方检索优化实例 第三十一页,共六十一页。 文本系统的改进努力:控制的纳入 检索方式:提供简单检索、高级检索、专业检索等检索界面。上述方面文本系统略优;努力提供自然语言检索能力。 (引入句法控制、词汇控制) 检索排序:多因素结合提供;多种排序方式的采用; 两者差距不大。(引入多因素控制) 检索优化:相关检索帮助,百度,Ask; 二次检索;Vivisimo(引入词汇控制) 。 第三十二页,共六十一页。 文本检索系统的改进努力 文本控制的特点: 采用后控的方式; 多方面,多角度,词法、句法; 多因素; 文本控制的不足: 词汇控制不严格; 一些控制的方式仍有待优化、改进,如自动聚类,检索语句切分等,仍然在发展探索中 总体评价: 作了大量努力,有明显效果。 第三十三页,共六十一页。 控制系统的努力与差距 控制系统加强处理能力,降低成本的努力: 联合编目; 自动标引试验。 控制系统的不足: 检索语言能力的应用与开发不足,优势未得到发挥。 第三十四页,共六十一页。 检索语言能力的应用与开发的差距 可在词表和标引数据基础上提供,而未提供的功能包括: 检索入口方面:入口词检索;以浏览形式提供词表词的问题;相关词的提供问题。 检索优化方面:主题检索帮助方面可以提供的,如结合结合分类等提供;相关主题词提供;分类的二次检索,结合主题标题形式的二次检索帮助等。 第三十五页,共六十一页。 词汇控制系统的差距何在 A,主要是检索端或检索应用方面的差距。 B,检索端的重要性:功能是通过检索界面实现的,未实现的功能只是潜在能力;且无法在应用基础上进一步改进。 C,两者性能各有优缺点。但自然语言系统努力改进,控制系统改进不力,检索端成为短板。 第三十六页,共六十一页。 控制系统检索端差距的原因 对检索语言应用端的重视不够,停留在检索语言编制和标引阶段; 缺乏电子环境下应用的研究; 与计算机软件编制人员沟通不够; 应用基础上的改进不够----持续发展意识不够等。 应汲取网络、文本数据库等的发展,结合主题语言的特点改进。 第三十七页,共六十一页。 维基百科的分类界面-检索界面的多样性 第三十八页,共六十一页。 比较基础上的思考 词汇控制是有价值的,文本检索系统改进的手段之一是引入词汇控制; 基于词汇控制的检索系统的不足不是词汇控制造成的,而是检索应用的开发不充分的缘故, 目前控制系统的检索界面应向文本系统学习,结合控制语言的特点加以开发。 第三十九页,共六十一页。 四.关于主题控制系统标引实践和规则改进的思考 基本看法: 标引方法和规则是根据应用需要确定的,应结合电子环境下的实践发展、改进和调整。 在电子环境下检索系统的探索中,图书馆书目检索系统、文献数据库系统、网络检索系统正经历一个后者向前者学习,超过前者,前者反过来学习后者的过程。 不仅要向国外的同行学习,而且要善于向网络、文献数据库的检索发展学习;但向网络学习并非全盘否定自己。 第四十页,共六十一页。 理论、方法、规则的改进问题 想到的一些问题: 检索应用方式的优化改进问题; 使用方式以及相应规则的调整问题,比如说: 是不是建立标题;轮排还要不要?与标引规则。 还要不要控制,自由词的应用问题,入口词的问题; 特定主题类型标引规则的调整问题; 词表的应用问题,如作为切分工具; 词表系统的构建层次问题,如:wordnet—关键词—叙词 一检索系统中不同特点检索系统之间的结合和分工问题。 不同系统之间兼容与互操作问题。 其他问题,如主题标引中中文分面公式问题。 MARC格式的适用性和改造问题,灵活性问题,如轮排的处理;XML语言应用问题。 第四十一页,共六十一页。 控制系统的检索应用的改进问题 想到的几个基本功能,如: 检索入口界面词表浏览功能的提供; 入口词检索功能的采用,自然语言检索方式的加强; 检索优化功能的开发,如结合控制语言的二次检索功能,包括标题词浏览等,相关词的提供等; 一检索系统中不同特点检索方法之间的结合和分工问题。 不同系统之间兼容与互操作问题。 其他方法的引入等。如用户因素等。 第四十二页,共六十一页。 结合使用方式的相应标引处理规则的思考或调整,如: 是不是建立标题;还要不要轮排?(文本系统缓存中的先组标题保留) 自由词的应用与控制问题,结合检索词的入口词拓展问题; 特定主题类型标引规则的调整问题;如地区,文学、艺术,特殊文献类型等; 主题标引中中文分面公式问题; MARC格式的适用性和改造问题,灵活性问题,如轮排的处理; 第四十三页,共六十一页。 对电子环境下主题控制系统检索应用的思考 第一页,共六十一页。 讨论内容 在文本检索、关键词检索系统迅速发展的情况下,基于主题控制词表的检索系统还有没有价值?目前的

文档评论(0)

虾虾教育 + 关注
官方认证
文档贡献者

有问题请私信!谢谢啦 资料均为网络收集与整理,收费仅为整理费用,如有侵权,请私信,立马删除

版权声明书
用户编号:8012026075000021
认证主体重庆皮皮猪科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500113MA61PRPQ02

1亿VIP精品文档

相关文档