- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二二十届伞国计算机信息管理学术研讨会
面向信息检索的词汇知识发现
南京大学章成志苏新宁
(南京大学信息管理系,南京,210093)
【摘要】本文针对信息检索中词汇知识发现问题,提出面向信息检索的词汇知识发现框架结构,
对面向信息检索的词汇的定义、同义词、相关词、排除词等词汇知识获取与挖掘进行详细的介绍,
为,为后续的语义检索研究打下基础。
【关键词】信息检索,中文信息处理,知识发现,定义,同义词,相关词,排除词
1引言
我们正处于“信息爆炸”的时代,因特网是最主要的信息源。然而,因特网信息使用技术的发
展往往跟不上因特网信息的增长。搜索引擎可以为人们奄找与关键词相关的文档,但返回的结果往
往是文档数量太多而命中率不高。出现该问题的根本原因是:基于词语匹配的检索手段无法真正反
映用户的检索意图,用户在构造查询式、浏览查询结果方面的时间与智力开销较大。本文提出在传
统的词语匹配的基础上,进行初步的语义匹配的尝试,即:针对智能信息检索中词汇知识发现问题,
提出面向智能信息检索的词汇知识发现框架结构,对面向智能信息检索的词汇的定义、同义词、相
关词、排除词等词汇知识获取与挖掘进行详细的介绍,为后续的语义检索研究打下基础。
2面向信息检索的词汇知识发现总体框架
信息检索中涉及到词汇知识发现主要包括:命名实体识别、词汇同义词关系的自动识别、文本
主题概念或主题词的提取、词汇定义的提取、文本其他元数据的提取等,这些都可以归为信息提取
范畴。信息提取完成后,为后续的文本挖掘,如文本摘要、文本篇章结构分析、文本分类等提供了
基础。经过信息提取后,可以为信息检索用户提供基于内容的、多层次、不同颗粒度的检索信息。
面向信息检索的词汇知识发现总体况架如图1所示。图1给出了每一类词汇知识发现的大致流程方
法和最终用途。下节将具体介绍其中的四种主要词汇知识发现的方法。
3面向信息检索的词汇知识发现方法
3.1面向信息检索的词汇定义获取
随着网络的高速发展,信息资源也向海量方向不断的发展,崭新的术语层出不穷,同时旧的术
语概念也被赋予了新的含义。现在人们更加需要不断的学习,充实自己,跟上时代的潮流。第一步
往往就是要了解那些名目繁多的不断变化更新的术语概念,但是字典、词典义满足不了人们的要求,
因为它们往往不能及时更新。所以在如此海量的数据中如何快速的检索出我们所需要的术语概念就
显得非常必要与重要。本节从定义获取工作流程和实际系统两方面来介绍词汇定义获取的主要方法。
3.1.1定义获取工作流程
作者简介:章成志(1977一)男,博士研究生,主要研究方向为信息检索,数据挖掘与中文信息处理。苏新宁(1955
一)男,教授,博士生导师,研究方向为嗍络信息资源的研究与开发,情报检索算法与中文信息处理技术。
234
第二十届伞国计算机信息管理学术研讨会
is…”“Who
定义获取系统主要是针对用户对诸如“What is…”的提问从信息库中提取其相关定
义的一种知识获取系统。其一般的工作流程如下:(1)获取与提问有关的信息库。当系统获得用户提
is…”“Who
出的诸如“What is…”的问题时,定义获取系统需要从特定领域的语料库和/或Web文
本中查找到相关信息,将其组成一个信息库。(2)提取出定义的一般模式。从特定领域出发归纳出
该领域中定义或概念的一般模式,对这些模式进行优化。这是定义获取系统关键的一步,因为只要
把这些模式建立好了才能提高系统性能在接下来的抽取定义的过程中提高提取到的定义的准确性。
(3)提取“准定义”。使用第二步所得出的模式,对信息库进行定义抽取工作,得到一些“准定义”。
(4)优化整理“准定义”。根据定义的一般特征对准定义进行优化。通过上面的步骤,往往得到一
系列关于用户提问的“准定义”,这一步系统应该将这些“准定义”进行合并、重组、优化整理得出
我们所要的定义。
图1面向信息检索的词汇知识发现总体况架图
3.1.2现有的定义获取系统模型
现有的定义获取系统模型主要有:
1、北京工业大学
您可能关注的文档
最近下载
- 2024年10月27日云南昭通市事业单位选调笔试真题及答案解析.doc VIP
- 讲义总结岩土工程勘察讲义.ppt VIP
- 非常规油气勘探开发地质风险评估.pdf
- 中职 图形图像处理(Photoshop CS5)PS(第7章)教学课件 高教版.ppt VIP
- 市政道路监理规划-范本.pdf VIP
- 2025海南省通信网络技术保障中心招聘事业编制人员12人(第1号)笔试模拟试题及答案解析.docx VIP
- 《飞机上应急医疗》课件——心肺复苏的流程.pptx VIP
- 中职 图形图像处理(Photoshop CS5)PS(第6章)教学课件 高教版.ppt VIP
- 抖音直播社区公约.pdf VIP
- 地质灾害治理工程施工技术规范 DB50_T 989-2020 重庆.pdf VIP
文档评论(0)