信息检索与信息抽取差异性探析.docVIP

  • 7
  • 0
  • 约7.1千字
  • 约 17页
  • 2018-10-29 发布于广东
  • 举报
信息检索与信息抽取差异性探析.doc

信息检索与信息抽取差异性探析 [ ]通过发表论文、会议组织、出入口、 关键技术、发展趋势等方面对信息检索与信息抽取进 行比较分析,发现信息抽取与信息检索有着质的不同。 信息抽取不是信息检索的发展方向,但信息抽取技术 可以很好地应用于信息检索系统。分析两者之间的差 异有利于研宄的深入,理清它们的关系有利于共同促 进。 [关键词]信息检索信息抽取命名实体识别 模式匹配规则抽取 [分类号]G35 TP391 李保利等人从功能、处理技术与适用领域等三个 方面介绍了信息检索与信息抽取的不同。李芳等人在 阅读大量相关文献的基础上,简要介绍了信息抽取、 信息检索与自动文摘的区别,认为信息抽取是“更高 级的信息检索”。文献[3]分析了信息检索与信息抽取 的特点和不足,认为信息检索技术的研究主要侧重于 语料库的方法,信息抽取技术的研宄更侧重于自然语 言的理解,基于符号的处理方法,并最终提出了一个 结合两者优势的信息获取模型。 然而笔者认为,信息抽取不是信息检索的高级阶 段,它并不能代表信息检索的发展方向。信息抽取可 以应用于信息检索,提高检索质量与精度,反之,信 息检索的应用也会对信息抽取提出更新的挑战。 1、信息检索与信息抽取的学术关注度差异 在中国知网上检索相关文献(题名或关键词精确 匹配),关于信息抽取的第一篇文章为1997年刊登在 《情报学报》上的《基于信息抽取和文本生成的自动 文摘系统设计》;关于信息检索的第一篇文章为1980 年刊登在《情报科学》上的《全息情报检索QCU系统 简介》;关于文献检索的第一篇文章为1976年刊登在 《武汉大学学报(理学版)》的《怎样查找科技文献资 料》。从1997至2006十年间关于信息抽取的文章共 393篇,年均39篇,关于信息检索的文章达到6269 篇,年均627篇,是信息抽取的16倍。近10年来信 息检索与信息抽取的文章发表数量如表1所示: 从绝对数量上看,信息检索的文章远远多于信息 抽取,甚至高出一个数量级。信息抽取的研宄起步比 较晚,只有10年的时间,而信息检索的研宄比较成熟, 己有几十年的时间。关于信息抽取的文章,增长最多 的时候出现在2004与2005年,分别增长29篇与31 篇。关于信息检索的文章,每年的增量都在100篇左 右,只有2005年出现了很小的负增长,而增长率最高 的时候出现在2000年前后,从1999年到2001三年 间保持着30%左右的增长。为了能在同一幅图里显示 信息抽取与信息检索文章的增长趋势,把信息检索的 文章数量进行缩小,缩小到与信息抽取的文章处于同 一数量级(每年文章数量除以16),如图1所示: 从图1中可以看出,信息检索得到了持续的关注, 从1998年开始迅猛增长,增长的原因主要是搜索引擎 的崛起,带动了整个信息检索领域的新发展。而信息 抽取从20世纪90年代末开始得到关注,从2003年开 始得到迅速发展。目前信息抽取的增长势头非常迅猛, 而信息检索相对平稳一些。如果说10年间信息抽取的 研究经历了从无到有的过程,那么信息检索的研宄就 是从弱到强的过程。 2、信息检索与信息抽取的相关会议 关于信息检索的国内会议比较多,其中包括:中 国科技情报学会计算机情报检索专业委员会从1980 至1986年举办了 5届全国机器检索学会交流会,该系 列会议后来改名为全国计算机情报检索学术讨论会, 后来再次改名为全国计算机信息管理学术讨论会;中 国中文信息学会信息检索与内容安全专业委员会举办 的全国信息检索与内容安全学术会议,今年将举办第 三届会议;随着搜索引擎的迅速发/PC关于搜索引擎 三届会议;随着搜索引擎的迅速发 /PC 关于搜索引擎 的会议也显得越来越重要,中国计算机学会互联网专 业委员会举办的全国搜索引擎和网上信息挖掘学术研 讨会,2007年已举办了第五届;另外,微软亚洲研宄 院联合清华大学、香港中文大学于2004年共同承办了 首届亚洲信息检索研讨会。 关于信息检索的最有影响力的两个国际会议组织 当属TREC与INEXo TREC由国际标准和技术委员会及 美国国防部共同资助,每届参会的人数很多,提供丰 富的评测标准与实验数据,是目前最权威的检索评价 会议;INEX由DELOS数字图书馆网络组织和IEEE计算 机学会资助,主要针对基于内容的XML检索提供统一 评价程序。这两大会议是国际上公认的权威评测机构, 而国内关于检索方面的评价还很少,全国搜索引擎和 网上信息挖掘学术研讨会近年来主要是针对分类进行 评测。 信息检索会议举办得如火如荼,但以信息抽取命 名的会议在国内还很少,比较有影响力的是微软亚洲 研宄院于2005年举办的信息抽取技术暑期研讨班。国 际上比较有影响力的当属MUC,它是20世纪80年代 末由美国国防部的DARPA发起的,旨在通过一系列国 际化的研宄系统测评

文档评论(0)

1亿VIP精品文档

相关文档