- 7
- 0
- 约7.1千字
- 约 17页
- 2018-10-29 发布于广东
- 举报
信息检索与信息抽取差异性探析.doc
信息检索与信息抽取差异性探析
[ ]通过发表论文、会议组织、出入口、 关键技术、发展趋势等方面对信息检索与信息抽取进 行比较分析,发现信息抽取与信息检索有着质的不同。 信息抽取不是信息检索的发展方向,但信息抽取技术 可以很好地应用于信息检索系统。分析两者之间的差 异有利于研宄的深入,理清它们的关系有利于共同促 进。
[关键词]信息检索信息抽取命名实体识别 模式匹配规则抽取
[分类号]G35 TP391
李保利等人从功能、处理技术与适用领域等三个 方面介绍了信息检索与信息抽取的不同。李芳等人在 阅读大量相关文献的基础上,简要介绍了信息抽取、 信息检索与自动文摘的区别,认为信息抽取是“更高 级的信息检索”。文献[3]分析了信息检索与信息抽取 的特点和不足,认为信息检索技术的研究主要侧重于 语料库的方法,信息抽取技术的研宄更侧重于自然语 言的理解,基于符号的处理方法,并最终提出了一个
结合两者优势的信息获取模型。
然而笔者认为,信息抽取不是信息检索的高级阶
段,它并不能代表信息检索的发展方向。信息抽取可 以应用于信息检索,提高检索质量与精度,反之,信 息检索的应用也会对信息抽取提出更新的挑战。
1、信息检索与信息抽取的学术关注度差异
在中国知网上检索相关文献(题名或关键词精确 匹配),关于信息抽取的第一篇文章为1997年刊登在 《情报学报》上的《基于信息抽取和文本生成的自动 文摘系统设计》;关于信息检索的第一篇文章为1980 年刊登在《情报科学》上的《全息情报检索QCU系统 简介》;关于文献检索的第一篇文章为1976年刊登在 《武汉大学学报(理学版)》的《怎样查找科技文献资 料》。从1997至2006十年间关于信息抽取的文章共 393篇,年均39篇,关于信息检索的文章达到6269 篇,年均627篇,是信息抽取的16倍。近10年来信 息检索与信息抽取的文章发表数量如表1所示:
从绝对数量上看,信息检索的文章远远多于信息 抽取,甚至高出一个数量级。信息抽取的研宄起步比
较晚,只有10年的时间,而信息检索的研宄比较成熟, 己有几十年的时间。关于信息抽取的文章,增长最多 的时候出现在2004与2005年,分别增长29篇与31 篇。关于信息检索的文章,每年的增量都在100篇左 右,只有2005年出现了很小的负增长,而增长率最高 的时候出现在2000年前后,从1999年到2001三年 间保持着30%左右的增长。为了能在同一幅图里显示 信息抽取与信息检索文章的增长趋势,把信息检索的 文章数量进行缩小,缩小到与信息抽取的文章处于同 一数量级(每年文章数量除以16),如图1所示:
从图1中可以看出,信息检索得到了持续的关注, 从1998年开始迅猛增长,增长的原因主要是搜索引擎 的崛起,带动了整个信息检索领域的新发展。而信息 抽取从20世纪90年代末开始得到关注,从2003年开 始得到迅速发展。目前信息抽取的增长势头非常迅猛, 而信息检索相对平稳一些。如果说10年间信息抽取的 研究经历了从无到有的过程,那么信息检索的研宄就 是从弱到强的过程。
2、信息检索与信息抽取的相关会议
关于信息检索的国内会议比较多,其中包括:中 国科技情报学会计算机情报检索专业委员会从1980 至1986年举办了 5届全国机器检索学会交流会,该系 列会议后来改名为全国计算机情报检索学术讨论会, 后来再次改名为全国计算机信息管理学术讨论会;中 国中文信息学会信息检索与内容安全专业委员会举办 的全国信息检索与内容安全学术会议,今年将举办第
三届会议;随着搜索引擎的迅速发/PC关于搜索引擎
三届会议;随着搜索引擎的迅速发
/PC
关于搜索引擎
的会议也显得越来越重要,中国计算机学会互联网专 业委员会举办的全国搜索引擎和网上信息挖掘学术研 讨会,2007年已举办了第五届;另外,微软亚洲研宄 院联合清华大学、香港中文大学于2004年共同承办了 首届亚洲信息检索研讨会。
关于信息检索的最有影响力的两个国际会议组织 当属TREC与INEXo TREC由国际标准和技术委员会及 美国国防部共同资助,每届参会的人数很多,提供丰 富的评测标准与实验数据,是目前最权威的检索评价 会议;INEX由DELOS数字图书馆网络组织和IEEE计算 机学会资助,主要针对基于内容的XML检索提供统一 评价程序。这两大会议是国际上公认的权威评测机构, 而国内关于检索方面的评价还很少,全国搜索引擎和 网上信息挖掘学术研讨会近年来主要是针对分类进行
评测。
信息检索会议举办得如火如荼,但以信息抽取命 名的会议在国内还很少,比较有影响力的是微软亚洲 研宄院于2005年举办的信息抽取技术暑期研讨班。国 际上比较有影响力的当属MUC,它是20世纪80年代 末由美国国防部的DARPA发起的,旨在通过一系列国 际化的研宄系统测评
您可能关注的文档
最近下载
- 新媒体短视频制作与剪辑.pptx VIP
- 新版河北农业大学农艺与种业考研经验考研参考书考研真题.docx VIP
- 新版河北农业大学农艺与种业考研经验考研参考书考研真题.docx VIP
- 面向产业的算法治理研究(2025年).pptx
- 梵音入汉:佛经汉译对汉语演进的多维影响.docx
- 小学低段音乐课堂管理方法的研究课题资料(包含申请表、开题报告、实施方案、结题报告等).pdf VIP
- 2026《隧道贯通误差预计计算案例》4000字.docx
- 2022-2023学年北京市丰台区高二(下)期末数学试卷(附答案详解).docx VIP
- 5m盐酸溶液的配制 -回复.pdf VIP
- 2026年新疆工程学院辅导员招聘备考题库最新.docx VIP
原创力文档

文档评论(0)