- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机世界/2006 年/6 月/12 日/第B14 版
技术专题
人工智能中的机器学习技术在基于语料的文本信息处理中获得了快速发展,
同时基于统计和经验的方法在超出传统机器学习的范畴之外也发展出一些独特的
方法和技术,这些应用将会使下一代搜索引擎在技术上取得突破。
搜索引擎的前沿技术
何清 史忠植 王伟
搜索引擎并非只是一个网络上的应用程序,它要用到信息检索、人工智能、自然语言处理、
分布式网络并行计算技术、多媒体技术、数据库技术、数据挖掘技术、数字图书馆等多领域的理
论和技术,具有很强的综合性和挑战性。
从技术发展角度讲,随着计算机的发展和互联网的普及,对海量文本信息处理的需求越来越
迫切,这使得人工智能中机器学习技术在基于语料的文本信息处理中获得了快速发展。同时,基
于统计和经验的方法在超出传统机器学习的范畴之外发展出一些独特的方法和技术。但是, 自然语
言处理中仍然存在许多尚未解决的问题,甚至是影响到自然语言处理的基础性的核心问题。检索
专家Bruce R.Schatz 预测,在自然语言理解没有取得突破性进展之前,基于概念语义空间的文本
信息组织与检索,将在本世纪前10 年起主要的作用。
语义索引
如何处理海量文本信息,特别是随着网络的飞速发展,如何快速为海量文本信息建立分类目
录有效地组织网上海量信息,以及如何建立具有某种程度语义的索引机制就是当前乃至今后相当
一段时间的研究热点。
美国Arizona 大学的陈火斤钧(Hsinchun Chen )教授首先提出基于概念的文本自动分类与语义
检索。概念语义空间实际上是基于概念空间的语义索引。这是为克服关键词检索过程中由于检索
词的差异导致检索结果差异而建立的支持相关概念的索引机制。该项技术成功地采用机器学习的
方法实现了大量文本的自动分类、标注与检索。他采用此项技术成功地承接并完成了美国涉及多
个领域的文本信息处理项目。
所谓概念语义空间,就是对文本集建立的能反映文本集中概念之间语义关系的一个索引。概
念语义空间与文本检索、搜索引擎、知识管理密切相关,它是基于目前自然语言处理技术的进展
状况而产生的。
这里所说的概念在形式上的表现是词,但并不是所有的词都是概念。概念是从语料中抽取出
来的用于表明一类文档特征的标识词,一类文档可能有不同的概念来标识。上面所说的语义词典
包括同义词、近义词。
采用语义词典是建立语义索引的一种机制。语义词典往往是手工建立的,但这样建立的词典
不能针对要处理的语料提取语义关系,会降低检索性能。例如,当我们提到“钱钟书”时就会自
然联想到“围城”,提到“非典”自然就想起了“SARS”,如果语义词典没有建立这种语义关系
(事先手工编辑的语义词典很难提取这类“联想”的语义)。当我们用“非典”检索时,就不能
返回仅包含“SARS”的文本; 同样仅用“钱钟书”检索,未必能检索到钱钟书所有著作的信息。
解决这一问题的一个重要途径是共现分析。通过统计同一类文本中两个词在同一篇文本中的共现
率,可以发现类似的语义关联。这种语义联想的激活可以通过Hopfield 网络实现,网络的权值则
由共现率确定。随着技术的进展,还有许多其他自动形成语义词典的方法不断提出,其中很多都
和机器学习有关。
第1 页 共5 页
查准与查全的平衡
评价文本检索系统性能的一个关键概念是“相关性”(relevance )。它是用来判断获取的文档
集合对于用户需求满足的程度。相关性是一个主观的概念。相关性的度量不仅仅依赖于用户的查
询和所搜索的文档的集合,还与用户的个人需求、偏好、知识、语言等有关系。
作者简介:何清
中国科学院计算技术研究所智能信息处理重点实验室副研究员,中国人工智能学会副秘书
长。
通常将“查准率”和“查全率”这两个指标共同用来衡量检索系统的性能。查准率表明系统
的精确性。查全率反映了系统的覆盖性。这两个量不是独立的,其中一个指标的提高往往以另一
个指标的降低为代价。
查准率(Precision)是信息检索的性能指标,定义为被检索到的相关文档数除以所有要检索的文
档数。
查全率(Recall)是信息检索的另一个性能指标。定义为查找到的相关文档数除以集合中全部相
关文档数的
您可能关注的文档
最近下载
- DL_T 267-2023 油浸式全密封卷铁心配电变压器使用技术条件.pdf VIP
- 一种新型的化纤打包机.pdf VIP
- 山东黄金集团招聘考试题库.pdf
- 贵州省黔西南州2024-2025学年七年级下学期期末语文试题(含答案).pdf VIP
- 环形混凝土电杆标准.pdf VIP
- 专项施工方案.docx VIP
- NB∕T 47018.4-2022 承压设备用焊接材料订货技术条件 第4部分:埋弧焊钢焊丝和焊剂.pdf
- 山西博大集团寿阳京鲁煤业有限责任公司兼并重组整合矿井地质报告.doc
- 贵州省黔西南州2024-2025学年七年级下学期期末考试语文试题(含答案).docx VIP
- 烟气脱硫废水处理系统培训课件.pptx VIP
文档评论(0)