- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索技术现状思考
信息检索技术现状的思考
[摘 要]随着信息化时代的到来,有些人在不断寻找和接触各种信息,同时也对形色复杂信息进行筛查和选择,以提取出自己需要的真实有用的信息。从业者开发出了已经制定了各种引擎,来帮助自己实现这一目标,根据网络引擎,雅虎,百度搜索,同时也为工业的发展专题检索系统。目前,国内产业,地区发展迅速,这期间也出现了很多中文的信息资源,以便能够及时、准确地获得最新的信息,所以我们需要一个中文的信息检索性引擎。
[关键词]信息 网络 计算机 语言
中图分类号:TP391.3 文献标识码:A 文章编号:1009-914X(2014)25-0212-01
随着科学技术的发展及普及,信息时代已经快速到来了,我们每天都会面对大量的、会重复利用的信息。面对这样大量的重复的信息,我们要尽可能的要用最少的时间找到我们需要的最为准确的信息,要确保信息的高回报率。关键字检索技术是最为传统的方案,也是最长使用的方案,关键字方案是系统利用关键词的形式准确的描述出事情,提交给系统。但是这种方案的弊端是:由于我国的文字语言博大精深,使其文字本身并不只包含字面所包含的信息。而我们想得到的、有价值的信息往往是其字面意思的延伸部分,而上述方案并不能实现我们这一目的。
随着信息化时代的到来,有些人在不断寻找和接触各种信息,同时也对形色复杂信息进行筛查和选择,以提取出自己需要的真实有用的信息。从业者开发出了已经制定了各种引擎,来帮助自己实现这一目标,根据网络引擎,雅虎,百度搜索,同时也为工业的发展专题检索系统。目前,国内产业,地区发展迅速,这期间也出现了很多中文的信息资源,以便能够及时、准确地获得最新的信息,所以我们需要一个中文的信息检索性引擎。
最为基本最为重要的的问题是索引项。对输入的文档及用户查询要做的第一件事就是将它们分解为索引条目的集合,然后才有可能计算出查询与文档的相似度。在英文的全文信息检索系统中,因为选用词为索引项所以要把查询及文字文档分化为索引项集合是件非常容易的事。而英文中词跟词之间的分隔符,对中文全文信息检索系统来说将查询和文档分化为索引项集合就繁杂些。首先要确定以什么单位为索引项,是以字,词还是短语为索引项以词为检索项在现在研究中还在普遍应用。首先因为以词为单位已经成为了一种思维习惯一种思维定势。第二以词为索引项就可以借鉴英文全文检索系统中已成型理论及方法。
我们以词为索引项,首先要进行分词,就是将由单个字组成的连续字符分化为词的集合,要进行正确的分词不是一件很容易的事情,首先中文的字与字、词与词之间不存在分隔符,因此分词一般都要借助词典来完成,而中文的构词非常灵活,词的数目几乎是无穷的,因此要构建一个完整的词典是不可能的。也是不现实的。因此为了解决以词为索引项所带来的困扰,人们提出了一些别的方法如以字为索引项,以二元,三元语法为索引项等。
“语料库语言学(Corpus Linguistics)是八十年代刚刚崭露头角的一个新的分支计算语言学。它是研究计算机可读的自然文本在语言的采集,存储,检索,统计,语法标注,句法和语义分析,并有功能的语料库语言学在语言分析,词典编著,风格分解,自然语言理解和机器翻译的应用”。语料库语言学是基于计算机可读的体积和一个简单的方法进行处理和统计的模型,两者缺一不可的。从本质基础上说,语料库语言学研究是御用基于统计的经验手段方法,和一般的基于规则的理性手段方法是不一样的。
随着计算机技术和网络技术的快速发展,计算机的运算速度加快了,机器本身的储存能力也大大加强了,而且价格逐渐便宜,这样的客观环境,一些大容量的机器可读的语料库就可以建设实现了。之前一百万字语料的Brown语料库被认为是伟大的,但是计算机技术一直在发展就会有更大更多的语料库,例如:二千万字语料的伯明翰。今天,很多地方都有了已达数亿甚至数十亿字的文本样本。同时,也出现了一些新的,更好的统计语言模型。但是,作为一个自然语言理解系统的不断完善,它变得更实用,知识的获取已经成为一个瓶颈,基于规则的自然语言处理系统在处理大规模真实真实文本中遇到的困难,这促进了更多研究人员去探知新的研究方法和思路。
我国的自然语言处理和研究在一定程度上,处于低水平重复的情况。由于一些公共的基础设施不足,很多研究项目都需要从头从底部模块开始着手,导致研究羡慕发展缓慢。近几年来,随着Linux和其他开放源码软件的飞速发展,开放的发展理念理念逐渐渗透人心。开放源码软件在工程项目及产品的优势性体现也是迄今未知的.只是在发展过程成为开放式之后,这一领域的人员以最自然的方式,最大的合作,向着共同的目标奋斗,构思出好的想法,使得一个好的公共产品的得到快速发展更新。
北大的计算语言学研究所从1992年开始对中国的汉语语料库
您可能关注的文档
最近下载
- 2024年电力技术装备公司考试真题.docx VIP
- 最新初中语文课件:人民英雄永垂不朽.ppt VIP
- 2024全国全国职工职业技能大赛-汽车维修工(智能网联新能源汽车方向).pdf VIP
- 部编人教版六年级下册语文全册教案.doc VIP
- 山东省菏泽市2024-2025学年高三上学期期中考试化学试题.docx VIP
- 专项施工方案.docx VIP
- 标准图集-23S519-小型排水构筑物.pdf VIP
- 高教马工程民法学(第二版)上册教学课件01-07.pptx VIP
- Unit 1 知识清单 -上海2024-2025学年沪教版(五四学制)(2024)六年级英语上册.docx VIP
- 银行从业资格考试试题及答案库.docx
原创力文档


文档评论(0)