- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中南民族大学硕士论文中南民族大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权中南民族大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于1、保密□,在年解密后适用本授权书。2、不保密√□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日第1章绪论1.1研究背景及意义互联网的迅猛发展和广泛普及,导致网络信息以几何级数的速度增长。那么,如何在庞大的互联网上尽快获取有效准确的信息,也就越来越成为网络用户关注的焦点。互联网问世之初,网民们只能从有限的站点内被动获取信息。随着BBS的出现,网民们开始有了网络社区的概念,在虚拟社区内通过发贴回贴的方式交换信息,可说是主动获取信息的原始途径,尚不能称之为模式。而我们今天最为熟悉的一种获取信息的模式——搜索引擎,随着互联网信息爆炸时代的到来,方应运而生。第一个较为知名的搜索引擎当属90年诞生的Archie,随后陆续问世的搜索引擎依次有Excite、Altvista、Overture、Google等。其中影响力最为广泛、应用范围最广的,无疑是Google。国内的搜索引擎虽然是自上世纪末本世纪初刚刚起步,在借鉴了国外搜索引擎的成功经验的基础上,也有不少优秀的搜索引擎问世,如百度、搜狗等。尽管有关研究人员在研发搜索技术上花费了不计其数的时间和精力,搜索引擎还是存在不少局限性,如信息丢失、信息无关、信息关联度不高、符合搜索条件的返回信息过多等,这使得网络用户对于现有的搜索技术仍然抱怨连篇。在这种情况下,显而易见,对更精确的信息搜索技术的市场需求量是非常可观,也是相当迫切的。如何有效改善搜索引擎的效率?在粗略了解了搜索引擎的现状以后,就不能不提及自然语言理解处理技术在该领域的应用意义。搜索引擎的应用必然涉及到文本输入,而从各种输入设备被输入的文本,无论源自哪个人种使用的语言,都属于自然语言的范畴,这是一个无法绕行的现实问题。自然语言,是指人类语言集团的本族语,如汉语、英语等,它是相对于C语言、JAVA语言等计算机语言[1]而言的。自然语言本身涉及到上下文以及当时使用的具体环境,具有多种含义,理解上存在不确定性,加上涉及知识面比较广的特点,缘于此,很多系统知难而退。还有,对自然语言的理解并非一个绝对的概念,还可能由于应用的对象或目的不同,如回答问题、执行命令或用于机器翻译等,衍生出种种理解上的偏差。因此,自然语言理解至今尚无公认的标准定义。由于自然语言理解的机器翻译[2]、语义理解[3]及人机会话技术等功能可使搜索技术更人性化、更方便易用,近年来其相关技术在搜索领域得到了广泛的应用。而汉语是全世界使用人数最多的自然语言,搜索引擎如何理解和处理中文就成了一个棘手却又无法绕开的问题。我们知道,英文的最小单位是单词,每个单词都有确定的意思,单词之间用空格隔开,也就是说,英文无需切分单词。而汉语则不然,汉语以字为单位,字与字之间没有约定俗成的分隔符,单个汉字可能独立成词,也可能要与其他字组合成多字词。汉语的模糊性、歧义性等特点,引出了搜索技术在处理英文信息时所没有遇到的一个新问题:汉语自动分词。1.2中文自动分词的发展概况说到中文自动分词的国内研究,从起步至今已有二十余个年头。从笔者收集整理的有资料记载可查的领域内重大事件来看,由于中文自动分词技术覆盖的学科知识较全面,有实力对其进行深入持续研究并获得不俗成果的科研机构国内只有为数不多的几家,如中科院、北大、清华、北京语言学院、东北大学、IBM研究院、微软中国研究院等。以下是笔者整理的国内对中文自动分词研究的一些主要成果:1980年前后,我国在中文自动分词方面取得初步进展之后,国内的学者开始对中文分类自动标引技术[4]进行深入研究,目前已经能通过对文中反映主题的关键词的自动抽取与筛选,实现主题自动标引。1983年,北航梁南元副教授第一个完成实用的CDWS自动分词系统[5],实现了对2500万字的现代汉语词频统计工作。此后又有数个系统问世,并提出了12种分词方法。1987年,作为国家“七五”攻关课题之一的现代汉语分词规范和自动分词方法,已由北京航空航天大学、北京语言学院等十几家单位同时承担,并取得了可喜的进展,目前正向实用化发展。199
您可能关注的文档
- 基于消费效用无差别的技术创新投资定价-基础数学专业论文.docx
- 基于语料库的大学英语写作中连接手段使用的分析英语语言文学专业论文.docx
- 基于延期支付下的库存策略研究-数学、运筹学与控制论专业论文.docx
- 基于现代市场供求博弈的区域运输结构优化研究-管理科学与工程专业论文.docx
- 基于语料库的英汉颜色词“红”的隐喻对比研究-外国语言学及应用语言学专业论文.docx
- 基于语料库的英语时政新闻的前景化研究-外国语言学及应用语言学专业论文.docx
- 基于语言学的化学青年教师教学语言技能培养-学科教学专业论文.docx
- 基于政府招商引资的项目选址过程研究-项目管理专业论文.docx
- 基于双边市场的农村土地承包经营权流转研究-土地资源管理专业论文.docx
- 基于支持向量机的上市公司投资价值研究-金融工程专业论文.docx
- ABB REX640 保护和控制继电器 适用于高级发电和配电应用的一体化保护装置 数据表(中文).pdf
- honeywell霍尼韦尔SmartLine® 电子远传变送器产品文档.pdf
- Fujifilm 富士胶片 ApeosWare Management Suite 2 GM1216C2-6 说明书.pdf
- Panasonic松下HBC软件YA-2KPMV1F01说明书用户手册.pdf
- Colorlight卡莱特AI智能媒体中心AX6K 产品规格书 V1.0说明书用户手册.pdf
- ABB Prerequisite SOP for ServiceNow Discovery BAU 操作说明(英语).pdf
- YJ扬杰SiC MOSFET模块 MC14HFZ12C1N规格说明书.pdf
- YJ扬杰IGBT模块 MG40P12E2A规格说明书.pdf
- YJ扬杰IGBT单管 DGB20N65CTL1K规格说明书.pdf
- ApeosWare 管理套件 系统要求 Management Suite 2 入门指南.pdf
最近下载
- 软件质量保障体系构建.docx
- [八部经典中医学著作].06金匮要略.doc VIP
- 实践总结:东芝电梯CV180、190、330故障代码.doc VIP
- 第五单元第11课《刀言纸语》教学课件-2025-2026学年苏少版(2024)初中美术八年级上册.pptx VIP
- 2024-2025学年北京东城区八年级初二(上)期末物理试卷(含答案).pdf
- 八(上)古诗文赏析(含答案).doc VIP
- 中华人民共和国仲裁法(2025修订版)测试题及答案.docx VIP
- 高速公路桥梁T梁预制架设施工方案.doc VIP
- 济南酒店复盘总结2012.3.15.ppt VIP
- 第十五课《锦上添花》课件-+2025-2026学年赣美版(2024)初中美术七年级上册.pptx VIP
原创力文档


文档评论(0)