- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
本课题的研究意义,国内外研究现状、水平和发展趋势
1.1研究意义
本课题的研究意义,国内外研究现状、水平和发展趋势众所周知,英文以词 为单位,以空格隔开,而中文以字为单位,连字成句才能描述一个完整的意思。 计算机可以很容易地理解英文单词,而对由词组成的屮文句子,必须通过屮文分 词技术才得以理解。把中文的汉字序列切分成有意义的词,即中文分词,乂称切 词。屮文分词技术是信息处理领域屮的重要技术,也是屮文搜索引擎屮必须耍用 到的技术。中文分词就是将中文连续的字序列按照一定的规则重新组合成词序列 的过程。其作为中文信息处理的基础,己经被广泛应用于相关领域。
1?2国内外研究现状、水平和发展趋势
中文自动分词己经被研究了二十多年,但是目前仍然是制约汉语信息处理发 展的一个瓶颈。它主要存在语言学和计算机科淫等两方而的困难。
语言学方面的困难有
(1) 词的定义不统一,语言学界对词还没有给出一个为大家广泛接受的、严格 且统一的非形式定义。
(2) 汉语的分词还没有形成一个公认的分词标准。这是人和计算机共同面临的 困难。同一文本可能被不同的人划分为几种不同的分词结果。
(3) 词的具体判定问题还没有完全解决。尽管《信息处理用现代汉语分词规范》 提出了分词单位和一套比较系统的分词规则,但是由于真实文本的复杂性和多样 性,实践与理论之间的重大差异,仍然没有能够有彻底的解决办法。
(4) 汉语词与词之间不像西文那样有明显的分隔符(如空格等),也不像日文那 样冇丰富的词尾变化(如H语屮的片假名和平假名构成了书而H语的词尾变化)。
(5) 新词在不断增加(如人名、地名、新产生的词、外來词等)。
计算机方面的困难冇
(1) 没有合理的自然语言形式模型。
(2) 如何有效地利用和表示分词所需的语法知识和语义知识。
(3) 如何对语义进行理解和形式化。
本课题的基本内容和要求,关键问题及其解决的方法和措施
2.1基本内容
口动分词系统的最核心的工作是进行分词。对于一个实用化的分词系统而言, 不仅要求在分词速度和分词精度方面满足一定的要求,而且要像开发大型传统软 件那样,在各个阶段不断地进行评价,其口的主要是检查它的准确性和实用性, 分词系统的性能指标主要有以下儿个方面
(1) 分词精度
分词精度是指切分的止确率。它是口动分词系统的一个重要技术指标。由于 中文文本是按句连写,词间无空格,因而在中文文本处理中,首先遇到的问题是 词的切分问题。分词的正确率将直接影响更高一级的处理。影响分词正确率的主 要因素有两个歧义切分问题和中文姓名、地名、机构名等专有名词的识别。为 了捉高分词系统切分正确率,应该从整体性能,歧义处理和专业词识别等三个方 面进行性能测试。
(2) 分词速度
分词速度是指单-位吋间内所处理的汉字个数。在分词正确率基木满足要求的 情况下,切分速度是另一个很重要的指标,特别对于算法不单一,使用了辅助(如 联想,基丁?规则的,神经网络,专家系统等)方法更应注意这一点。影响分词速 度的因素有汉字吊机械切分时杳词典的时间、歧义字段的查找和歧义字段的校 正。通常中文信息处理的文本数量是相当大的,因此必须考虑方法是否能使系统 总开销合理。在人机交互方式下处理歧义问题的策略和人机接口的设计,有吋会 严重地影响切分速度,这也是应考虑的因素。
(3) 功能完备性
口动分词系统除了完成分词功能外,还应具备词库增删、修改、查询和批处 理等功能。
(4) 可维护性
该属性包描改正性维护、适应性维护和完善性维护等。这是提供数拯存储和 计算功能扩充要求的软件屈性,包括词库的存储结构,输入/输出形式的变化等 方面的扩展和完善。这项指标与系统清晰性、模块性、简单性、结构性、完备性
以及ii描述性等软件质量准则有直接的联系,对于研究实验性质的软件是非常重 的,因为这类软件需要不断提高与改进,使之适应屮文信息处理的各种应用。
可移植性
可移植性是指应用系统能从一个计算机系统或环境转移到另一个系统或环 境的容易程度。一个好的分词系统不应该只能在一种环境下运行,而应该稍作修 改便可在另一种环境下运行,使它更便于推广。
2.2基木要求
算法基础
分析需求,尝试确定变量数量、名称和类型。
根据给定的算法或流程图,分析各变量的功能及变量Z间的关系。
根据需要,合理、有效地运用变量和运算符,书写表达式。
有效运用算法的三种结构解决问题
设计算法,有效运用顺序结构、分支结构和循环结构解决问题。
冇效运用计数器、累加器、累乘器解决问题。
合理运用三种算法结构的组合解决问题(如分支欧套结构、循环欧套 分支结构、双重循环结构)。
算法实例
分析问题,包扌乩输入、输出和处理的要求。
设计算法,包括枚举法、解析法、冒泡排序、顺序查找等算法。
有效使用流程图表达算法(或使用伪代码、程序语言实现算法)o
根据给定
文档评论(0)