- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索论文new
论搜索引擎中文自动分词技术
【摘要】
搜索引擎是应用在web上的软件系统,它以一定的策略搜集和发现信息,再对信息进行处理和组织后为用户提供web信息查询服务。搜索引擎分三个大模块:网页搜集,预处理和查询服务。其中对搜索信息的预处理阶段的关键技术是中文分词和建立倒排文件,本文主要论述搜索引擎工作过程中的中文自动分词技术。
【关键字】:搜索引擎, 中文分词, 分词方法 ,分词难题
【正文】
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度等大型搜索引擎一直是人们讨论的话题。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
为什么要进行分词?
汉语是世界上最古老和最丰富的语言之一,但是汉语语法才有将近一百年的历史,而且现代汉语白话文的形成历史也比较短,加上汉语自身的特点,因此它的形式化研究更加困难。对英文而言,是以词为单位,词与词之间有空格隔开,而中文是以字为单位,多个字连在一起才能构成一个表达具体含义的词,词与词之间没有分割,因此,对于支持自然语言检索的工具,从语句中划分出具有独立意义的词的过程即进行中文分词必不可少。
什么是中文分词?
中文分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。基于字典、词库匹配的分词方法
()最大正向匹配法?(通常简称为MM法其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……??如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。
()逆向最大匹配法?()通常简称为RMM法RMM法的基本原理与MM法相同?,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明?,单纯使用正向最大匹配的错误率为?1/16 9,单纯使用逆向最大匹配的错误率为?1/245。例如切分字段“硕士研究生产”,正向最大匹配法的结果会是“硕士研究生?/?产”,而逆向最大匹配法利用逆向扫描,可得到正确的分词结果“硕士?/?研究?/?生产”。
()最少切分法:使每一句中切出的词数最小。
?全切分和基于词的频度统计的分词方法
基于词的频度统计的分词方法是一种全切分方法。在讨论这个方法之前我们先要明白有关全切分的相关内容。全切分要求获得输入序列的所有可接受的切分形式,而部分切分只取得一种或几种可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基础上的分词方法不管采取何种歧义纠正策略,都可能会遗漏正确的切分,造成分词错误或失败。而建立在全切分基础上的分词方法,由于全切分取得了所有可能的切分形式,因而从根本上避免了可能切分形式的遗漏,克服了部分切分方法的缺陷。
全切分算法能取得所有可能的切分形式,它的句子覆盖率和分词覆盖率均为100%,但全切分分词并没有在文本处理中广泛地采用基于词的频度统计的分词方法:
这是一种全切分方法。它不依靠词典,而是将文章中任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于可以发现所有的切分歧义并且容易将新词提取出来。
基于知识理解的分词方法该方法主要基于句法、语法分析,并结合语义分析,通过对上下文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,
您可能关注的文档
- 保险学论文48398new.doc
- 信号与系统01340.doc
- 信号与系统99847.doc
- 信号与系统_信号系统与信号处琣?1教学大纲.doc
- 信号与系统常用词汇中英文对照表.doc.doc
- 信息与通信工程择校.doc.doc
- 信息安全的基本概念new.doc
- 信息安全知识竞赛new.doc
- 信息安全管理.doc.doc
- 信息宣传栏new.doc
- 盾构施工安全培训课件.pptx
- 控制系统仿真:模糊控制仿真all.docx
- 康复评定基础习题库含参考答案.docx
- 临床分子生物学检验技术考试题及答案.docx
- GB∕T 35770-2022《 合规管理体系 要求及使用指南》之4:“4组织环境—4.3确定合规管理体系的范围”专业深度解读和应用指导材料(编写2.pdf
- 控制系统仿真:神经网络控制仿真_(1).神经网络基础.docx
- 2025-2026人教版语文七年级上册《秋词》教学设计 (二)(完整可打印版).pdf
- 控制系统仿真:神经网络控制仿真_(2).控制理论基础.docx
- GB∕T 35770-2022《 合规管理体系 要求及使用指南》之5:“4组织环境—4.4合规管理体系”解读和应用指导材料(编写2025C0).pdf
- 2025-2026人教版语文七年级上册《秋词》教学设计 (一)(完整可打印版).pdf
原创力文档


文档评论(0)