- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于云计算的文本挖掘算法研究
基于云计算的文本挖掘算法研究 霍立亚 文本挖掘技术 主要技术思想 首先利用文本切分技术,对文本信息进行抽取,把文本形式的数据转化为能描述原文本内容的结构化数据;然后利用分类、聚类等技术,形成结构化文本并根据这种结构发现新的知识和获取相应的信息之间的关系。 关键技术 一、中文分词 文本挖掘中中文处理与英文处理最大的区别就是需要中文分词。英文语句都是由数个单词构成,每个单词后都会有一个空格,计算机可以很容易的通过空格识别句子中的单词。由于中文句子内部每个字之间不像英文语句那样有间隔,因此要想理解句子的意思就必须对它进行有意义的拆分,这是中文自然语言理解的基础。然而计算机本身是不能够理解中文语句的意思的。中文自动分词技术就是人为的设计一些规则,使计算机可以把中文句子分割成有意义的语音的单 元。 中文分词技术 1、基于词典方法 这种方法也叫机械分词法,它是将待分词的字串S按照一定的算法搜索子串并 与一个或多个分词词典中的词条进行匹配,如果匹配成功则认为该子串是一候选 分词。然后继续对剩下的部分进行分割处理,直到匹配完字串S中所有的可能词 汇;常用的几种分词方法如下: (1)最短路径法(使每一句中切出的词数最小)。 (2)正向最大匹配法(按照由左到右的方向)。 (3)逆向最大匹配法(按照由右到左的方向)。 2、基于规则方法 基于规则的方法的主要思想是在分词的同时对句子进行语法和语义分析并利用这些分析信息来处理出现的歧义现象。即是说需要通过规则的设定使计算机能够对句子的理解与人的理解一样,从而达到分词的效果;其由于它是模拟人对句子的理解过程,如果在没有大量的语言知识和信息的支持下,实现这种方法是很困难的。并且汉语语言是十分复杂和庞大的,事实上将大量语言信息组织成机器可直接接收的形式是相当困难的。因此目前基于理解的分词系统还处在试验阶段,这种方法通常是与其他算法结合起来使用。 3、基于统计方法 基于统计方法就是在分词过程中或者分词后对语料中相邻共现的字的组合的频度进行统计,计算它们的互信息。互现信息体现了字与字之间结合的紧密程度。基于统计方法的基本思想是,通过设定一个适当的阈值(此阈值的确定通常是通过多次实验得出的),当字组的互信息高于此阈值时,则认为此字组成词。这种方法的优点是不需要分词词典,只需要统计语料中的字组频度即可,因而又叫做无词典分词法。这种方法的局限性是对出现频率高但本身不是词的常用字组的识别效果不佳,例如“我们的”、“中的”、“的是”等。 中科院分词算法 考虑输入一句话“刘双欢迎你”,分词的中体流程如下: 一、分词“刘/双/欢迎/你” 二、posTagging(词性标注)“刘/q双j/欢迎/v你/r” 三、NE识别(人名、音译名、地名)识别“刘/q双j/欢迎/v你/r”“刘双/nr” 四、重新分词:“刘双/欢迎/你” 五、重新posTagging(词性标注)“刘双/nr/欢迎/v你/r” 六、分词结束 其基本思路是: 首先载入词典,然后进行原子切分,在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。 该分词系统的主要是思想是先通过CHMM(层叠形马尔可夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率,共分五层, 中科院分词算法 新词识别算法 新词是未登录词的一种,是一种没有出现在词典中的词。语言随着社会的发展而发展,在词汇中的一大表现就是新词语以及新短语的出现。新词在某一特定领域首先被提出,之后重复出现的频率增大,最后稳定下来。它不仅在1个文档中多次出现,而且会在多文档中反复出现,这是一个新词被承认的必要条件。新词的出现反映了新鲜事物的不断涌现,却给中文新词处理带来了挑战。所以,近年来新词的产生引起了语言学者的特别关注。 新词主要包括两类: (1)命名实体,包括地名、人名、机构名等; (2)随着新鲜事物的产生而出现的词语,如“超女”,“雷人”,“科学发展观” 等。 目前对新词识别的研究主要有基于统计和基于规则两种方法。这两种方法在使用上均存在一定的优势和不足。基于规则的方法对新词识别的准确率比较高,但是存在人工提取规则耗费时间和人力的问题,而且需要不断的更新识别规则;而使用统计方法经常会错误的得到很多垃圾字串,而且对“长词中含有短词”的问题,如“硝酸”与“硝酸铵”的识别十分困难。因此,在实际使用中一般不单独使用某一种方法,通常是将这两种方法结合起来使用,从而达到更理想的新词识别效果。 中文分词的MapReduce化方案 本文采取的方法
文档评论(0)