- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商业分析概论;文本挖掘;目录;;文本挖掘处理的是非结构化的文本信息,它的主要任务是分析文本的内容特征,发现文本数据库中概念、文本之间的相互关系和相互作用,为用户提供相关知识和信息。因此,文本挖掘和数据库挖掘在目标上具有相似性,在技术实现上具有一定的差异。
文本挖掘的一般过程;9.1 文本挖掘概述;9.2 文本预处理;9.2 文本预处理:文本表示;VSM的基本思路:用向量模型来标识一篇文档或一个查询
把文档看作一系列索引词(Index Term)组成,每一个词都有一个权重(Term weight),不同的索引词根据自己在文档中的权重来影响文档相关性的打分计算。
在向量空间模型中可以把所有此文档中词(term)的权重(term weight) 看作一个向量,并以此权重向量来表征文档。查询和文档都可转化成索引词及其权重组成的向量。
;文档-索引词词矩阵(Doc-Term Matrix);向量表示
M个无序标引项ti (词条项, 特征),词根/词/短语/其他
每个文档d可以用标引项向量来表示
权重计算,N个训练文档
WM*N= (wij)
词频统计
TFi,j: 特征i在文档j中出现次数,词频(Term Frequency)
DFi:所有文档集合中出现特征i的文档数目,文档频率(Document Frequency)
词项的权重: {0,1}, tf(词频=term frequency), tf*idf,;常用算法:TF-IDF;9.2 文本预处理:标引与文本分词;中文文本分词技术
1) 基于词典的分词
又称为机械分词法
主要思想:将文本切分后的一小段与一个词典里的词进行比较,如果存在,则划分为一个词。
主要算法:正向最大匹配法、逆向最大匹配法、双向最大匹配法等
优点:实现简单
缺点:依赖词典规模,词典规模越大分词的正确率越高;无法很好地处理歧义与未登录词问题;中文文本分词技术
1) 基于词典的分词
正向最大匹配法
正向最大匹配是指以词典为依据,选取包含几个汉字的符号串(如6-8个)作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。
;正向最大匹配法
下面以“我们在野生动物园玩”详细说明一下匹配方法:
正向即从前往后取词(根据对应字典的最长字符串长度,如定义为7),从7-1,每次减一个字,直到词典命中或剩下1个单字。
第1次:“我们在野生动物”,扫描7字词典,无
第2次:“我们在野生动”,扫描6字词典,无
。。。。
第6次:“我们”,扫描2字词典,有
扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,
……
最终切分结果为:“我们/在野/生动/物/园/玩”。
;中文分词工具
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System):中科院计算技术研究所在多年的研究工作积累的基础上研制出的汉语分词开源系统。主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时支持用户词典,并且支持多种语言二次开发。是当前世界上最好的汉语词法分析器。
IKAnalyzer:开源的轻量级中文分词工具包,使用Java语言编写。分析速度快,在特定环境下可达到160万字/秒。支持英文字母、数字、中文词汇等分词处理,兼容日文、韩文和用户词典自定义扩展。
SCWS(Simple Chinese Words Segmentation):一套基于词频词典的机械中文分词引擎。它能将一整段的中文文本基本正确地切分成词。在算法上采用自行采集的词频词典,并辅以一定程度上的专有名词、人名、地名、数字年代等规则集来达到基本分词的目的。
庖丁解牛分词器:完全基于Lucene的中文分词系统。支持不限个数的用户自定义词典。;词性标注和去除停用词;通过特征标引可以获得文本对应的关键词向量,也可以获得文本对应的关键词相对词频向量。
一般认为,相似的文本具有相似的关键词或相对词频,因此,可以基于关键词向量或关键词相对词频向量计算一组文本的相似度。利用文本的相似度,可以进一步对文本进行分类、聚类,也可以从文本中抽出重要的段落或语句。
;9.2 文本预处理:文本相似度计算;VSM的文档相似度计算;向量相似度算法;9.3 文本分类;9.3 文本分类;9.3 文本分类;9.3 文本分类;9.4 文本聚类;9.4 文本聚类;K-means聚类方法;9.4 文本聚类;9.4 文本聚类;层次聚类方法;层次聚类方法;神经网络法与GA方法;典型的SOM聚类算法 ;;;信息过滤的应用
克服重复查询
网络信息是动态变化的, 用户时常关心这种变化
而在搜索引擎中, 用户只能不断地在网络上查询同样的内容, 以获得
文档评论(0)