李倩《商务数据分析》第九章.pptxVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二部分 商务数据分析 常用方法 第三章 数据获取与数据理解 第四章 数据预处理 第五章 计量模型第六章 数据挖掘分类预测模型第七章 数据挖掘聚类与关联规则模型第八章 社会网络分析模型第九章 复杂数据分析方法第十章 数据可视化 第九章 复杂数据分析方法 第一节 文本处理1. 文本预处理 为了将文本处理为模型可用的数据,需要先对文本进行预处理。一般预处理步骤为分词、清洗、标准化、特征提取,然后将提取出来的特征应用下游任务中,如分类、情感分析等。 1. 文本预处理 (1)文本分词组成文本的词,被认为是重要的特征。因此文本分析首先要做的是对文本进行分词。对于英文来说,文本本来就是根据空格分开的,可以直接以空格为依据进行分词。对于中文分词目前已经有很多分词工具,通过这些工具,可以实现对文本的分词。 1. 文本预处理 (2)文本清洗在大多数情况下,经过分词的文本中还有很多无用的部分,为了提高后续处理的效率,需要将这些内容清洗去除。根据第一步分词时得到的每个词的词性,只留下有实际意义的与研究问题相关的词,通常包括名词,形容词,副词三种词类。至此,经过文本清洗,文本被拆分成了由若干个名词,形容词和副词构成的词语集合(通常被称为词袋)。(3)标准化常应用于英文的文本处理中。标准化就是处理一个单词的不同形式,完成词形还原,将一个任何形式的语言词汇还原为一般形式,即将英文的过去式、现在分词等各种形式都还原成词根。 2.文本特征提取 文本分词后的结果也会存在两个问题第一、并不是所有词都是有用的,第二,一个语料库中词的数量是非常大的,但是有的词语出现次数很少,甚至只是出现一次,如果直接将分词的结果作为特征进行处理,会造成数据稀疏,严重影响模型效率。需要对特征进行提取,即只用部分词集合代表文本的特征。词频分析(Word Frequency Analysis)是对文本中词汇出现的次数进行统计与分析,是文本挖掘中方便且重要的手段,是一种常见的文本分析角度。常见的分析方法主要为:词袋模型和词向量模型。 2.文本特征提取 ? 2.文本特征提取 (2)词袋模型之基础的LDA主题模型只考虑词频,没有考虑到词语背后的语义之间的关联,无法处理两个文档共同出现的词语不同,但是两个文档主题是相似的情况。主题模型是用来在大量的文档中发现潜在主题的一种统计模型。一个文档通常包含多个主题且每个主题所占比例各不相同,主题模型能够统计文档中的词语,根据文档中词的信息判断文档包含的主题以及各个主题所占比重。一种典型的词袋模型:LDA基本设想为一篇文档是由一组词组成的集合,词与词之间没有顺序和先后关系。同时,基于词集合,文档的特征由若干主题代表,每个主题“以一定概率选择了某个词”;而文档的每个词“以一定的概率属于某个主题”。LDA主题模型中,文档是由主题组成的,每篇文档根据词集合,按照概率分布的形式给出主题。通常在训练时虽然需要指定主题的个数,但不需要对训练集进行事先标注,因此属于无监督算法。 2.文本特征提取 (2)词袋模型之基础的LDA主题模型不足之处生成的主题没有显式的有意义的语义主题和关键词的生成过程分为如下几步:第一步是设置主题的数量以及每个主题下输出的关键词个数,例如在对十篇与外卖评论有关的文档进行处理前,先设置主题数量为2; 第二步是生成每个主题下的词分布,根据词分布确定该主题的含义,例如根据每个主题下的关键词,确定外卖评论的主题为“配送”和“商品”;第三步是生成文本-主题分布,确定每个文档属于每个主题的概率。例如第一篇文档属于“配送”的概率为70%,属于“商品”的概率为30%。 2.文本特征提取 (3)词袋模型之Labeled LDA主题模型Labeled LDA是一种有监督的学习方法,与基础LDA主题模型最明显的区别在于,这个方法需要一部分已知标签的文本数据。在训练时采用了不断扩充训练集的方法。首先将这些人为打上标签的数据作为初始种子训练集,然后使用Labeled LDA方法计算出没有标签的评论属于每一个标签的概率分布,取概率分布差异最明显,即对所打标签的可信任度较高的评论加入训练集。之后不断重复这一步步的过程,直至所有评论数据均被打上标签。通过上述过程,即可获得每条评论的标签。优势与基础LDA相比,Labled LDA不仅可以获得明确的主题,还能够得到各个主题下关键词的内容。对比TF-IDF算法,上述LDA模型由于在词和文档之间加入了主题的概念,可以较好的解决一词多义和多词一义的问题 2.文本特征提取 (4)词嵌入(词向量)模型对于词袋模型来说,在表示文本时容易受到维数灾难的困扰;同时不能很好的刻画词与词之间的关系,由此发展出了词嵌入模型。主要的思想是将文档中每个词语映射到低维空间上的一个向量,构建基于向量分析的模型。通过词向量可以表达比词袋模型更丰

文档评论(0)

1243595614 + 关注
实名认证
文档贡献者

文档有任何问题,请私信留言,会第一时间解决。

版权声明书
用户编号:7043023136000000

1亿VIP精品文档

相关文档