《数据分析》课件——任务7.2 文本预处理.pptxVIP

《数据分析》课件——任务7.2 文本预处理.pptx

任务7.2文本预处理Python数据分析

学习目标及重难点学习目标：学习文本预处理流程掌握分词、词性标注、词形归一化、删除停用词方法素养目标：掌握分词、词性标注、词形归一化、删除停用词方法学习重点：掌握分词、词性标注、词形归一化、删除停用词方法

目录学习内容1.文本预处理流程2.分词、词性标注、词形归一化、删除停用词

01文本预处理流程

1.常见的文本数据分析工具文本预处理一般包括分词、词形归一化、删除停用词，具体流程如下所示

02分词、词性标注、词形归一化与删除停用词

2.分词指将由连续字符组成的语句，按照一定的规则划分成一个个独立词语英文按空格，中文复杂中文的结构特点，可以把分词算法分为以下三类：基于规则分词基于统计分词基于理解分词

2.分词英文分词，可调用word_tokenize()函数基于空格或标点进行划分，并返回单词列表 sentence=Ilikebule.#将句子切分为单词words=nltk.word_tokenize(sentence)[I,like,bule,.]

2.分词对中文句子分词，可通过jieba.cut()?函数进行划分，该函数有如下三个参数：需要分词的字符串。cut_all，控制是否采用全模式。HMM，控制是否使用HMM模型

2.词性标注词性是对词语分类的方式之一中文词汇名词、动词、形容词、数词、量词、代词

更多 >