- 1
- 0
- 约1.76千字
- 约 20页
- 2026-03-11 发布于福建
- 举报
任务7.2文本预处理Python数据分析
学习目标及重难点学习目标:学习文本预处理流程掌握分词、词性标注、词形归一化、删除停用词方法素养目标:掌握分词、词性标注、词形归一化、删除停用词方法学习重点:掌握分词、词性标注、词形归一化、删除停用词方法
目录学习内容1.文本预处理流程2.分词、词性标注、词形归一化、删除停用词
01文本预处理流程
1.常见的文本数据分析工具文本预处理一般包括分词、词形归一化、删除停用词,具体流程如下所示
02分词、词性标注、词形归一化与删除停用词
2.分词指将由连续字符组成的语句,按照一定的规则划分成一个个独立词语英文按空格,中文复杂中文的结构特点,可以把分词算法分为以下三类:基于规则分词基于统计分词基于理解分词
2.分词英文分词,可调用word_tokenize()函数基于空格或标点进行划分,并返回单词列表 sentence=Ilikebule.#将句子切分为单词words=nltk.word_tokenize(sentence)[I,like,bule,.]
2.分词对中文句子分词,可通过jieba.cut()?函数进行划分,该函数有如下三个参数:需要分词的字符串。cut_all,控制是否采用全模式。HMM,控制是否使用HMM模型
2.词性标注词性是对词语分类的方式之一中文词汇名词、动词、形容词、数词、量词、代词
原创力文档

文档评论(0)