- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自然语言处理项目
自然语言处理项目目录数据预处理使用jieba分词器对评论内容进行中文分词将评论数据分隔为测试集和训练集导入本地停用词表(含中文停用词、各种符号)使用CountVectorizer模型进行特征抽取、向量化使用多项式朴素贝叶斯进行分类
数据预处理1
数据预处理数据集:评论文本,停用词表,电影列表评论文本:(809169,7)-(383362,4)电影列表:(9370,2)评论文本:7项内容。ID表示评论的ID号,TIME表示评论的时间,MOVIEID表示电影的ID号,RATING表示对电影的打分,取值范围为1~5的整数。CONTENT为评论的具体内容,CREATOR为评论的创建者,ADD_TIME表示摘取评论的时间电影列表:2项内容。ID代表电影ID号,Name代表电影名停用词表:1项内容。2066个词、字、符号被停用
数据预处理预处理评论文本ID,TIME,ADD_TIME,CREATOR删除这些无用的列名查看是否有缺失值(很严重)(图)---进行内容填充,电影id、打分、评论为重要信息,可以先删除这几项为空的数据(方法:先填充空为0,之后获取0所在的数据,进行删除),同理评论和打分进行填充删除,查询打分情况(发现-也算作缺失值),为了防止同一人对同一电影进行相同评论,需要检查CONTENT列和CREATOR列组合起来是否重复,如果重复,则删除重复记录,保留第一次出现的记录即可
数据预处理导入电影列表进行数据合并问题:ID的数据类型是整数型,而MOVIEID的数据类型是Object对象。不可直接合并
comments[MOVIEID]=comments[MOVIEID].astype(np.int64)
!int64是numpy支持的一种格式,需要在numpy库中调用这种格式
不能直接写成:cleaned_comments[MOVIEID].astype(int64)会报错的……
如果写成:cleaned_comments[MOVIEID].astype(int)
实际上是转换为int32了,不是int64
数据预处理得分在3分及以下的,映射为0,得分3分以上的映射为1,映射的结果作为LABEL列添加到合并数据集中
使用jieba分词器对评论内容进行中文分词2
将评论数据分隔为测试集和训练集3
6、导入本地停用词表(含中文停用词、各种符号)4
7、使用CountVectorizer模型进行特征抽取、向量化5
8、使用多项式朴素贝叶斯进行分类6
-13感谢您的欣赏汇报人:XXXX时间:20XX.7
原创力文档


文档评论(0)