手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理.docxVIP

手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理 一、前言 ????大家好,我是Python进阶者,上个礼拜的时候,我的Python沟通群里有个名叫程序的大佬,头像是绿色菜狗的那位,在Python沟通群里边的人应当都晓得我说的是哪个大佬了,他供应了一份初始淘宝数据,数据乍看上去格外芜杂无章,但是经过小小明大佬的神化处理之后,一秒就变清楚了,真是太神了,然后就有了后续的数据分词处理和可视化等内容了,可能群里的人平常工作太忙,没有来得及看群消息,作为热心的群主,这里给大家整理成一篇文章,感爱好的小伙伴,可以去实操一下,还是可以学到很多东西的。言归正传,一起来学习下今日的数据分析内容吧。 二、原始数据预处理 1、原始数据 ????在未经过处理之前的数据,长这样,大家可以看看,全部存储在一个单元格里边了,看得格外的让人难过。如下图所示。 ????依据常规来说,针对上面的数据,我们确定会选择Excel里边的数据分列进行处理,然后依次的去依据空格、冒号去分割,这样可以得到一份较为清楚的数据表,诚然,这种方法的确可行,但是小小明大佬另辟蹊径,给大家用Python中的正则表达式来处理这个数据,处理方法如下。 ?2、原始数据预处理 ????小小明大佬直接使用正则表达式re模块和pandas模块进行处理,方法可谓奇妙,一击即中,数据处理代码如下。 import re import pandas as pd result = [] with open(r淘宝数据.csv) as f: for line in f: row = dict(re.findall(([^:\t]+):([^:\t]+), line)) if row: result.append(row) df = pd.DataFrame(result) df.to_excel(new_data.xlsx, encoding=utf-8) print(df) ????之后我们可以看到效果图,如下图所示,这下是不是感觉到清新了很多呢? ????至此,我们对原始的数据进行了预处理,但是这还不够,我们今日次要的目标是对上面数据中的两列:配料表和保质期进行数据分析,接下来连续我们的数据处理和分析。 三、对配料表和保质期列进行处理 ????一开头的时候,程序大佬对配料表和保质期这两列的数据进行处理,但是来回得到的分词中总有一些特殊字符,如下图所示,我们可以看到这些字符里边有%、顿号、空格等内容。 ????我们都晓得,这些是我们不需要的字符,当时我们在群里争辩的时候,我们就想到使用停用词去针对这些扰人的字符进行处理,代码如下。 # 创建停用词list def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, r, encoding=gbk).readlines()] return stopwords # 对句子进行分词 def seg_sentence(sentence): sentence_seged = jieba.cut(sentence.strip()) stopwords = stopwordslist(stop_word.txt) # 这里加载停用词的路径 outstr = for word in sentence_seged: if word not in stopwords: if word != \t: outstr += word outstr += return outstr ????其中stop_word.txt是小编之前在网上找到的一个存放一些常用特殊字符的txt文件,这个文件内容可以看看下图。 ????如上图所示,或许有1894个词左右,其实在做词频分析的时候,使用停用词去除特殊字符是经常会用到的,感爱好的小伙伴可以保藏下,或许后面你会用到呢?代码和数据我统一放到文末了,记得去取就行。经过这一轮的数据处理之后,我们得到的数据就基本上没有太多芜杂的字符了,如下图所示。 ????得到这些数据之后,接下来我们需要对这些词语做一些词频统计,并且对其进行可视化。假如还有想法的话,也可以直接套用词云模板,生成秀丽的词云图,也未尝不行。 四、词频统计 ????关于词频统计这块,小编这里引见两种方法,两个代码都是可以用的,条条大路通罗马,一起来看看吧! 方法一:常规处理 ????这里使用的是常规处理的方法,代码亲测可用,只需要将代码中的1.t

文档评论(0)

liuxiyuliuxingyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档