手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理.docxVIP

下载本文档

1
0
约4.68千字
约 13页
2021-11-16 发布于湖南
举报
版权申诉

手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理一、前言 ????大家好，我是Python进阶者，上个礼拜的时候，我的Python沟通群里有个名叫程序的大佬，头像是绿色菜狗的那位，在Python沟通群里边的人应当都晓得我说的是哪个大佬了，他供应了一份初始淘宝数据，数据乍看上去格外芜杂无章，但是经过小小明大佬的神化处理之后，一秒就变清楚了，真是太神了，然后就有了后续的数据分词处理和可视化等内容了，可能群里的人平常工作太忙，没有来得及看群消息，作为热心的群主，这里给大家整理成一篇文章，感爱好的小伙伴，可以去实操一下，还是可以学到很多东西的。言归正传，一起来学习下今日的数据分析内容吧。二、原始数据预处理 1、原始数据 ????在未经过处理之前的数据，长这样，大家可以看看，全部存储在一个单元格里边了，看得格外的让人难过。如下图所示。 ????依据常规来说，针对上面的数据，我们确定会选择Excel里边的数据分列进行处理，然后依次的去依据空格、冒号去分割，这样可以得到一份较为清楚的数据表，诚然，这种方法的确可行，但是小小明大佬另辟蹊径，给大家用Python中的正则表达式来处理这个数据，处理方法如下。 ?2、原始数据预处理 ????小小明大佬直接使用正则表达式re模块和pandas模块进行处理，方法可谓奇妙，一击即中，数据处理代码如下。 import re import pandas as pd result = [] with open(r淘宝数据.csv) as f: for line in f: row = dict(re.findall(([^：\t]+)：([^：\t]+), line)) if row: result.append(row) df = pd.DataFrame(result) df.to_excel(new_data.xlsx, encoding=utf-8) print(df) ????之后我们可以看到效果图，如下图所示，这下是不是感觉到清新了很多呢？ ????至此，我们对原始的数据进行了预处理，但是这还不够，我们今日次要的目标是对上面数据中的两列：配料表和保质期进行数据分析，接下来连续我们的数据处理和分析。三、对配料表和保质期列进行处理 ????一开头的时候，程序大佬对配料表和保质期这两列的数据进行处理，但是来回得到的分词中总有一些特殊字符，如下图所示，我们可以看到这些字符里边有%、顿号、空格等内容。 ????我们都晓得，这些是我们不需要的字符，当时我们在群里争辩的时候，我们就想到使用停用词去针对这些扰人的字符进行处理，代码如下。 # 创建停用词list def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, r, encoding=gbk).readlines()] return stopwords # 对句子进行分词 def seg_sentence(sentence): sentence_seged = jieba.cut(sentence.strip()) stopwords = stopwordslist(stop_word.txt) # 这里加载停用词的路径 outstr = for word in sentence_seged: if word not in stopwords: if word != \t: outstr += word outstr += return outstr ????其中stop_word.txt是小编之前在网上找到的一个存放一些常用特殊字符的txt文件，这个文件内容可以看看下图。 ????如上图所示，或许有1894个词左右，其实在做词频分析的时候，使用停用词去除特殊字符是经常会用到的，感爱好的小伙伴可以保藏下，或许后面你会用到呢？代码和数据我统一放到文末了，记得去取就行。经过这一轮的数据处理之后，我们得到的数据就基本上没有太多芜杂的字符了，如下图所示。 ????得到这些数据之后，接下来我们需要对这些词语做一些词频统计，并且对其进行可视化。假如还有想法的话，也可以直接套用词云模板，生成秀丽的词云图，也未尝不行。四、词频统计 ????关于词频统计这块，小编这里引见两种方法，两个代码都是可以用的，条条大路通罗马，一起来看看吧！方法一：常规处理 ????这里使用的是常规处理的方法，代码亲测可用，只需要将代码中的1.t