- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手把手教你用Pandas库对淘宝原始数据进行数据处理和分词处理
一、前言
????大家好,我是Python进阶者,上个礼拜的时候,我的Python沟通群里有个名叫程序的大佬,头像是绿色菜狗的那位,在Python沟通群里边的人应当都晓得我说的是哪个大佬了,他供应了一份初始淘宝数据,数据乍看上去格外芜杂无章,但是经过小小明大佬的神化处理之后,一秒就变清楚了,真是太神了,然后就有了后续的数据分词处理和可视化等内容了,可能群里的人平常工作太忙,没有来得及看群消息,作为热心的群主,这里给大家整理成一篇文章,感爱好的小伙伴,可以去实操一下,还是可以学到很多东西的。言归正传,一起来学习下今日的数据分析内容吧。
二、原始数据预处理
1、原始数据
????在未经过处理之前的数据,长这样,大家可以看看,全部存储在一个单元格里边了,看得格外的让人难过。如下图所示。
????依据常规来说,针对上面的数据,我们确定会选择Excel里边的数据分列进行处理,然后依次的去依据空格、冒号去分割,这样可以得到一份较为清楚的数据表,诚然,这种方法的确可行,但是小小明大佬另辟蹊径,给大家用Python中的正则表达式来处理这个数据,处理方法如下。
?2、原始数据预处理
????小小明大佬直接使用正则表达式re模块和pandas模块进行处理,方法可谓奇妙,一击即中,数据处理代码如下。
import re
import pandas as pd
result = []
with open(r淘宝数据.csv) as f:
for line in f:
row = dict(re.findall(([^:\t]+):([^:\t]+), line))
if row:
result.append(row)
df = pd.DataFrame(result)
df.to_excel(new_data.xlsx, encoding=utf-8)
print(df)
????之后我们可以看到效果图,如下图所示,这下是不是感觉到清新了很多呢?
????至此,我们对原始的数据进行了预处理,但是这还不够,我们今日次要的目标是对上面数据中的两列:配料表和保质期进行数据分析,接下来连续我们的数据处理和分析。
三、对配料表和保质期列进行处理
????一开头的时候,程序大佬对配料表和保质期这两列的数据进行处理,但是来回得到的分词中总有一些特殊字符,如下图所示,我们可以看到这些字符里边有%、顿号、空格等内容。
????我们都晓得,这些是我们不需要的字符,当时我们在群里争辩的时候,我们就想到使用停用词去针对这些扰人的字符进行处理,代码如下。
# 创建停用词list
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, r, encoding=gbk).readlines()]
return stopwords
# 对句子进行分词
def seg_sentence(sentence):
sentence_seged = jieba.cut(sentence.strip())
stopwords = stopwordslist(stop_word.txt) # 这里加载停用词的路径
outstr =
for word in sentence_seged:
if word not in stopwords:
if word != \t:
outstr += word
outstr +=
return outstr
????其中stop_word.txt是小编之前在网上找到的一个存放一些常用特殊字符的txt文件,这个文件内容可以看看下图。
????如上图所示,或许有1894个词左右,其实在做词频分析的时候,使用停用词去除特殊字符是经常会用到的,感爱好的小伙伴可以保藏下,或许后面你会用到呢?代码和数据我统一放到文末了,记得去取就行。经过这一轮的数据处理之后,我们得到的数据就基本上没有太多芜杂的字符了,如下图所示。
????得到这些数据之后,接下来我们需要对这些词语做一些词频统计,并且对其进行可视化。假如还有想法的话,也可以直接套用词云模板,生成秀丽的词云图,也未尝不行。
四、词频统计
????关于词频统计这块,小编这里引见两种方法,两个代码都是可以用的,条条大路通罗马,一起来看看吧!
方法一:常规处理
????这里使用的是常规处理的方法,代码亲测可用,只需要将代码中的1.t
您可能关注的文档
- 如何保证缓存与数据库一致性.docx
- 如何使用RSA 对数据加解密和签名验签?一篇文章带你搞定.docx
- 如何保证缓存与数据库双写时的数据一致性?.docx
- 如何保证缓存和数据库的一致性.docx
- 如何写出一份优秀的软件设计文档.docx
- 如何做好架构之架构切分.docx
- 如何写好一份技术简历.docx
- 个人入股公司股份协议书范本.docx
- 如何写出没有BUG的代码.docx
- 如何利用Http缓存机制.docx
- 手把手教你用Pyecharts库对淘宝数据进行可视化展示.docx
- 手把手教你用Pycharm连接远程Python环境.docx
- 手把手教你用Python实现Excel中的Vlookup功能.docx
- 手把手教你用Python实现批量文件的压缩处理.docx
- 手把手教你用Python操纵Word自动编写离职报告.docx
- 手把手教你用Python搭建IP代理池,轻松破解请求频率限制反爬虫~.docx
- 手把手教你用Python替代Mapinfo更快查找两张表中距离最近的点.docx
- 个人烧伤情况说明怎么写范文.docx
- 手把手教你用Python来模拟绘制自由落体运动过程中的抛物线(附源码).docx
- 手把手教你用Python来模拟绘制高中物理中平抛运动过程中的实线抛物线(附源码).docx
文档评论(0)