- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新闻分类器
import pandas as pd
import jieba
#pip install jieba
df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news = df_news.dropna()
df_news.head()
df_news.shape
分词:使用结吧分词器
content = df_news.content.values.tolist()
print (content[1000])
content_S = []
for line in content:
current_segment = jieba.lcut(line)
if len(current_segment) > 1 and current_segment != '\r\n': #换行符
content_S.append(current_segment)
content_S[1000]
df_content=pd.DataFrame({'content_S':content_S})
df_content.head()
stopwords=pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')
stopwords.head(20)
def drop_stopwords(contents,stopwords):
contents_clean = []
all_words = []
for line in contents:
line_clean = []
for word in line:
if word in stopwords:
continue
line_clean.append(word)
all_words.append(str(word))
contents_clean.append(line_clean)
return contents_clean,all_words
#print (contents_clean)
contents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)
#df_content.content_S.isin(stopwords.stopword)
#df_content=df_content[~df_content.content_S.isin(stopwords.stopword)]
#df_content.head()
df_content=pd.DataFrame({'contents_clean':contents_clean})
df_content.head()
df_all_words=pd.DataFrame({'all_words':all_words})
df_all_words.head()
words_count=df_all_words.groupby(by=['all_words'])['all_words'].agg({"count":numpy.size})
words_count=words_count.reset_index().sort_values(by=["count"],ascending=False)
words_count.head()
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
wordcloud=WordCloud(font_path="./data/simhei.ttf",background_color="white",max_font_size=80)
word_frequence = {x[0]:x[1]
您可能关注的文档
- 庐山旅游攻略昌北机场到庐山的坐车方法.pptx
- 库泽斯-——《领导力》.ppt
- 应对变化获致成功20091208.ppt
- 应变桥路连接.ppt
- 应收及预付款项(ppt-45).ppt
- 应用文-------简明字据.ppt
- 应用文教学课件(包含练习).ppt
- 应继昌梦想的力量(上课课件).ppt
- 应该如何做新闻.doc
- 店货架正确的组装步骤及方法分享.pptx
- 一季度GDP增速超预期,3月宏观数据波动加大 -2023年3月宏观数据点评 -东方金诚.docx
- 新能源周报(第83期):硅料带动光伏探底,电动车短期超预期.docx
- 医药生物-周跟踪:怎么看欧盟IPI调查的影响,.docx
- 燕窝市场消费者分析报告.docx
- 银行-理财月度观察(2024年4月):2024会是理财扩张的“大年”吗,.docx
- 银行-本周聚焦-消费信贷投放分化,国有行及城商行进取.docx
- 2024浙江舟山普陀城市投资发展集团有限公司人才招聘12人笔试模拟试题及答案解析.docx
- 2024年宣城宣州区事业单位招聘52人笔试模拟试题及答案解析.docx
- 2024年浙江丽水云和县引进高层次人才11人(事业单位编制管理)笔试模拟试题及答案解析.docx
- 2024年浙江金华市婺城区综合行政执法局招聘辅助执法人员12人笔试模拟试题及答案解析.docx
文档评论(0)