- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京市昌平区建材城西路金燕龙办公楼一层 电话:400-618-4000
10.6.1 出场人物统计
《西游记》是中国古代第一部浪漫主义章回体长篇神魔小说,是中国古典四大名著之一。全书主要描写了孙悟空出世及大闹天宫后,与唐僧、猪八戒、沙悟净和白龙马四人一同西行取经,历经九九八十一难到达西天见到如来佛祖,最终五圣成真的故事。《西游记》篇幅巨大、出场人物繁多,本案例要求编写程序,统计《西游记》小说中的关键人物的出场次数。
实例目标
通过完成本实例,读者应掌握以下知识或技能:
了解jieba库的基本使用
实例分析
(1)统计文本中数据,首先需读取文本数据内容并提取相关词语。
(2)统计每个词语出现的次数,需使用一种数据结构同时保存词语和词频,并实时对词频的数量进行更新,所以数据结构应该具有可变且元素为键值对的特点,可以直接使用字典保存。
(3)提取相关词语后,对这些词语进行计数,同时需要统一称呼和删除一些无意义的词语。例如,“悟空”“老孙”“大圣”等词需要进行统一处理;对于无意义的词语需要删除,例如“我们”、“如何”等,所以这里可以构建一个排除词库,这个词库里面存放的是一些无意义的词语。
(4)词语按照统计数量按从高到低进行排序,输出前8个高频率词语,并以固定的格式进行输出。字典中的元素是无序的,这里可以将字典先转换为有顺序的列表,再让列表按照单词出现的次数排序。
代码实现
import jieba
# 打开并读取“西游记.txt”
txt = open(r西游记.txt, rb).read()
# 构建排除词库
excludes = {一个, 那里, 怎么, 我们, 不知, 两个, 甚么,
只见, 不是,原来, 不敢, 闻言, 如何, 什么}
# 使用jieba分词
words = jieba.lcut(txt)
# 对划分的单词计数
counts = {}
for word in words:
if len(word) == 1:
continue
elif word == 行者 or word == 大圣 or word == 老孙:
rword = 悟空
elif word == 师父 or word == 三藏 or word == 长老:
rword = 唐僧
elif word == 悟净 or word == 沙和尚:
rword = 沙僧
else:
rword = word
counts[rword] = counts.get(rword, 0) + 1
# 删除无意义的词语
for word in excludes:
del counts[word]
# 按词语出现的次数排序
items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)
# 采用固定的格式进行输出
for i in range(9):
word, count = items[i]
print({0:5}{1:5}次.format(word, count))
代码测试
运行代码,输出结果如下:
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\admin\AppData\Local\Temp\jieba.cache
Loading model cost 0.770 seconds.
Prefix dict has been built successfully.
26346次
悟空 5282次
唐僧 4013次
八戒 1627次
沙僧 806次
和尚 603次
妖精 599次
菩萨 578次
国王 442次
您可能关注的文档
- 大学生就业指导 1-2 熟悉就业制度与政策(54).pptx
- 大学生就业指导 2-1 建立生涯意识(45).pptx
- 大学生就业指导 2-2 全面探索自我--2 兴趣(50).pptx
- 《汽车保险与理赔》第3版课件5-2 车损险理赔实例.pptx
- 《汽车保险与理赔》第3版课件5-3 汽车三责险理赔实例 .pptx
- 《汽车保险与理赔》第3版课件5-4 我国汽车其他保险理赔实例.pptx
- 《汽车保险与理赔》第3版课件5-5 汽车保险欺诈实例.pptx
- 《汽车保险与理赔》课程PPT---4.1 汽车保险事故索赔新 - 副本.pptx
- 《汽车保险与理赔》课程PPT---4.2 汽车保险事故定损与核损新.pptx
- 《汽车保险与理赔》课程PPT---4.3 汽车保险事故理赔新.pptx
- Python快速编程入门10.6.2 小猴子接香蕉 实训文档.docx
- Python快速编程入门2.4.1 打印购物小票 实训文档.docx
- Python快速编程入门2.4.2 打印蚂蚁森林植树证书 实训文档.docx
- Python快速编程入门2.7.1 绝对温标 实训文档.docx
- Python快速编程入门2.7.2 身体质量指数 实训文档.docx
- Python快速编程入门3.2.1 计算器 实训文档.docx
- Python快速编程入门3.2.2 猜数字 实训文档.docx
- Python快速编程入门3.4.1 逢7拍手游戏 实训文档.docx
- 2022届高考数学二轮复习专题练习:导数.docx
- 河南省洛阳市2021-2022学年高三第二次统一考试理科数学试卷.pdf
最近下载
- 新生儿肠造瘘术后营养支持实践指南(2024版)解读PPT课件.pptx VIP
- 2022大理农林职业技术学院招聘笔试真题及参考答案详解一套.docx VIP
- 19S406 建筑排水管道安装-塑料管道.pdf VIP
- 供电线路工程施工投标方案技术标.docx
- imt面向2030及未来发展的框架和总体目标建议书内容 .pdf VIP
- NBT 32047-2018光伏发电站土建施工单元工程质量评定标准.docx VIP
- 2024人教版PEP英语三年级上册Unit 4Plants around usAB卷.pdf
- 浪潮英信服务器 NF5468M6 产品技术白皮书.pdf VIP
- bga返修台_zm-r5860说明书8800元.pdf VIP
- 2025能源行业发展蓝皮书-新能源发展现状及趋势.pdf VIP
文档评论(0)