自然语言及语音处理项目式教程 习题库05-实操题.docx

自然语言及语音处理项目式教程 习题库05-实操题.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

实操题

初识文本基础处理

使用TF-IDF算法提取科研论文摘要中的关键词

随着科研领域的快速发展,越来越多的研究者们撰写并发表科研论文。通过对科研论文摘要的文本分析,找出关键词汇,有助于更好地了解当前研究的热点和趋势。针对一篇科研论文摘要文本abstract.txt,要求如下:

1.进行数据读取。

2.使用jieba库对文本进行分词。

3.使用TF-IDF模块提取关键词。

4.输出提取到的关键词及其权重。

5.绘制关键词词云图。

【考察知识点】jieba库中文分词,TF-IDF提取关键词。

【答案解析】

进行数据读取。

代码STYLEREF1\s2SEQ代码\*ARABIC\s11进行数据读取

#读取科研论文摘要文本

withopen(abstract.txt,r,encoding=utf-8)asf:

text=f.read()

运行REF_Ref134492830\h代码21,输出科研论文摘要文本如下。

摘要内容:

为了提高运输安全管理水平和运输效率,对运输车辆安全性进行客观评价,提出了一种结合多算法的行车安全评价模型。首先,根据交通运输部公路科学研究院所给车联网数据,设计并定义了驾驶人行为的特征指标和评价指标;其次,采用回归分析方法对驾驶人的驾驶风格进行分析;接着,分别采用K-means聚类和DBSCAN聚类算法对驾驶人的不良行为进行分析;经过对比,最终选用K-means聚类算法和因子分析的结果对驾驶行为进行评价,共分为6类。该模型将机器学习中的数据挖掘和数据分析算法与道路运输行业相结合,为道路运输安全管理的研究提供了一个量化分析的工具。

使用jieba库对文本进行分词。

代码STYLEREF1\s2SEQ代码\*ARABIC\s12使用jieba库对文本进行分词

importjieba

#对科研论文摘要进行分词

words=jieba.lcut(text)

print(摘要内容分词:\n,words)

运行REF_Ref134492844\h代码22,得到摘要内容分词结果如下。

摘要内容分词:

[为了,提高,运输,安全,管理水平,和,运输,效率,,,,对,运输,车辆,安全性,进行,客观,评价,,,,提出,了,一种,结合,多,算法,的,行车,\n,安全,评价,模型,。,首先,,,,根据,交通运输,部,公路,科学,研究院所,给,车,联网,数据,,,,设计,并,定义,了,驾驶,人,行为,的,特征,指标,和,\n,评价,指标,;,其次,,,,采用,回归,分析方法,对,驾驶,人,的,驾驶,风格,进行,分析,;,接着,,,,分别,采用,K,-,means,,聚类,和,DBSCAN,,聚,\n,类,算法,对,驾驶,人,的,不良行为,进行,分析,;,经过,对比,,,,最终,选用,K,-,means,,聚类,算法,和,因子分析,的,结果,对,驾驶,行为,进行,\n,评价,,,,共,分为,6,,类,。,该,模型,将,机器,学习,中,的,数据挖掘,和,数据分析,算法,与,道路,运输,行业,相结合,,,,为,道路,运输,安全,管,\n,理,的,研究,提供,了,一个,量化,分析,的,工具,。]

使用TF-IDF模块提取关键词。

代码STYLEREF1\s2SEQ代码\*ARABIC\s13使用TF-IDF模块提取关键词

importjieba.analyse

#提取关键词及其权重

keywords=jieba.analyse.extract_tags(text,topK=10,withWeight=True)

输出提取到的关键词及其权重。

代码STYLEREF1\s2SEQ代码\*ARABIC\s14输出提取到的关键词及其权重

#输出关键词及其权重

forkeyword,weightinkeywords:

print(f{keyword}:{weight})

运行REF_Ref134492812\h代码24,输出提取到的关键词及其权重如下。

驾驶:0.4017321978955556

算法:0.3862751777391111

运输:0.3

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档