- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE2
项目2初识文本基础处理
——基于TF-IDF实现关键词提取
学习目标
掌握TF-IDF的基本原理和计算方法。
掌握使用Python进行文本预处理的方法,包括文本清洗、分词和过滤停用词等。
学会如何使用jieba库进行中文分词。
掌握使用TF-IDF算法进行关键词提取。
通过学习文本处理技术,提高学生的数据处理能力、分析能力。
基于文本分析研究《西游记》,为文学研究提供新的视角和工具,从而推动传统的文学研究方法向现代化、数据化发展。
案例要求
导入所需库和模块。
加载文本数据。
文本预处理。
使用TF-IDF算法提取关键词。
案例内容
本案例将通过对四大名著《西游记》进行基于TF-IDF算法的关键词提取,学习关键词提取过程,培养学生运用计算机技术处理和分析文本信息的能力。此外,本案例还将帮助学生培养学生团队协作精神,增强沟通与交流能力,使学生在解决问题的过程中能够更好地与他人合作;增强学生信息道德意识,培养在数据分析过程中遵循社会伦理道德规范,尊重知识产权、保护隐私权的意识。此外,通过对《西游记》文本的分析,可以把握作品中体现的社会价值观和道德观念,有助于学生正确理解和传承传统文化,培养学生的文化自觉和民族自信。
案例步骤
导入所需库和模块
首先,导入所需库和模块,如REF_Re\h代码41所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s11导入所需库和模块
#导入jieba库,用于中文分词
importjieba
#从jieba库中导入analyse模块,用于关键词提取
importjieba.analyse
#导入re模块,用于处理正则表达式
importre
加载文本数据
这一步骤,以只读模式打开一个名为“西游记.txt”的文件,并将文件内容读取到一个变量raw_text中,避免对原始文件造成破坏,如REF_Re\h代码42所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s12加载文本数据
#以只读模式打开名为“西游记.txt”的文件,使用utf-8编码
withopen(西游记.txt,r,encoding=utf-8)asfile:
#将文件内容读取到字符串变量raw_text中
raw_text=file.read()
print(文本内容为:\n,raw_text)
运行REF_Re\h代码42,得到西游记的文本内容如下。
文本内容为:
西游记之正文
第001回灵根育孕源流出心性修持大道生
?诗曰:
混沌未分天地乱,茫茫渺渺无人见。
自从盘古破鸿蒙,开辟从兹清浊辨。
覆载群生仰至仁,发明万物皆成善。
欲知造化会元功,须看西游释厄传。
…
唐王准奏,即命升陈萼为学士之职,随朝理政。玄奘立意安禅,送在洪福寺内修行。后来殷小姐毕竟从容自尽,玄奘自到金山寺中报答法明长老。不知后来事体若何,且听下回分解。
文本预处理
这一步骤,实现文本清洗和分词的功能,并将分词结果转化为列表,如REF_Re\h代码43所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s13文本预处理
#使用正则表达式去除特殊符号、数字和英文字符
clean_text=re.sub([\s+\.\!\/_,$%^*(+\\]+|[+——!,。?、~@#¥%……*():;《)《》“”’‘[\]],,raw_text)
#对清洗后的文本进行分词
seg_list=jieba.cut(clean_text)
#将分词结果转换为列表
seg_words=list(seg_list)
print(正则化后的内容为:\n,raw_text)
运行REF_Re\h代码43,得到正则化后的内容如下。
正则化后的内容为:
西游记之正文
第001回灵根育孕源流出心性修持大道生
?诗曰:
混沌未分天地乱,茫茫渺渺无人见。
自从盘古破鸿蒙,开辟从兹清浊辨。
覆载群生仰至仁,发明万物皆成善。
欲知造化会元功,须看西游释厄传。
…
使用TF-IDF算法提取关键词
这一步骤,使用jieba库的analyse模块中的extract_tags()方法对清洗后的文本clean_text进行关键词提取。extract_tags()方法基于TF-IDF算法对文本进行关键词提取,topK=10表示提取权重最高的前10个关键词
您可能关注的文档
- 自然语言及语音处理项目式教程 实训指导汇总 实训1--20 配置NLP环境 ---基于PaddleSpeech实现新闻自动播报.docx
- 自然语言及语音处理项目式教程 习题库 01--5 单选题 ---实操题.doc
- 《自然语言处理技术》 高阶案例 基于改进PANNs的环境音识别.docx
- 《自然语言处理技术》高阶案例】基于网格搜索与LightGBM的情感分类V1.0.docx
- 《自然语言处理技术》高阶案例】基于肘部法则与k-means算法的新闻文本聚类V1.0.docx
- 《自然语言处理技术》基础案例】从PDF文件中读取文本V1.0.docx
- 《自然语言处理技术》基础案例】对数据集划分测试集和训练集V1.0.docx
- 《自然语言处理技术》基础案例】基于pyhanlp文本依存句法分析V1.0.docx
- 《自然语言处理技术》基础案例】基于TF-IDF的文本向量化V1.0.docx
- 《自然语言处理技术》基础案例】基于Word2Vec的文本向量化V1.0.docx
最近下载
- 北师版七年级数学上册精品培优讲义(最新版;可直接打印).doc VIP
- 8.《公路工程地质勘察规范》(JTGC20-2011).pdf
- 新外研版(三起)三年级上册英语全册教学课件(2024年新版教材).pptx
- 超智融合发展趋势与技术路径研究报告.pdf
- 精细化护理管理提升护理品质汇报课件.ppt VIP
- 食堂承包项目需求的理解及相应的难点解决方案.docx VIP
- 猫砂生产制备工艺技术.doc VIP
- MD780 10PIN手咪接口定义及二次开发配件接口定义标准20110805.doc VIP
- 外研版(三起)英语四年级下学期阅读理解专题练习(含答案)1.pdf VIP
- ROCKWELL-罗克韦尔(AB)变频器资料使用说明.pdf
文档评论(0)