- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE2
项目2初识文本基础处理
——读取与分析语料库
学习目标
掌握数据读取的方法。
掌握语料库的分析方法。
掌握文本处理方法。
培养对自然语言处理技术的实践能力和创新思维。
通过实际操作和分析文学名著等内容,培养学生对科技和人文交融的领域的认识。
提高学生的创新思维和综合素养,为社会发展和文化进步做出贡献。
案例要求
导入所需库和模块。
读取语料库。
文本预处理。
查询词频。
统计高频词频。
查询词频在指定区间内的词数量。
案例内容
本案例将介绍如何读取并分析语料库,主要包括读取语料库、文本预处理、查询词频、统计高频词频,以及查询词频在指定区间内的词数量,通过实际操作学习如何加载文本数据,进行词频分析,并根据需求查询特定的词频信息。
通过本案例的学习,学生将了解到文本基础处理的重要性和实际应用。文本数据是人类语言和文化的重要载体,对文本数据的处理和分析有助于学生更好地理解语言的特点和文化的内涵。通过学习和掌握文本处理技术,学生将培养对语言和文化的关注和理解能力,促进思想的开放和自主学习的能力,从而更好地应对信息时代的挑战。
案例步骤
导入所需库和模块
导入所需库和模块,如REF_Re\h代码41所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s11导入所需库和模块
#导入NLTK(NaturalLanguageToolkit)库,用于自然语言处理
importnltk
importjieba
#从NLTK库中导入FreqDist类,用于计算词频分布
fromnltkimportFreqDist
importre
读取语料库
打开指定路径的语料库文件,并将文件内容存储到一个变量中,以供后续的处理和分析使用,如REF_Re\h代码42所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s12读取语料库
corpus_file=水浒传.txt#语料库文件路径
withopen(corpus_file,r,encoding=utf-8)asfile:#使用open函数打开语料库文件,并以只读模式进行操作
corpus=file.read()#读取文件的内容,并将其存储在变量corpus中
print(水浒传的文本:\n,corpus)
运行REF_Re\h代码42,得到的水浒传文本内容,部分结果如下。
水浒传的文本:
《水浒传》施耐庵
楔子张天师祈禳瘟疫洪太尉误走妖魔
话说大宋仁宗天子在位,嘉佑三年三月三日五更三点,天子驾坐紫哀殿,受百官朝贺。但见:
…
文本预处理
对水浒传文件内容进行文本预处理,主要包括去除特殊符号、数字和英文字符等,同时进行分词、去停用词操作,如REF_Ref134043179\h代码43所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s13文本预处理
#使用正则表达式去除特殊符号、数字和英文字符
clean_text=re.sub(
[\s+\.\!\/_,$%^*(+\\]+|[+——!,。?、~@#¥%……*():;《)《》“”’‘[\]],,corpus)
tokens=jieba.cut(clean_text)#对语料库进行分词
tokens=list(tokens)
#使用with语句和open函数以只读模式(r)打开停用词表文件,指定文件编码为utf-8
withopen(stopwordsHIT.txt,r,encoding=utf-8)asf:
#使用文件对象的readlines()方法将文件内容逐行读取到一个名为stopwords的列表中
stopwords=f.readlines()
#遍历停用词列表,使用strip()方法去除每个停用词的换行符,得到一个新的停用词列表
stopwords=[word.strip()forwordinstopwords]
#使用列表推导式过滤分词结果seg_words中的停用词
#只保留不在停用词列表stopwords中的词
filtered_words=[wordforwordintokensifwordnotinstopwords]
print(文本预处理后的分词结果(部分):\n,filtered_words[100:200])
运行REF_Ref134043179\h代码43,得到文本预处理结果如
您可能关注的文档
- 自然语言及语音处理项目式教程 实训指导汇总 实训1--20 配置NLP环境 ---基于PaddleSpeech实现新闻自动播报.docx
- 自然语言及语音处理项目式教程 习题库 01--5 单选题 ---实操题.doc
- 《自然语言处理技术》 高阶案例 基于改进PANNs的环境音识别.docx
- 《自然语言处理技术》高阶案例】基于网格搜索与LightGBM的情感分类V1.0.docx
- 《自然语言处理技术》高阶案例】基于肘部法则与k-means算法的新闻文本聚类V1.0.docx
- 《自然语言处理技术》基础案例】从PDF文件中读取文本V1.0.docx
- 《自然语言处理技术》基础案例】对数据集划分测试集和训练集V1.0.docx
- 《自然语言处理技术》基础案例】基于pyhanlp文本依存句法分析V1.0.docx
- 《自然语言处理技术》基础案例】基于TF-IDF的文本向量化V1.0.docx
- 《自然语言处理技术》基础案例】基于Word2Vec的文本向量化V1.0.docx
最近下载
- 五谷为养《黄帝内经》中的养生之道.pdf VIP
- 2023云南普洱景东县人民医院公开招聘编外卫生专业技术人员14人笔试历年参考题库典型考题及考点剖析附带答案详解.docx
- 【人教版】中考英语专题复习导学案:冠词专题.pdf VIP
- 中国教育思想史.docx VIP
- 新世纪大学英语:视听说教程第四册(第二版)视听说教程(3rd Edition)第四册 (全).pdf VIP
- 河海大学电气工程课程设计报告书.doc VIP
- 5eDnD_凡戴尔的失落矿坑_模组_中译(二校).pdf VIP
- CONTAX N1 使用手册说明书.pdf
- 数字温度计设计.doc VIP
- 民用建筑防爆设计标准.pdf VIP
文档评论(0)