- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE2
项目3深入文本进阶处理
——使用Gensim库构建文本字典
学习目标
掌握Gensim库的基本方法和函数。
学习如何使用Gensim库构建文本字典。
了解Gensim库的应用场景和技术原理,提升对技术发展和科技创新的认知和理解。
感受Gensim库在文本挖掘、机器学习等方面的应用,提高数据分析和决策能力,培养创新精神和实践能力。
通过莎士比亚著作构建文本字典,培养学生的阅读兴趣。
案例要求
使用pandas库对文本数据进行读取,并展示数据。
使用Gensim库中corpora模块的Dictionary()方法建立文本字典,并展示结果。
案例内容
在自然语言处理领域,文本向量化是一种常见的数据预处理方法,它将文本转换为计算机能够处理的数字向量表示形式。基于Gensim库,对莎士比亚的著作《莎士比亚14行诗》的第十八首,建立一个文本字典,该字典可以用于后续的自然语言处理任务,例如,文本分类或聚类;也可帮助学生阅读经典了解名字中所用的词汇,培养阅读兴趣。
文本字典是将文本数据中的单词映射到数字ID的过程,也就是将文本数据进行向量化的一部分。它的作用是为文本数据建立一个有序的单词集合,每个单词都对应着一个唯一的数字ID。通过文本字典,我们可以将文本数据转换为计算机可读的格式,便于进行后续的分析和处理。文本字典可以作为一个重要的预处理步骤,为下游的自然语言处理任务如文本分类、聚类、情感分析等提供支持。
案例步骤
导入pandas库和数据集,查看文本信息
在本案例中,首先导入pandas库,然后使用read_csv函数读取CSV格式的数据文件,并将其转换为pandas的DataFrame对象,最后查看《莎士比亚14行诗》的第十八首的文本信息,如REF_Ref129522203\h代码41所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s11pandas库和数据集导入的主要代码
importpandasaspd
#使用pandas库读取csv文件,文件名为“莎士比亚十四行诗第十八首.CSV”,使用gbk编码进行读取
data_text=pd.read_csv(../data/莎士比亚十四行诗第十八首.CSV,encoding=gbk)
#从读取的数据中获取名为“莎士比亚14行诗第十八首”的一列数据,并将其赋值给变量text
text=data_text[莎士比亚14行诗第十八首]
#打印出text列表
print(list(text))
REF_Ref129522203\h代码41的运行结果如REF_Ref129289445\h图41所示。
图STYLEREF1\s4SEQ图\*ARABIC\s11文本信息
建立文本字典
首先,将读取的文本数据分词处理,得到每个句子的单词列表。使用Gensim库中corpora模块的Dictionary()方法来建立文本字典,该方法将单词列表作为参数。输出文本字典中单词的数量和单词与数字ID的映射关系。对句子进行预处理,并将处理后的结果保存在sentences列表中,建立文本字典如REF_Re\h代码42所示。
代码STYLEREF1\s4SEQ代码\*ARABIC\s12建立文本字典
importgensim
fromgensimimportcorpora
#将文本数据拆分成单词列表
tokens1=[[itemforiteminline.split()]forlineintext]
#使用Gensim中的corpora.Dictionary()方法,将tokens1转化为Gensim中的Dictionary对象
g_dict1=corpora.Dictionary(tokens1)
#打印出g_dict1中token的数量
print(Thedictionaryhas:+str(len(g_dict1))+tokens\n)
#打印出g_dict1中的token及其对应的数字ID
print(g_dict1.token2id)
REF_Re\h代码42的运行结果如REF_Ref129290228\h图42所示。
图STYLEREF1\s4SEQ图\*ARABIC\s12文本字典
您可能关注的文档
- 自然语言及语音处理项目式教程 实训指导汇总 实训1--20 配置NLP环境 ---基于PaddleSpeech实现新闻自动播报.docx
- 自然语言及语音处理项目式教程 习题库 01--5 单选题 ---实操题.doc
- 《自然语言处理技术》 高阶案例 基于改进PANNs的环境音识别.docx
- 《自然语言处理技术》高阶案例】基于网格搜索与LightGBM的情感分类V1.0.docx
- 《自然语言处理技术》高阶案例】基于肘部法则与k-means算法的新闻文本聚类V1.0.docx
- 《自然语言处理技术》基础案例】从PDF文件中读取文本V1.0.docx
- 《自然语言处理技术》基础案例】对数据集划分测试集和训练集V1.0.docx
- 《自然语言处理技术》基础案例】基于pyhanlp文本依存句法分析V1.0.docx
- 《自然语言处理技术》基础案例】基于TF-IDF的文本向量化V1.0.docx
- 《自然语言处理技术》基础案例】基于Word2Vec的文本向量化V1.0.docx
文档评论(0)