《自然语言处理技术》基础案例】使用Gensim库构建文本字典V1.0.2.docx

下载文档

0
0
约2.07千字
约 3页
2025-06-25 发布于山东
举报
版权申诉
保障服务

《自然语言处理技术》基础案例】使用Gensim库构建文本字典V1.0.2.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《自然语言处理技术》

PAGE2

项目3深入文本进阶处理

——使用Gensim库构建文本字典

学习目标

掌握Gensim库的基本方法和函数。

学习如何使用Gensim库构建文本字典。

了解Gensim库的应用场景和技术原理，提升对技术发展和科技创新的认知和理解。

感受Gensim库在文本挖掘、机器学习等方面的应用，提高数据分析和决策能力，培养创新精神和实践能力。

通过莎士比亚著作构建文本字典，培养学生的阅读兴趣。

案例要求

使用pandas库对文本数据进行读取，并展示数据。

使用Gensim库中corpora模块的Dictionary()方法建立文本字典，并展示结果。

案例内容

在自然语言处理领域，文本向量化是一种常见的数据预处理方法，它将文本转换为计算机能够处理的数字向量表示形式。基于Gensim库，对莎士比亚的著作《莎士比亚14行诗》的第十八首，建立一个文本字典，该字典可以用于后续的自然语言处理任务，例如，文本分类或聚类；也可帮助学生阅读经典了解名字中所用的词汇，培养阅读兴趣。

文本字典是将文本数据中的单词映射到数字ID的过程，也就是将文本数据进行向量化的一部分。它的作用是为文本数据建立一个有序的单词集合，每个单词都对应着一个唯一的数字ID。通过文本字典，我们可以将文本数据转换为计算机可读的格式，便于进行后续的分析和处理。文本字典可以作为一个重要的预处理步骤，为下游的自然语言处理任务如文本分类、聚类、情感分析等提供支持。

案例步骤

导入pandas库和数据集，查看文本信息

在本案例中，首先导入pandas库，然后使用read_csv函数读取CSV格式的数据文件，并将其转换为pandas的DataFrame对象，最后查看《莎士比亚14行诗》的第十八首的文本信息，如REF_Ref129522203\h代码41所示。

代码STYLEREF1\s4SEQ代码\*ARABIC\s11pandas库和数据集导入的主要代码

importpandasaspd

#使用pandas库读取csv文件，文件名为“莎士比亚十四行诗第十八首.CSV”，使用gbk编码进行读取

data_text=pd.read_csv(../data/莎士比亚十四行诗第十八首.CSV,encoding=gbk)

#从读取的数据中获取名为“莎士比亚14行诗第十八首”的一列数据，并将其赋值给变量text

text=data_text[莎士比亚14行诗第十八首]

#打印出text列表

print(list(text))

REF_Ref129522203\h代码41的运行结果如REF_Ref129289445\h图41所示。

图STYLEREF1\s4SEQ图\*ARABIC\s11文本信息

建立文本字典

首先，将读取的文本数据分词处理，得到每个句子的单词列表。使用Gensim库中corpora模块的Dictionary()方法来建立文本字典，该方法将单词列表作为参数。输出文本字典中单词的数量和单词与数字ID的映射关系。对句子进行预处理，并将处理后的结果保存在sentences列表中，建立文本字典如REF_Re\h代码42所示。

代码STYLEREF1\s4SEQ代码\*ARABIC\s12建立文本字典

importgensim

fromgensimimportcorpora

#将文本数据拆分成单词列表

tokens1=[[itemforiteminline.split()]forlineintext]

#使用Gensim中的corpora.Dictionary()方法，将tokens1转化为Gensim中的Dictionary对象

g_dict1=corpora.Dictionary(tokens1)

#打印出g_dict1中token的数量

print(Thedictionaryhas:+str(len(g_dict1))+tokens\n)

#打印出g_dict1中的token及其对应的数字ID

print(g_dict1.token2id)

REF_Re\h代码42的运行结果如REF_Ref129290228\h图42所示。

图STYLEREF1\s4SEQ图\*ARABIC\s12文本字典

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《自然语言处理技术》基础案例】使用Gensim库构建文本字典V1.0.2.docx