《自然语言处理技术》基础案例】使用Gensim库构建文本字典V1.0.2.docx

《自然语言处理技术》基础案例】使用Gensim库构建文本字典V1.0.2.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《自然语言处理技术》

PAGE2

项目3深入文本进阶处理

——使用Gensim库构建文本字典

学习目标

掌握Gensim库的基本方法和函数。

学习如何使用Gensim库构建文本字典。

了解Gensim库的应用场景和技术原理,提升对技术发展和科技创新的认知和理解。

感受Gensim库在文本挖掘、机器学习等方面的应用,提高数据分析和决策能力,培养创新精神和实践能力。

通过莎士比亚著作构建文本字典,培养学生的阅读兴趣。

案例要求

使用pandas库对文本数据进行读取,并展示数据。

使用Gensim库中corpora模块的Dictionary()方法建立文本字典,并展示结果。

案例内容

在自然语言处理领域,文本向量化是一种常见的数据预处理方法,它将文本转换为计算机能够处理的数字向量表示形式。基于Gensim库,对莎士比亚的著作《莎士比亚14行诗》的第十八首,建立一个文本字典,该字典可以用于后续的自然语言处理任务,例如,文本分类或聚类;也可帮助学生阅读经典了解名字中所用的词汇,培养阅读兴趣。

文本字典是将文本数据中的单词映射到数字ID的过程,也就是将文本数据进行向量化的一部分。它的作用是为文本数据建立一个有序的单词集合,每个单词都对应着一个唯一的数字ID。通过文本字典,我们可以将文本数据转换为计算机可读的格式,便于进行后续的分析和处理。文本字典可以作为一个重要的预处理步骤,为下游的自然语言处理任务如文本分类、聚类、情感分析等提供支持。

案例步骤

导入pandas库和数据集,查看文本信息

在本案例中,首先导入pandas库,然后使用read_csv函数读取CSV格式的数据文件,并将其转换为pandas的DataFrame对象,最后查看《莎士比亚14行诗》的第十八首的文本信息,如REF_Ref129522203\h代码41所示。

代码STYLEREF1\s4SEQ代码\*ARABIC\s11pandas库和数据集导入的主要代码

importpandasaspd

#使用pandas库读取csv文件,文件名为“莎士比亚十四行诗第十八首.CSV”,使用gbk编码进行读取

data_text=pd.read_csv(../data/莎士比亚十四行诗第十八首.CSV,encoding=gbk)

#从读取的数据中获取名为“莎士比亚14行诗第十八首”的一列数据,并将其赋值给变量text

text=data_text[莎士比亚14行诗第十八首]

#打印出text列表

print(list(text))

REF_Ref129522203\h代码41的运行结果如REF_Ref129289445\h图41所示。

图STYLEREF1\s4SEQ图\*ARABIC\s11文本信息

建立文本字典

首先,将读取的文本数据分词处理,得到每个句子的单词列表。使用Gensim库中corpora模块的Dictionary()方法来建立文本字典,该方法将单词列表作为参数。输出文本字典中单词的数量和单词与数字ID的映射关系。对句子进行预处理,并将处理后的结果保存在sentences列表中,建立文本字典如REF_Re\h代码42所示。

代码STYLEREF1\s4SEQ代码\*ARABIC\s12建立文本字典

importgensim

fromgensimimportcorpora

#将文本数据拆分成单词列表

tokens1=[[itemforiteminline.split()]forlineintext]

#使用Gensim中的corpora.Dictionary()方法,将tokens1转化为Gensim中的Dictionary对象

g_dict1=corpora.Dictionary(tokens1)

#打印出g_dict1中token的数量

print(Thedictionaryhas:+str(len(g_dict1))+tokens\n)

#打印出g_dict1中的token及其对应的数字ID

print(g_dict1.token2id)

REF_Re\h代码42的运行结果如REF_Ref129290228\h图42所示。

图STYLEREF1\s4SEQ图\*ARABIC\s12文本字典

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档