- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理”实验报告日期:
自然语言处理”实验报告
日期: 2018/4/16
专业:
智能科学与技术
班级:
1501
学号:
0918150102
姓名:
宋晓婷
PAGE
PAGE #/ 32
目录
TOC \o 1-5 \h \z \o Current Document 实验 1 3
\o Current Document 1、实验目的: 3
\o Current Document 2、实验原理和内容: 3
\o Current Document 、实验环境和编程语言: 3
\o Current Document 4、主要功能及实现: 3
\o Current Document 5、实验结论 8
\o Current Document 实验 2 中文分词 8
\o Current Document 1、实验目的和内容 8
\o Current Document 2、实验原理 9
3、实验平台及语言 1..0
、主要功能及实现 1..1
4.1 算法流程图 1..1
4.2 实验结果 1..1
5、实验结论 1..3
实验三 中文文本分类 1..3
1、小组成员以及分工 1..3
2、实验目的和内容 1..3
3、实验原理以及数据处理 1..4
4、实验平台和语言 1..6
5、实验结果 1..6
6、实验结论 1..6
四、实验 1-3 代码 1..7
实验 1
1、实验目的:
本实验学习如何在利用 NLTK 进行分词 词性分析与句法分析 ,。通过次实 验项目的练习, 增强学生对课堂理论知识的理解, 帮助学生以知识获取与 自主实践相结合,学习对英文自然语言信息的处理的实践。
2、实验原理和内容:
NLTK 自然语言处理工具包, 里面包含了许多处理自然语言的库可以直接 调用,本实验利用NLTK对obama。txt语料库进行对应的分词和词频统 计,再对布朗语料库进行词性和句法分析。
3、 实验环境和编程语言:
windows 下 anaconda3 spyder(python3.6)
4、 主要功能及实现:
4.1怎样载入自己的英文语料库( obama.txt),在自己的语料库中找出 responsibility ,education 和 working 出现的频率及其他们词干出现的频率。 (使用 nltk的英文分词函数tokenize和stem)。
①使用 open 以及 read 函数读取 obama.txt 文档,调用 nltk 里面的 word_tokenize()
函数,先把文档进行分词,再调用 nItk中的FreDist()函数进行词频统计。统计 responsibility , education 和 working 出现的频率。结果见表一。
PAGE
PAGE # / 32
②提取词干的时候,NLTK中提供了三种最常用的词干提取器接口,即 Porter
stemmer, Lan caster Stemmer 和 Sno wball Stemmer。统计词干频率时,先对全
文提取词干(whole_stems),然后在提取的词干中统计三者词干出现的频率,结果 见表二。
表一原词以及对应词干频率统计
responsibility( respons)
educati on( educ)
worki ng(work)
原词出现频率
8
11
2
词干出现频率
9
11
12
(全文总词数:3066 全文总词干数:3066)
表二三种词干提取器提取结果
Porter stemmer
Lan caster Stemmer
Sno wball Stemmer
resp on sibility
respons
respons
respons
educati on
educ
educ
educ
worki ng
work
work
work
4.2写程序处理布朗语料库,找到以下答案:
4.2.1哪些名词常以他们复数形式而不是它们的单数形式出现?(只考虑常 规的复数形式,-s后缀形式的)。
①先查看布朗语料库里面包含的类别(如图一)
In : 5 ] : runfile ( 1 D: /^pyd 已 r程厚/Fd曰七 LUEJLExpe^inwnit:? py『wdir= D: /spyder^
[ad^entu「亡J belles_lettrcs F t editorial1, ,fictian,j governmentt
1 hobbies, l,humor1, learned lore * mystery \ * news j religion h ±
+ revi
文档评论(0)