自然语言处理实验报告.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理”实验报告日期: 自然语言处理”实验报告 日期: 2018/4/16 专业: 智能科学与技术 班级: 1501 学号: 0918150102 姓名: 宋晓婷 PAGE PAGE #/ 32 目录 TOC \o 1-5 \h \z \o Current Document 实验 1 3 \o Current Document 1、实验目的: 3 \o Current Document 2、实验原理和内容: 3 \o Current Document 、实验环境和编程语言: 3 \o Current Document 4、主要功能及实现: 3 \o Current Document 5、实验结论 8 \o Current Document 实验 2 中文分词 8 \o Current Document 1、实验目的和内容 8 \o Current Document 2、实验原理 9 3、实验平台及语言 1..0 、主要功能及实现 1..1 4.1 算法流程图 1..1 4.2 实验结果 1..1 5、实验结论 1..3 实验三 中文文本分类 1..3 1、小组成员以及分工 1..3 2、实验目的和内容 1..3 3、实验原理以及数据处理 1..4 4、实验平台和语言 1..6 5、实验结果 1..6 6、实验结论 1..6 四、实验 1-3 代码 1..7 实验 1 1、实验目的: 本实验学习如何在利用 NLTK 进行分词 词性分析与句法分析 ,。通过次实 验项目的练习, 增强学生对课堂理论知识的理解, 帮助学生以知识获取与 自主实践相结合,学习对英文自然语言信息的处理的实践。 2、实验原理和内容: NLTK 自然语言处理工具包, 里面包含了许多处理自然语言的库可以直接 调用,本实验利用NLTK对obama。txt语料库进行对应的分词和词频统 计,再对布朗语料库进行词性和句法分析。 3、 实验环境和编程语言: windows 下 anaconda3 spyder(python3.6) 4、 主要功能及实现: 4.1怎样载入自己的英文语料库( obama.txt),在自己的语料库中找出 responsibility ,education 和 working 出现的频率及其他们词干出现的频率。 (使用 nltk的英文分词函数tokenize和stem)。 ①使用 open 以及 read 函数读取 obama.txt 文档,调用 nltk 里面的 word_tokenize() 函数,先把文档进行分词,再调用 nItk中的FreDist()函数进行词频统计。统计 responsibility , education 和 working 出现的频率。结果见表一。 PAGE PAGE # / 32 ②提取词干的时候,NLTK中提供了三种最常用的词干提取器接口,即 Porter stemmer, Lan caster Stemmer 和 Sno wball Stemmer。统计词干频率时,先对全 文提取词干(whole_stems),然后在提取的词干中统计三者词干出现的频率,结果 见表二。 表一原词以及对应词干频率统计 responsibility( respons) educati on( educ) worki ng(work) 原词出现频率 8 11 2 词干出现频率 9 11 12 (全文总词数:3066 全文总词干数:3066) 表二三种词干提取器提取结果 Porter stemmer Lan caster Stemmer Sno wball Stemmer resp on sibility respons respons respons educati on educ educ educ worki ng work work work 4.2写程序处理布朗语料库,找到以下答案: 4.2.1哪些名词常以他们复数形式而不是它们的单数形式出现?(只考虑常 规的复数形式,-s后缀形式的)。 ①先查看布朗语料库里面包含的类别(如图一) In : 5 ] : runfile ( 1 D: /^pyd 已 r程厚/Fd曰七 LUEJLExpe^inwnit:? py『wdir= D: /spyder^ [ad^entu「亡J belles_lettrcs F t editorial1, ,fictian,j governmentt 1 hobbies, l,humor1, learned lore * mystery \ * news j religion h ± + revi

文档评论(0)

wangyueyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档