- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 3
《文本理解与分析》实验报告
专 业:
信息管理与信息系统
年 级:
学 号:
学生姓名:
指导老师:
毕崇武
郑州大学信息管理学院编
= 1 \* ROMAN I 实验要求
1.上机之前应作好充分的准备工作,预先编好程序,经过人工检查无误后,才能上机,以提高上机效率。
2.独立上机输入和调试自己所编的程序,切忌抄袭、拷贝他人程序。
3.上机结束后,应整理出实验报告。书写实验报告时,重点放在调试过程和小结部分,总结出本次实验中的得与失,以达到巩固课堂学习、提高动手能力的目的。
= 2 \* ROMAN II 实验内容
实验一 Anaconda的下载、安装、配置与运行
【实验目的】
1. 掌握下载、安装Anaconda软件包的方法。
2. 掌握配置不同版本Python运行环境的方法。
3. 掌握编写与运行简单Python程序的方法。
4. 为利用Python开展文本理解与分析工作做好准备。
【实验内容】
1.Anaconda的下载、安装与配置
下载并安装Anaconda;配置Python 3.6与64位开发环境;从不同途径安装、更新、卸载分析包,以Jieba包为例,具体包括:
·Anaconda Navigator方式
·pip install命令方式
·conda install命令行方式
2.正则表达式的基本应用
利用正则表达式将文档内容从非结构化转化为结构化,以便后续的文本挖掘,包括:
·匹配字符串
·使用转义符
·抽取文本中的数字
3.使用Python基础包——Numpy进行数组运算
在文本挖掘过程中,需要将文本转换为向量,并开展向量空间中的向量运算,因此需要熟练掌握以下内容:创建Numpy数组、获取Numpy中的数组维度、Numpy数组索引与切片、Numpy数组比较、替代值、Numpy数据类型转换、Numpy的统计计算方法。
【实验报告】
实习时间: 实习地点: 实习机号:
具
体
实
验
内
容
二正则表达式主要用于字符串的模式匹配,或者是字符的匹配。正则表达式还可以将一些非结构化的文档内容转化为结构化。另外一个作用是去除噪声,可以将无关的文本内容去除掉。
(一)匹配字符串
代码截图
运行结果截图
(二)使用转义符
代码截图
运行结果截图
(三)抽取文本中的数字
代码截图
运行结果截图
三使用Python基础包——Numpy进行数组运算
1创建Numpy数组
2获取Numpy中的数组维度
程
序
调
试
过
程
实
习
小
结
文档评论(0)