机器语音语言应用技术-文本分类.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本分类

实验目的

1.熟悉文本分类技术原理。

2.熟悉K-近邻分类算法。

二、实验内容

1.算法原理

1.1基本描述

本实验文本分类采用K最近邻(KNN)分类算法来实现,文本分类是在给定的分类体系下,让计算机根据给定的文本内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在垃圾文本过滤、智能检索、元数据提取、歧义消解等方面有很重要的应用。

1.2专业术语

?文本分类

一个完整的文本分类过程包括文本预处理、文本标注、文本特征提取、构建分类模型、测试并调优分类模型,以及使用分类模型进行文本分类预测,具体流程如下图:

以下是文本分类各个步骤的具体内容:

1)文本预处理:是将普通的文本转换为计算机可以理解的形式,包括中文分词、去停止词、词干化等;

2)文本表示:使用向量空间模型(VectorSpaceModel)将文本转换为特征向量集合;

3)特征降维:一般文本特征向量集合都是非常稀疏的,为了减少训练分类器的计算量,提高训练和分类的速度和精度,需要对文本特征向量集合进行降维操作;

4)构建分类器:采用机器学习的分类算法,如K-近邻、朴素贝叶斯或支持向量机SVM,对训练数据集进行训练建模;

5)测试和调优:基于测试数据集,对训练的分类模型进行性能测试,并调整训练的参数,优化分类器模型的性能;

6)文本分类预测:对未知类别文本进行预处理和文本表示转换后,使用训练的分类器模型进行分类预测。

?K-近邻文本分类

K最近邻(k-NearestNeighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:在特征空间中,如果一个样本附近的k个最近(即特征空间中最

邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。

2.功能设计

2.1功能描述

AiNLP人工智能轻量化应用框架是一款面向于人工智能自然语言应用的开发框架,采用统一模型调用、统一硬件接口、统一算法封装和统一应用模板的设计模式,实现了嵌入式边缘计算环境下进行快速的应用开发和项目实施。

AiNLP为模型算法的调用提供RESTful调用接口,实时返回自然语言算法处理结果,同时通过物联网云平台的应用接口,实现与硬件的连接和互动,最终形成各色智联网产业应用。

AiNLP框架如下图所示:

三、实验步骤

1.工程部署

1.1硬件部署

1)准备人工智能边缘应用平台,给边缘计算网关正确连接Wi-Fi天线、电源。

2)按下电源开关上电启动边缘计算网关,将启动ubuntu操作系统。

3)系统启动后,连接局域网内的Wi-Fi网络,记录边缘计算网关的IP地址

1.2工程部署

1)运行MobaXterm工具,通过SSH登录到边缘计算网关(参考附录2)。

2)在SSH终端创建实验工作目录:

3)通过SSH将本实验工程代码和ainlp工程包(DISK-AILab\02-软件资料\02-综合应用\ainlp.zip)

上传到~/ainlp-exp目录下(文件的上传参考附录2)。

4)在SSH终端输入以下命令解压缩实验工程:

2.工程运行

1)通过MobaXterm工具创建的SSH连接,将文件上传到边缘计算网关(参考附录2)。

2)在SSH终端输入以下命令运行实验工程:

3.文本分类

1)点击应用左侧的菜单选择“KNN文本分类”,进入到实验页面。

2)在实验交互部分,下面的文本框为需要分类的文本内容,填写好后点击“发送”按钮将会调用算法进行计算,并在上方的窗口显示返回应用需要的结果内容,同时在右边的实验结果部分会显示算法返回的所有内容。

3)修改需要分类的文本内容,查看算法返回的结果。

文档评论(0)

中智讯 + 关注
官方认证
服务提供商

中智讯(武汉)科技有限公司,是一家服务于高校信息类新工科教育解决方案的高新技术企业,公司自创立以来一直致力于工科教育解决方案及高校科研协作,始终坚持以“易教,易学,易研,易用”为企业产品定位,以“踏实做事,诚信做人”的经营理念为立业之本,并形成了一套完整的从教学设备、教学教材、师资培训、专家授课、科研合作的综合性教育解决方案体系。

认证主体中智讯(武汉)科技有限公司
IP属地湖北
统一社会信用代码/组织机构代码
914201110591757379

1亿VIP精品文档

相关文档