机器语音语言应用技术-文本信息提取.docx

机器语音语言应用技术-文本信息提取.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

文本信息提取

一、实验目的

1.熟悉文本关键词提取技术原理。

2.熟悉词语TF-IDF指标特征计算过程。

3.熟悉基于TF-IDF特征的关键词提取算法实际操作流程。

二、实验内容

1.算法原理

1.1基本描述

关键词提取是指从文献中提炼出能够概括文献内容的词或词组,是文本挖掘的重要手段。通常关键词提取算法分为基于统计和基于理解两类方法。基于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词,其过程一般是将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词,其中比较常用的是基于词权重的量化特征,包括词性、词频、逆文档频率、相对频率和词长等。本实验基于词语的TF-IDF特征指标,实现文本关键词的提取。

1.2专业术语

?TF-IDF

TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆文档频次算法)是一种用于信息检索与数据挖掘的常用加权技术,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程

度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,也就可以作为上文中所提到的关键字。

2.功能设计

2.1功能描述

AiNLP人工智能轻量化应用框架是一款面向于人工智能自然语言应用的开发框架,采用统一模型调用、统一硬件接口、统一算法封装和统一应用模板的设计模式,实现了嵌入式边缘计算环境下进行快速的应用开发和项目实施。

AiNLP为模型算法的调用提供RESTful调用接口,实时返回自然语言算法处理结果,同时通过物联网云平台的应用接口,实现与硬件的连接和互动,最终形成各色智联网产业应用。AiNLP框架如下图所示:

三、实验步骤

1.工程部署

1.1硬件部署

1)准备人工智能边缘应用平台,给边缘计算网关正确连接Wi-Fi天线、电源。

2)按下电源开关上电启动边缘计算网关,将启动ubuntu操作系统。

3)系统启动后,连接局域网内的Wi-Fi网络,记录边缘计算网关的IP地址

1.2工程部署

1)运行MobaXterm工具,通过SSH登录到边缘计算网关(参考附录2)。

2)在SSH终端创建实验工作目录

3)通过SSH将本实验工程代码和ainlp工程包(DISK-AILab\02-软件资料\02-综合应用\ainlp.zip)

上传到~/ainlp-exp目录下(文件的上传参考附录2)。

4)在SSH终端输入以下命令解压缩实验工程:

2.工程运行

1)通过MobaXterm工具创建的SSH连接,将修改好的文件上传到边缘计算网关(参考附录2)。

2)在SSH终端输入以下命令运行实验工程:

3.文本信息提取

1)点击应用左侧的菜单选择“TF-IDF关键词提取”,进入到实验页面。

2)在实验交互部分,下面的文本框为需要提取信息的文本内容,填写好后点击“发送”按钮将会调用算法进行计算,并在上方的窗口显示返回应用需要的结果内容,同时在右边的实验结果部分会显示算法返回的所有内容。

3)修改需要提取信息的文本内容,查看算法返回的结果。

文档评论(0)

中智讯 + 关注
官方认证
服务提供商

中智讯(武汉)科技有限公司,是一家服务于高校信息类新工科教育解决方案的高新技术企业,公司自创立以来一直致力于工科教育解决方案及高校科研协作,始终坚持以“易教,易学,易研,易用”为企业产品定位,以“踏实做事,诚信做人”的经营理念为立业之本,并形成了一套完整的从教学设备、教学教材、师资培训、专家授课、科研合作的综合性教育解决方案体系。

认证主体中智讯(武汉)科技有限公司
IP属地湖北
统一社会信用代码/组织机构代码
914201110591757379

1亿VIP精品文档

相关文档