基于语义分析在计算机技术文本分类中应用研究.docVIP

下载本文档

10
0
约3.84千字
约 9页
2018-08-30 发布于福建
举报
版权申诉

基于语义分析在计算机技术文本分类中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于语义分析在计算机技术文本分类中应用研究

基于语义分析在计算机技术文本分类中应用研究　　摘要：基于GPRS的移动互联网分布式文本分类系统没有足够的CPU和RAM资源可以调用，所以难以使用传统的神经网络系统进行文本分类，这与当前的互联网大数据需求存在一定的矛盾。在此使用占用CPU和RAM资源较少的语义分析算法，采用局端与用户端联合运算的方式，使用比较结果字符串替代明文传输的方式减少GPRS链路占用，研究了基于语义分析的计算机文本分类技术。　　关键词：语义分析；文本分类；移动互联网；计算机智能　　中图分类号： TN919?34 文献标识码： A 文章编号： 1004?373X（2016）05?0147?02 　　文本分类技术是人工智能的重要组成部分，而语义分析算法是传统的脚本编译算法[1?2]。传统的文本分类算法包括决策树，Rocchio，朴素贝叶斯，神经网络，支持向量机，线性最小平方拟合，KNN，遗传算法，最大熵，Generalized Instance Set等[3]。将语义分析算法应用在文本分类中[4]是本文研究的重点。　　1 需求分析　　这里需要一种可以运行在云端的文本分类软件，软件主要运行在安卓客户端和云端服务器之间。要求软件使用最小数据量实现最大程度的云端数据整合和文本分析准确率。　　1.1 流程分析　　本文需求并不要求更智能化的识别方式，而是通过语义分析法，通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析，同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别，业务流程图如图1所示。　　1.2 模块分析　　传统语义分析算法来自人工输入的特定文本之间的判断，一般语义分析算法只能识别80～120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别，所以本文采用三层识别方法见图2。　　P1.1：根据固定关键词，识别超文本标识语言中的标识段数据，并将其剔除。　　P1.2：根据自学习关键词，识别自然文本中的关键词，根据词频和关联度进行价值估计。　　P1.3：根据自学习关键词，识别自然文本的含义，评估不同文本段之间的相似度，对文本段进行归纳整理。　　而本软件的自学习部分（P2）不从传统的人工智能算法中得到关键词字典，而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上，自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系，并不占用GPRS通道。　　软件的移动端部分（P3）通过相对固定的关键词字典集合，根据实际分析得到的数据匹配结果进行远端比较，但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后，可以较大程度地实现GPRS链路的数据最小化。　　1.3 数据流分析　　P1模块输入数据D1.1为P1.1的关键词字典数据，该数据以数据库表的形式保存在数据库中，形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串，如超文本标识语言中的标识字符串等。　　P1模块输入数据D1.2为P1.2的关键词字典数据，该字典数据来自自然文本中经常出现的字符串，以及用户易搜索的字符串。这部分字符串来自对海量信息的比较，海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。　　P1模块输入数据D1.3为P1.3的关键词字典数据，该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。　　因为本文算法不采用无限递归法[7]，而是采用了三层计算的架构，而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1，定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串，不具备人脑识别的功能，但可以在计算机中给自然语言提供镜像，可以让较为模糊的自然语言在计算机中得到识别和模糊对比。　　P2有两个输入量，P2.1来自合作搜索引擎的搜索字符串数据，该数据运行在光纤数据干线上，数据量较大，不会在GPRS链路中出现。此部分合作搜索引擎的数据采集内容主要包括搜索字符串，搜索时间，发生IP，发生IP地域，捆绑账号等。P2.2来自网络随机遍历采集的各种超文本，这些超文本数据采用单字段采集和多关键词分析的方式进行挖掘，所以数据结构较为简单。　　2 算法设计　　因为篇幅限制，本文仅讨论和展示部分核心代码和算法的设计，较复杂的算法过程不再给出伪码。P1.1是超文本对比算法，超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的