- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于文本分类的开源军事情报获取方法
摘要:[目的/意义]旨在为提高获取开源军事情报效率提供参考。[方法/过程]对互联网上的开源文本信息进行分析处理,利用基于机器学习的文本分类方法从中筛选出军事类文本信息,并分析文本向量空间模型与分类模型对于开源军事情报提取效果的影响。[结果/结论]文本分类方法具有较高的准确率、召回率、F-score,实现了中文开源军事情报的分析与提取,可以提高获取开源军事情报的效率,对于开源军事情报的获取具有很高的利用价值。
0 引言随着信息技术的发展,互联网成为人们获取生活、工作、娱乐、经济等信息的重要手段。互联网中保存了海量的各类信息,其中开源军事信息也是其中的重要组成部分。互联网上广泛分布着大量的关于军事目标、活动、科技、武器装备等方面公开可得的军事情报信息。对这些开源情报信息进行分析挖掘,能够为军事行动、战略决策提供重要依据。相关研究表明,在期望得到的情报中,可以从公开信息源中获得高达80%到90%的情报由于缺乏自动化的信息处理手段,我军情报分析处理的传统方式主要依靠专业的情报人员人工将情报素材进行整理、分类,这显然无法满足对海量开源情报信息处理分析的需求。因此,利用当前先进的计算机技术,研究高效自动化的开源军事信息分析处理技术成为当前军事情报研究领域的重要方向。国内开源军事情报研究工作起步时间相对比较晚,研究成果也比较零散。最近几年,才逐步出现面向军事领域开源情报采集的挖掘技术相关研究。2014年,付举磊等研究发现,开源军事情报具有数据量大、聚合能力差、利用率低下等特点(1)分类数据量大,数据来源广,而情报具有时效性,需要具有较高的处理效率、处理速度;(2)噪音数据多,干扰文本杂,需要具有较强的区分能力;(3)多应用场景,需要多种方法灵活结合,来满足不同场景需求。本文从开源军事情报搜集整理出发,对在网络上开源新闻文本数据进行了分析处理,重点研究了利用机器学习分类方法对开源文本进行分类,从而在互联网开源情报信息中筛选出军事类情报信息,实现了开源军事情报的分析与提取,以期提高获取、处理海量军事文本信息效率,为提高我军开源军事情报处理能力提供帮助。1 开源军事情报采集开源军事情报采集是从互联网中使用爬虫技术采集海量的开源文本信息,然后使用自然语言处理技术对文本信息进行预处理,使用文本分类模型对采集的文本信息进行分类,从而提取出其中的军事领域相关文本信息,获得军事领域开源情报,其具体流程如图1所示。1.1 开源文本信息采集从互联网获取文本信息要使用网络爬虫技术在各大门户网站采集网页信息,爬虫可以对网站进行遍历从而爬取数据1.2 文本信息预处理从网页中提取的文本不能直接用于挖掘,需要对文本进行预处理,中文文本预处理的流程主要包括中文分词、去停用词、特征提取、文本向量化等。在文本信息挖掘的过程中,文本预处理技术决定了后期文本分类模型的上界,对文本分类的训练时间、分类的准确率都有显著的影响,本文研究不同文本向量化方法对军事文本分类效果的影响。1.3 文本分类模型将文本转化为向量表示后就可以使用机器学习分类算法对文本进行分类,从而提取出军事领域的文本信息,为进一步获得开源军事情报做好数据准备。当前,文本分类中常用分类算法非常丰富,传统的分类算法有k临近、决策树、多层感知器、朴素贝叶斯、逻辑回归和支持向量机等,具体分类中哪些方法会取得比较好的效果,需要进一步的对比才能得出。本文主要使用经典逻辑回归、朴素贝叶斯、支持向量机等方法进行了实验,对比其分类的效果。2 相关技术介绍2.1 文本向量空间模型Gerard Salton等提出了文本向量空间模型其中,w2.1.1 TF-IDFTF-IDF是Term Frequency-Inverse Document Frequency的缩写,即“词频-逆文本频率”。TF-IDF其经典计算流程如下:式(1)中:n2.1.2 Word2vecWord2vecCBOW(Continuous Bag-of-Words Model)模型是一种根据上下文的词语预测当前词语的模型,如图2(左)所示。Skip-gram与CBOW的因果关系恰好相反,即已知当前词语,预测上下文,如图2(右)所示。Word2vec训练得到的向量包含了单词的语义信息,词语之间的相似度可以通过计算两个词的向量之间的余弦值来表示。2.1.3 Doc2vecDoc2vec如图3所示,PV-DM(Distributed Memory Model of paragraph vectors)的训练过程与Word2vec的CBOW相似,将文本向量与当前词语的上下文一块输入神经网络模型来预测当前词语。其中,用矩阵D的
原创力文档


文档评论(0)