能源行业安全事故网上监控系统设计.docVIP

下载本文档

2
0
约6.86千字
约 11页
2017-03-20 发布于北京
举报
版权申诉

能源行业安全事故网上监控系统设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

能源行业安全事故网上监控系统设计.doc

能源行业安全事故网上监控系统设计摘要：近年来，我国能源行业的安全生产责任事故层出不穷。为了能将相关事故尽可能快速有效地汇报相关部门，必须对互联网上关于能源行业的事故新闻做到实时的监控。该文提出了一套对互联网上能源行业事故实时抓取分析的事故监控系统，采用机器学习与规则匹配相结合的文本挖掘技术来分类新闻事件，采用改进后的新闻事件分类方法比单纯使用机器学习的方法在准确率和召回率都有显著提升。文章最后提出系统实现的框架，并提出改进意见。关键词：文本表示；特征提取；SVM分类器；规则过滤中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）03-0061-04 1 背景能源行业主要包括煤炭行业，石油行业，电力行业，核电行业和新能源行业，随着我国经济的快速发展，国内各个领域对于能源的需求也是与日俱增，也促成了我国能源行业的快速发展。但有些能源生产单位只注重产量，对能源的安全生产缺少科学管理，导致能源行业事故时有发生。总体而言，对于能源的开采工作都是一些高风险的作业，一旦发生事故，不仅会对企业造成巨大经济损失，而且会造成巨大的环境破坏。因此，消除和控制能源行业的安全生产事故，降低能源行业事故造成的影响，有效保护环境，已经是政府和相关能源生产单位的当务之急。在当下，政府对于能源行业安全生产相关事故的关注，一般是通过相关生产部门的汇报以及能源行业相关网站的报道。但是由于能源行业涉及的部门众多，层级复杂，当基层部门发生安全生产事故时，无法及时有效地做到对上级通报实时情况。通过浏览相关能源事故网站的方法可以及实地了解底层生产安全的状况，但是相关网站通报的信息繁杂，安全事故信息零星地分散在各个网站上，无法做到信息的分类与汇总。所以，对于密切关注能源生产安全事故的政府部门以及相关责任部门来说，拥有一套可以实时监控能源安全事故发生，并且可以根据事故的类型做分类与汇总的监控系统系统，是十分必要的。本文主要介绍能源行业安全事故网上监控系统的设计架构以及核心分类算法。该系统的主要目的是抓取现各大搜索引擎以及能源行业门户网站中的新闻，对抓取的新闻进行事故的识别以及事故的分类，对分类后的信息汇总到系统的客户端上，对用户实时展示。本文安排如下：介绍使用机器学习方式对文本进行分类算法的研究方法和研究现状，并介绍如何利用机器学习与规则相结合的方法来提高文本分类的准确性，最后介绍系统的架构以及采用的技术。 2 文本分类相关技术 2.1 文本分类描述信息技术的发展使得互联网成为人们获取信息的重要手段，但互联网上的信息量十分巨大，而且大多没有次序，人们很难快速找到有效的信息。为了应对巨大的信息量，许多文本分类技术应运而生，其中，利用机器学习按照文本内容实现文本自动分类是解决信息快速检索的途径之一[1，2]。基于机器学习的自动方式主要是通过对若干不同类别文本的学习，自动建立特征词库。而且当供学习的样本文本更新后，通过重新学习就可自动更新特征词库，以适应对新的文本类别的分类识别[3]。目前，应用于文本分类的技术和算法很多，例如有朴素贝叶斯算法，K 最近邻算法，神经网络，支持向量机（Support Vector Machine 即 SVM）等。其中，支持向量机（SVM）是依托统计学习理论的基础，根据有限的信息条件得到较好的结果[4]。SVM分类算法是以结构风险最小化为目标，所求得的解是全局最优解，该算法克服“维数灾难”问题，有比较深厚的理论基础。文本自动分类的概念可以归纳为[5]：在确定的分类目标下，将待分类的网页文本根据内容自动的划分到某个类别中，使得网页文本具有正确的标签。文本分类是个有监督的学习过程，在构建自动分类的系统之前，需要通过对足够量的现有文本进行类别的标注，构造训练集，以已构造的训练集为基础，通过分类器找出文本类别与文本特征之间的关系，然后利用这个关系模型对新的文本进行类别的判断。 2.2 文本特征提取为了将文本表示成文本分类器所是别的形式，通常文本以向量的形式出现在向量空间模型里，向量空间模型有以下要素构成： 1）文档：由一定数量的文字片段构成，像由若干句子、句群、段落和整篇文章构成的文档。 2）特征项：向量空间模型中最基本且不可分的单位是特征项，字、词、短语都能做特征项。 3）项的权重：文档D（t1，t2，...tn）中有n个特征项，其中每一个特征项tk，都依据它们在文档中的重要程度，被赋予相应的权重，表示为D （Wl，W2，...，Wn）。因此一个文档可以表示成n维向量空间中的一个向量，可以将D D （Wl，W2，...，Wn）称为文本D的向量空间模型或者向量表示。通常待分类的文本可以表示为特征空间中的一个特征向量，而其中混杂的大量高维的无关特征将影响分类模型的分类效果。为了降低向量空间的维度，消除无关特征的