- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
?
?
基于改进K-Means聚类算法的互联网涉烟违法犯罪区域划分研究
?
?
吕飞
[摘要]近年来,利用物流和快递从事卷烟非法交易的违法犯罪活动日益猖獗,随着烟草行业打假打私力度不断增大,各级烟草专卖管理部门在物流寄递渠道均查获了大量的涉烟案件数据。由于目前行业内外鲜有对该类案件进行大数据分析研究,因此,本文以理论结合实际,首先介绍了数据挖掘技术中聚类算法相关理论,重点对经典K-Means算法及其相关改进算法进行了研究,然后以W市烟草专卖局的真实涉烟案件数据进行实验仿真,通过分析历史各类案发地址等信息,帮助烟草专卖执法人员在涉烟案件经营侦办、卷烟消费市场监管等方面开展精准打击、重点治理。
[关键词]烟草专卖;市场监管;数据挖掘;聚类分析;K-Means算法
doi:10.3969/j.issn.1673-0194.2019.22.077
[]TP391.3[]A[]1673-0194(2019)22-0-05
0???引言
近年来,不法分子利用物流寄递渠道,将非法卷烟销往全国各地,严重干扰了正常卷烟市场秩序,使国家税收流失,消费者利益受到侵害。为进一步加强对物流寄递领域涉烟违法行为的监管,自2016年起,烟草行业逐渐加大了对利用互联网制售假冒卷烟犯罪活动的打击力度,积累了大量的物流寄递渠道涉烟案件数据。但是,由于缺少大数据的整理整合以及内在价值的挖掘分析能力,在目前的烟草专卖市场监管和案件侦办工作中,“数据丰富、情报匮乏、手段单一”的现象仍然存在。如何有效利用这些历史案件数据,全面、客观、系统地挖掘互联网涉烟案件线索,深入拓展卷烟市场监管的新领域,以实现新时期烟草专卖管理的高质量发展,是目前迫切需要研究的课题。数据挖掘作为当前一种新颖高效的数据分析手段,如今被广泛应用在各行各业,例如数据库营销、客户关系管理、顾客行为预测及市场趋势预测等,在公安部门情报侦察、案件侦办领域也发挥着举足轻重的作用。因此,利用数据挖掘方法对物流寄递渠道的海量涉烟案件数据进行深入研究,充分挖掘犯罪数据中的犯罪规律、行为特征等情报价值,给烟草专卖市场监管提供帮助,是让沉淀的历史案件数据发挥最大价值的有效途径。对于如何运用大数据分析方法对烟草专卖管理领域的案件数据进行价值挖掘,行业内外鲜有相关研究,而采用类似方法的研究课题大多集中在卷烟营销领域。本文基于数据挖掘中的聚类分析K-Means算法,围绕互联网涉烟案件中的大量案发地址数据,开展智能化自动分类和辅助预警,以帮助一线烟草专卖执法人员迅速了解和掌握管辖市场的违法犯罪活动高发区域和活动中心,准确开展市场信息分析,全面推动卷烟市场监管由“人工经验”向“数字决策”转变。
1???聚类算法概述
1.1??聚类算法
聚类算法是一种非监督机器学习算法,实质是按照特定的标准把一组数据对象划分成若干类子集或簇的过程,使同一个子集或簇的数据对象相似度尽可能大,不同子集或簇的数据对象差异性也尽可能大。即聚类后具有相似属性的数据对象尽可能聚到一起,不同的数据对象尽量分离。聚类算法有很多种,分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法等。每一类中都有目前广泛应用的算法,例如,划分方法中的K-Means聚类算法、层次方法中的凝聚型层次聚类算法、基于密度方法中的DBSCAN聚类算法等。
1.2??经典K-Means算法
经典K-Means算法由于简单易实现且效率高,是聚类算法中最流行、使用最广泛的算法。该算法主要采用距离作为相似性的评价指标,认为子集或簇是由距离靠近的对象组成,最终目标是获得紧凑且独立的子集或簇。即以k为参数,把n个对象分成k个子集或簇,使子集或簇内具有较高的相似度,而子集或簇间的相似度较低。经典K-Means算法主要分为4个步骤。
步骤1:从样本数据集中随机抽取k个值作为初始簇的质心。
步骤2:将每个剩余的样本数据划分到距离最近质心所在的簇。
步骤3:重新计算每个簇内样本数据的质心。
步骤4:重复步骤2和3,直到每个簇内样本数据的质心不再变化或达到设定的迭代次数后停止。
在计算过程中,距离的计算采用欧式距离,在二维空间的计算公式如下。
ρ为迭代次数,k为簇的数目,n为数据个数。经典K-Means算法的计算时间与n线性相关,所以该算法速度很快。
但是,经典K-Means算法在开始之前,需要人工指定两个参数:初始质心和簇数目k。初始质心通过随机选取,簇数目k也凭经验设定。这样做的缺点是,如果初始质心的位置选择不当,例如都在一个簇里面,那么不仅会大大增加迭代次数,最终的聚类结果也比较糟糕,往往只能得到局部最优解。同样,簇数目k在聚类之前就设定也不符合工作实际,例如,专卖执法人员在开展海量案件数据分析之前,不可能知道案发区域大致可以划分为哪几个块。因此,需要对经典K-M
文档评论(0)