- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的空间扫描统计算法及其应用研究
[摘 要]传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的空间聚集模式。空间扫描统计聚类已经成为当前广泛使用的一种疾病聚集模式探测的方法。由于空间扫描统计(如SaTScan)采用圆形窗口作为探测器,可以有效地识别圆形或椭圆形的簇,但是其无法准确地识别形状不规则(如环形、S形)簇,且算法需要对大量的备选窗口进行判断和计算,运行效率低,无法满足海量大数据分析应用的需求。本文针对空间扫描统计算法的不足,提出了一种空间扫描统计的改进算法。该方法首先依据空间数据局部自相关度量,找到数据中的热点区域;进而,以热点区域为种子点,依据基本统计单元间的空间邻接关系向周围扩展,搜索使空间扫描统计量增大的统计单元的最优集合作为备选空间簇;最后,借鉴目前扫描统计方法中空间簇的显著性检验方法(即蒙特卡洛随机模拟)对备选空间簇进行统计判别,识别出显著的聚类结构。
[关键词]空间扫描统计;热点探测;空间聚类;SaTScan;改进算法
中图分类号:TM31 文献标识码:A 文章编号:1009-914X(2018)27-0223-02
0 引言
传染病爆发与流行等公共卫生问题是当前人类面临的重大挑战之一,传染病事件的发生通常表现为一定的时空分布模式,主要是时空聚集模式,早期发现这类时空聚集模式,对于有效控制传染病爆发与流行、降低传染病发病率和死亡率具有重要意义,分析传染病时空变化特征对于疾病的早期预警和病理研究也具有重要作。空间聚类分析是时空数据挖掘领域近年来研究的热点问题之一,对于揭示地理要素的分布特征、发展趋势以及变化规律具有重要意义。利用空间聚类分析方法探测和发掘疾病的空间分布模式亦成??GIS、卫生统计学、公共卫生安全等领域的研究热点问题。
经典的空间扫描统计方法(SaTScan)已经成为目前检测和评估疾病空间聚集的常用方法。但是,这类方法识别圆形或椭圆形的聚类比较有效,对于形状不规则的空间簇探测能力有限。由于地理世界的复杂特性,地理事物的分布往往呈现出多样性、不规则的分布结构(如受到道路、河流等的限制,某种传染性疾病可能会沿着路网或河流的一侧呈现出狭长或复杂形状的分布结构),这就迫切需要能够识别出复杂形状的疾病聚集结构的空间聚类算法。针对经典空间扫描统计算法无法很好识别任意形状空间簇的问题一些学者对其进行了研究,并提出了一些改进算法,根据这些方法所采用的主要思想,包含三种策略来获取不同形状的空间簇,获得空间簇的最优解:(1)降维的策略。(2)减少参数空间的策略。(3)智能优化的策略。
为此,本文提出了一种空间扫描统计的改进算法,一方面通过空间局部自相关识别出数据中疾病高发的热点单元作为种子点进行扩展,避免了对大量不必要的窗口进行扫描和计算,减少了算法的计算量,提高了速率;另一方面,采用区域增长的聚类合并策略,以前一步探测的热点为种子点,依据空间单元之间的邻接关系和扫描统计量增长最大的原则进行合并扩展,可以识别任意形状的空间簇。
1 改进的空间扫描统计算法介绍
现实生活中,往往使人们更为关心的是传染病或流行病的高发病区域,对于低发区域通常不是主要关注对象,那么我们把空间聚类的思想应用到传染病空间数据中去,就更有必要探测寻找发病率高的区域的聚集现象。下面详细介绍本文方法的基本思想及算法流程:
1.1 G热点探测
由于现有研究发现,G指数探测局部热点具有诸多优势且简单易行,所以本文采用G指数进行热点探测。利用空间局部自相关指数Gi*(公式1-1、公式1-2、公式1-3计算可以得到,其中xj是要素j的属性值,wi.j是i和j之间的空间权重,n为要素总数)找到整个区域发病人数的热点区域。因为局部Gi*指数是一种基于距离权矩阵的局部空间自相关指标,它既能够探测出高值聚集即热点也能找到低值聚集即冷点,而对于传染病和流行病高发病区域即热点区域更值得我们关注,那么我们只需根据Gi-pvalue来排除掉冷点仅仅提取出热点即可。G指数就是Gi-zscore得分,无需进一步计算,而Gi-pvalue和 Gi-zscore 的关系如下图(图1-1)。
(1-1)(1-2)(1-3)
1.2探测高发病区域发病人数的聚集模式
这一步是本方法的关键步骤,将第一步骤探测到的热点看作是种子点,然后以种子区开始向外扩展,寻找可以合并的区域。在寻找簇的过程中用到了λ指数(公式1-4,其中nz表示Z区域的事件数,μz表示Z区域的期望事件数,N表示所有区域总的事件数和),把热点作为初始区域,利用λ指数寻找与初始区域可以合并的邻接区域(所谓邻接区域指点共用或边共用的两块区域),将前一次合并的区域又作为下次计算的初始区域,如此反复跌倒
您可能关注的文档
最近下载
- 标点本明太祖实录(卷之八).pdf VIP
- 《干细胞治疗技术》课件.ppt VIP
- 广东《室外排水管道检测与评估技术规程》.docx
- 新概念英语第二册课文(中英文对照) .pdf VIP
- 城镇排水管网运维诊断在线监测技术规程(征求意见稿).pdf VIP
- 第08章 农业企业经营风险 农业企业经营管理学(第三版) 课件.ppt
- DB35T 88-2022 伐区调查设计技术规程.pdf VIP
- T_GDWHA 0023-2025 城市水环境治理工程排水系统排查与评估技术规范.docx VIP
- 康复治疗技术康复治疗医学.ppt VIP
- DB21_T 2955-2018三北防护林体系 经济林营造技术规程.pdf VIP
原创力文档


文档评论(0)