- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于电信信令社交圈挖掘系统设计与实现
基于电信信令社交圈挖掘系统设计与实现
摘要:随着国际反恐形式的不断严峻,通信社交圈的获取与分析逐渐成为预防恐怖行动的重要手段之一。为满足社会对通信社交圈进行分析的需求,本文利用分布式存储技术以及分布式运算技术,通过对电信信令数据的分析获取人员通信社交圈,社交圈中的信息可以帮助分析人员快速锁定目标、了解事件发生顺序。与此同时,本文合理利用了开源软件的特性,有效降低了系统的开发与维护成本,适合于大范围推广。本文给出了较为完整的社交圈分析系统的设计方案,并通过进一步实现证明了方案的可行性。
关键词:计算机应用技术;信令;社交圈分析;分布式
中图分类号:TN925+.3
文献标识码:A
DOI:10.3969/j.issn.1003-6970.2016.02.021
引言
在多种犯罪预防的手段中,通信社交圈的分析是重要手段之一,通过对指定人员通信行为的分析,分析人员可以达到以下目的:1.关键人员定位;2.协同人员挖掘;3.人员行为梳理(了解事件发生顺序)。反恐领域的特殊性导致了其对通信社交圈分析有诸多硬性需求。首先,用来分析的数据应当尽量全面;其次,分析速度要快;最后,对社交圈分析所需的软硬件需求应尽量低,从而适合大规模推广。
当前,我国的基层民警大多使用人工的方式进行社交圈分析,在进行分析之前需要从相关运营商调取人员通信记录,通过对记录的分析确定下一批待分析的人员名单,然后再次调取这些人的通信记录,周而复始。这种人工分析的方式速度缓慢,分析一个通信行为较活跃人员几小时的通信行为甚至需要一至两天的时间。同时,人工分析使得分析人员极易疏漏重要信息,使得分析结果的可靠度下降。虽然当前也存在一些自动化分析软件,但这些软件都无法很好的解决数据来源以及处理问题,这给用户的使用带来了不便。
为克服传统人工分析方式以及现有软件的不足,本文所设计的系统以a接口与Abis接口信令产生的话单数据作为分析基础,通过对话单数据的采集、预处理、存储以及分析来生成人员通信社交圈,有力地提高了分析的速度与准确度并很好地解决了数据的采集以及处理问题。
利用开源软件搭建云服务是现今系统架构的趋势,本系统采用HBase与HDFS等开源软件搭建了能够为用户提供在线社交圈分析的云服务系统。
1 功能分析
根据本人对目标用户需求的调研,分析人员在进行社交圈分析时存在以下使用场景:
(1)已明确目标群体(多于一人)并对群体内人员的信息有所了解,需要查看群体内人员在某一时间范围内的社交行为从而推测事件发生顺序。
(2)已有明确的目标(任意数量),但不清楚是否还有其他协同人员,故而需要对某一时间范围内目标人员的短信以及通话联系人进行分析;
针对上述场景,本系统为社交圈分析提供了两种使用模式:
(l)针对场景l,本系统提供组内分析模式。组内分析模式仅对指定的目标人员间的行为进行检索,生成的社交圈中仅包含指定的目标人员以及他们之间的联系,分析人员可通过查看社交圈来推断事件的发生顺序。
(2)针对场景2,本系统提供组外分析模式。组外分析模式可以对指定的人员进行全量的通信行为检索,生成的社交圈中包含分析人员指定的目标人员、目标人员的直接联系人以及上述所有人之间的联系,分析人员可通过查看社交圈来推断目标人员是否还有其他协同人员;
除以上两种可供选择的分析模式外,分析人员还可以在分析时指定是否只查看短信行为和是否只查看通话行为。
2 关键问题
2.1 数据存储空间
本系统需在海量数据存储的基础上才能运行,这就要求本系统能够存储足够大量的数据。以浙江某城市为例,该城市每天产生20G的数据,而一次社交圈分析至少需要使用30天的数据才能产生有意义的分析结果。
2.2 业务响应时间
本系统作为在线分析系统,响应时间的长短对用户体验有重要影响,响应时间越短,用户体验越好。本系统在响应时间上存在以下难点:
数据量大,数据检索时间长。本系统在进行分析之前需要对大量数据进行检索,如果没有有效的优化措施,分析业务将在数据检索环节耗费大量时间。
每次分析需要进行多次数据检索。由于本系统针对业务的特殊性,每次社交圈分析都需要对数据进行多次检索。从以上章节流程说明可见,除多起始点组内模式外,其他所有分析都要从起始点开始,通过起始点的检索才能确定下一次检索的条件,因此至少需要两次检索。在数据量本就很大的前提下,多次检索无疑会进一步增加数据检索阶段的耗时。
无法有效利用缓存机制来减少每次检索的耗时。在本业务中,不仅多个分析请求的起始点间没有关联,单个分析过程内的多个检索条件也没有明显关联,整个业务有明显的数据量大、数据复用率低的特点,因此缓存机制对检索速度的提升没有
您可能关注的文档
最近下载
- 研究生雨课堂信息检索与科技写作课后答案.pdf VIP
- 4-20层阻抗常见叠层.xls VIP
- 保时捷Cayenne驾驶手册2015款汽车用户操作使用说明书电子版.pdf
- 四川省成都市武侯区成都西川中学2023-2024学年九年级上学期期末数学试题(含解析).docx VIP
- 石油装备行业分析报告.pdf VIP
- 钟君申论万能思维体系新版(2024年整理).pptx VIP
- 工伤认定与工伤争议处理技巧.pptx VIP
- 铁路营业线施工管理办法(最新版).docx VIP
- Unit 3 Amazing animals Part B Let’s learn & Listen and chant(教案)-2024-2025学年度-人教PEP(2024)英语三年级上册.docx VIP
- 机场场道工程道面混凝土质量通病分析集锦.docx
文档评论(0)