社会性文本概述 ;
基于社会性文本的科研
;科研目标;方法研究;情报分析技术的研究贡献;问题研究;数据解读经验;数据分析的期望;数据分析的期望;分析系统构成;分析系统基本框架;分析系统基本框架;分析团队具有的核心知识;大数据的类型;
结构化数据分析方法
;针对结构化数据;关联分析;聚类(Clustering) ;C4.5、SVM、GA
(1)定义
分类 (classification):是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程。
注:导出模型(或函数)是基于对训练数据集(即其类标记已知的数据对象)的分析。
分类属于监督学习,一般需要有一个训练样本数据集作为输入。
(2)分类模型的导出方式
分类规则(IF-THEN)、决策树、数学公式、神经网络等。
(3)相关分析 (relevance analysis)
一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。; 数据演化分析 (evolution analysis):描述行为随时间变化的对象的规律或趋势,并对其建模。
演化分析包括时间相关数据的特征化、区分、关联、分类或聚类,最主要有三种演化分析方法:
a) 时间序列数据分析
b) 序列或周期模式匹配
c) 基于类似性的数据分析
;(1)定义
孤立点 (outlier):数据库中的那些与数据的一般行为或模型不一致的数据对象。
大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃,然而,在一些实际应用中(如欺骗检测、军事情报分析等),罕见点事件可能比正常出现的那些更有趣。孤立点数据分析称为孤立点挖掘(outlier mining)。 “疑似恐怖分子非正常的频繁跨越国境的旅行”
(2)孤立点的检测方法
第一种方法:统计试验检测方法。假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为孤立点。
第二种方法:基于偏差点方法。通过考察一群对象主要特征上的差别识别孤立点。;
非结构化数据分析方法
;针对非结构化数据-文本数据;针对非结构化数据-文本数据;典型应用:情感分析;针对非结构化数据-文本数据;
图数据分析方???
;针对图结构数据;对个别信息可追踪;对个别信息可追踪;大数据服务应用:国家药监局;;
本研究项目
;大规模网络会话发生;Tools for Text Analytics; ;谢谢 指正!
原创力文档

文档评论(0)