社会性文本-20140312-(1)PPT课件.ppt

下载文档

5
0
约1.11千字
约 42页
2021-11-18 发布于广东
举报
保障服务

社会性文本-20140312-(1)PPT课件.ppt

社会性文本概述 ; 基于社会性文本的科研 ;科研目标;方法研究;情报分析技术的研究贡献;问题研究;数据解读经验;数据分析的期望;数据分析的期望;分析系统构成;分析系统基本框架;分析系统基本框架;分析团队具有的核心知识;大数据的类型; 结构化数据分析方法 ;针对结构化数据;关联分析;聚类（Clustering） ;C4.5、SVM、GA （1）定义分类 (classification)：是找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象的过程。注：导出模型（或函数）是基于对训练数据集（即其类标记已知的数据对象）的分析。分类属于监督学习，一般需要有一个训练样本数据集作为输入。（2）分类模型的导出方式分类规则（IF-THEN）、决策树、数学公式、神经网络等。（3）相关分析 (relevance analysis) 一般情况下，相关分析需要在分类和预测之前进行，它试图识别对于分类和预测无用的属性，且这些属性应被排除。; 数据演化分析 (evolution analysis)：描述行为随时间变化的对象的规律或趋势，并对其建模。演化分析包括时间相关数据的特征化、区分、关联、分类或聚类，最主要有三种演化分析方法： a) 时间序列数据分析 b) 序列或周期模式匹配 c) 基于类似性的数据分析 ;（1）定义孤立点 (outlier)：数据库中的那些与数据的一般行为或模型不一致的数据对象。大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃，然而，在一些实际应用中（如欺骗检测、军事情报分析等），罕见点事件可能比正常出现的那些更有趣。孤立点数据分析称为孤立点挖掘(outlier mining)。 “疑似恐怖分子非正常的频繁跨越国境的旅行” （2）孤立点的检测方法第一种方法：统计试验检测方法。假定一个数据分布或概率模型，并使用距离度量，到其它聚类的距离很大的对象被视为孤立点。第二种方法：基于偏差点方法。通过考察一群对象主要特征上的差别识别孤立点。; 非结构化数据分析方法 ;针对非结构化数据-文本数据;针对非结构化数据-文本数据;典型应用：情感分析;针对非结构化数据-文本数据; 图数据分析方??? ;针对图结构数据;对个别信息可追踪;对个别信息可追踪;大数据服务应用：国家药监局;; 本研究项目 ;大规模网络会话发生;Tools for Text Analytics; ;谢谢指正！

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

社会性文本-20140312-(1)PPT课件.ppt