- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
洛朗级数与孤立奇点
1、相关定义
1.1、孤立点的定义
孤立点的定义是孤立点检测算法的基础,只有定义了数据集中什么样的数据 点是孤立点,才能对数据进行孤立点检测.孤立点定义的形式有很多种,有基于 密度的,基于距离的,基于模型的等等. 最早的孤立点定义由只363%1 SE: ?- Jsas- Dec M.*? .Sepi 1?? Time 图5.2温度实例序列 Figure 5.2 Temperature time series (3) III类孤立点 III类孤立点的出现是因为一个数据实例的子集相对于整个数据集是偏远 的.在III类孤立点中,单独的数据实例它们本身并不是孤立点.但是它们一起出 现作为一个子结构是异常的,属于III类孤立点.III类孤立点仅仅当数据有空间或 顺序特性的时候才有意义.这些孤立点要么是数据中异常的子图,要么是异常的 子序列.图5.3]列举了一个例子,显示了一个人的心电图输出[44].注意,持续的 直线表示一个孤立点,因为相同低的值持续了一个不正常的时间段. 11 丨 I n 图5.3心电图输出 Figure 5.3 Output of a human electrocardiogram 再回顾一下前面说的信用卡欺诈检测的例子,解释一下III类孤立点.假设一 个人在一个加油站进行了一笔正常的交易,紧接着在附件的杂货铺,然后又在附 40 北京交通大学硕士学位论文 实例检测中的孤立点检测方法的研究与实现 近的便利商店也都进行了交易.一个新的信用卡交易序列包括在加油站进行了交 易,然后又在相同的加油站进行了相似的三笔交易,这将表明一个潜在的信用卡 盗窃.这个交易序列就是一个III类孤立点. III类孤立点检测问题在顺序数据中有广泛的研究,如操作系统调用数据和基 因组序列.对于系统调用数据,一个特殊的操作系统调用序列被认为是一个孤立 点.类似地,处理图像的孤立点检测技术主要是检测图像中的异常区域,即III类 孤立点? I类孤立点可以在任何类型的数据中检测到.II类和III类孤立点需要数据的 形式为顺序的或者是空间结构的.在个别的情形下,I类孤立点是很有意义的,但 是在一些特定的情形下,II类或者III类孤立点会更有意义.不过目前已经存在的 算法主要还是I类孤立点检测算法,II类和III类的孤立点检测算法还比较少,这 会是未来的很热门的研究方向.
1.2、孤立点的概念
Hawkins 给出了孤立点的本质定义:孤立点是在数据集中与众不同的数据,使人 怀疑这些数据并非随机偏差,而是产生于完全不同的机制[2]。孤立点检测算法则认为 孤立点是既不属于聚类也不属于背景噪声的点,它们的行为与正常的行为有很大的不 同。有关学生的”身高(Height)”与”体重(Weight)”的数据集,如图 2.2 所示[4]。图 2.3(a)中的方形体表示的个体其体重与身高均相对较高,它可以看作是一个孤立点。 而图 2.3(b)中的方形所表示的个体在身高与体重两个方面看均不突出,但其偏离了数 据的总体分布,也被看作是孤立点。孤立点检测需要在多维数据集中发现与其它个体 不同的对象。 (a)Height (b) Height WeightWeight 图 2.2 孤立点示意图
1.3、定义医学图像孤立点
在我们的实际医疗活动中,医生是根据如下传统方式和依据来对医学CT图像 进行分析和处理的:当人体器官发生病变时,会造成病变部位的结构、形态以及 机理发生相应的变化,反映到CT图像上就是该部位组织密度会发生相应的变化; 而CT图像恰巧建起了组织密度和图像像素灰度之间的映射关系,因此医学CT图像 可以直观地表现出身体部位的密度分布情况;当组织病变造成的组织密度变化发 展到一定程度时,就会被CT设备识别并反映到CT图像中,从而导致了身体部位出 现了密度异常的,这就成为了是一个对医学诊断有辅助意义的孤立点。详细来说, 医学上的组织结构的密度异常(即孤立点)可以表现在如下几个方面: 个体差异导致的组织形态位置的异常 由于自然界中的人千差万别,每个人的体型、年龄、性别等等方面不可能完 48 全一样,不同的人同一身体部位的医学CT图像差异有时可能会超过身体病变所造 成的差别。不论这些变化的起因如何,从图片上来看,都是某种(或某些)器官 组织在身体中所处的位置有所不同。有鉴于此,我们没有直接在原始图片的基础 上进行孤立点的挖掘,而是将图片信息通过构造医学图像像素聚类参数矢量组的 方式抽象出来,让每一批具有相同聚类特征的医学图像像素去对应一个抽象的聚 类概念,形成一张映射表,以尽量减少个体差异对算法的影响,提高算法的准确 性。 人体组织区域的密度差异(即医学图像像素的灰度差异) 当人体某部位发生病变时,尤其是在病变早期,往往不会引起组织结构的大 幅
文档评论(0)