- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
广东省高等学校自然科学研究重点项目结题(验收)报告_模板_.doc
项目编号 06Z012
广东省高等学校自然科学研究重点项目
结 题(验收)报 告
项目名称:数据流异常挖掘及在欺诈检测中的应用研究
项目负责人
(签字): 蒋 盛 益
研究类别: 应用基础研究
研究工作
起止时间: 2007.9-2010.8
所在学校(盖章): 广东外语外贸大学
结题时间: 2011.10
广东省教育厅制
填 表 说 明
本《结题(验收)报告》填写内容必须实事求是,表达准确,字迹清晰。
填入《结题(验收)报告》中的各项内容或数据,必须是省高等学校自然科学研究重点项目资助期间所取得的结果。
“项目名称”、“研究项目原定的研究工作计划
本项目的研究内容、工作方案。(包括采取的措施、技术路线、进度安排、拟达到的技术指标、提供成果方式等)
研究内容
本项目以聚类分析为基础,研究基于聚类的高效数据流异常挖掘算法,并应用于欺诈检测中,具体包括5个方面的内容:(1)研究流数据中数据压缩表示模型和数据相似性的度量方法;(2)研究针对数据流的高效、自适应聚类算法,数据进化度量方法;(3)研究基于聚类模型的异常挖掘算法;(4)在聚类模型的基础上研究分类规则挖掘算法,进而研究基于规则的异常挖掘算法;(5)研究聚类、异常挖掘在欺诈检测等实际领域中的应用。
拟解决的关键问题
(1)数据流中数据压缩表示模型和数据流中数据相似性的度量方法;(2)数据进化和变化趋势的度量;(3)数据异常程度的度量;(4)基于聚类的分类规则挖掘方法的设计;(5)异常挖掘思想如何与欺诈检测等应用领域有机结合。
研究方法
采用理论与实践相结合的方法。以聚类分析为基本手段,研究面向数据流的聚类算法,以不同时间粒度下聚类结果的差异性来研究数据进化,研究基于聚类的两阶段数据流异常挖掘算法;用已有的机器学习数据集(信用评估数据集,入侵检测评估数据集)以及实际领域中采集的数据集对异常检测算法进行测试、评估和分析,根据结果确认理论成果或对理论成果进行修改、完善,以达到预期的研究目标。最终将提出的异常挖掘方法应用于欺诈检测领域。
技术路线
针对5个方面的研究内容,具体技术路线如下:
在已有静态数据相似性度量方法及数据表示模型基础上,增加表示时态性的要素,提出数据流的表示模型及数据相似性的度量方法。针对数据流的特点,考虑到数据模式变化的因素,提出可处理混合属性数据的高效率、高精度的据流聚类算法。利用倾斜时间窗口技术来跟踪时间相关的信息,通过多时间粒度下保存的聚类结果的差异性来挖掘数据进化特征和变化的趋势。
将异常挖掘看成一类特殊的分类问题,研究基于聚类模型的异常挖掘算法。第一阶段建立聚类模型,研究度量一个类与整体偏离程度的方法,利用这种偏离程度将训练集的聚类结果进行标识,将偏离整体程度大的聚类作为异常类(其中的每个对象或事件均看成异常),其它类作为正常类,而得到描述正常数据和异常数据的聚类模型(带分类标识)。第二阶段检测异常,利用对象与分类模型偏离的程度来判定对象是否异常,从而得到基于聚类的动态(或在线)异常数据挖掘算法。
在已建立的刻画异常事件聚类模型基础上,利用流数据表示模型,从聚类模型中提取描述行为的分类规则,进而得到基于规则的流数据异常挖掘算法研究。
在公用测试数据集上测试算法的性能,分析实验结果,并根据实际的检测结果,改进和完善算法。将经过测试数据检验后得到改进的算法应用到欺诈检测等实际领域。
预期成果
理论研究方面:在数据流的相似性度量、数据进化度量、趋势检测、数据流的聚类、高效分类规则的挖掘和数据流的异常挖掘等研究方面,提出新的有效方法,切实解决异常挖掘中存在的可扩展性、时效性与准确性问题。就上述问题写出12篇以上高水平的学术论文在国内外权威学术期刊和会议上发表。
在实践方面:将所获得的理论研究成果应用于金融领域中的欺诈检测(信用卡的恶意透支检测、企业资金异常流动检测、反洗钱等),为相关应用领域的决策支持提供新的方法,提交算法实际应用的测试数据与结果。
项目实际完成情况
请按下列提纲填写:(可根据需要加页)
完成的研究内容, 取得的主要研究成果,达到的目标及水平。
1. 完成的研究内容
三年来,项目组成员注意加强对内、外的合作与交流,真诚协作,按照项目规划的研究内容,对数据挖掘的多种相关技术进行了系统的研究,在项目组所有人员的共同努力下,已完成研究计划,并在自然语言处理与信息检索方面进行了拓展研究。研究工作主要包括:数值属性离散化,特征选择,高效、自适应聚类算法,基于聚类的分类规则提取方法,稀有类的分类,基于聚类的异常挖掘算法等;提出的许多算法具有近似线性时间复杂度,可用于大规模数据集或数据流。
文档评论(0)