- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模糊集的分类方法在高校评教系统中的应用
[摘要]数据库中蕴藏着大量的信息,通过对其进行分析,可以令我们做出明智的 决策。分类是一种数据分析的形式,可以用于捉取描述重要数据类的模型。这种 分析有助于我们全面地理解数据。传统的数据分类方法(如决策树分类器,贝叶 斯分类器……)大都采用基于规则的分类技术,这样分类系统有一个缺点,那就 是对于具有连续性取值的属性,它们对其进行了陡山肖的截断。
为了对这种苛刻的阈值规则进行消除,本文介绍了一种基于模糊逻辑的分类 方法,它允许对每个类定义“模糊”阈值或边界。对于某个给定的类成员,相对 于使用类之间的精确截断来表示类别,模糊逻辑使用0.0-1.0之间的一个值来表示 该类成员对于给定类别的隶属程度,从而达到更为精确的分类效果。
关键词:数据挖掘 分类 模糊集
隶屈度 决策支持
一?引言
近年來,数据挖掘引起了信息产业界和整个社会的极人关注,其主要原因是 存在可以广泛使用的大量数据,并且迫切需耍将这些数据装换成有用的信息和知 识。获取的信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、顾客 保有、产品控制和科学探索等。顾名思义,数据挖掘是探查和分析大量数据以及 发现有意义的模式和规则的过程。
分类是数据挖掘最常见的任务之一,包括考察一类新出现的对象的特征,并 归类到已定义类中。分类的对象通常表示为数据库表或文件中的记录,分类工作 包括向数据库添加一个新列,并给出某种分类代码。分类工作首先要冇一个清晰 定义的类,还要有一系列己分类实例。分类过程实际上是先建立某种模型,然后 将其用于对未分类数据进行分类。例如贷款应用数据的“安全”或“风险”,销 售数据的“是”或“否”,医疗数据的“疗法A〃,“疗法B〃‘ “疗法C〃。这些类 属可以用离散值表示,其中值Z间的序没有意义。
模糊集是模糊数学的理论基础,模糊集理论也称可能性理论,作为传统的二 值逻辑和概率论的一种替代,它允许我们处理高层抽象,并且提供了一种处理数 据的不精确测量的手段。模糊性是指存在于现实屮的不分明现象。如“稳定”与 “不稳定”、“健康”与“不健康”之间找不到明确的边界。从差异的一方到另 一方,中间经历了一个从量变到质变的连续过渡过程。相对于经典集模型(所描 述的事物本身的含义是确定的),模糊性的数学模型用于描述本身含义不确定的 事物。模糊集反映了 “亦此亦彼”的模糊性,不满足互补律。
传统的以经典集为基础的基于规则的分类方法有一个缺点,那就是对于那些 连续的属性,冇着陡峭的截断。例如,考虑高收入人群的集合,定义月收入大于 等于10000的人群为高收入人群,若是低于10000,则为非高收入人群。该规则可 用伪代码描述为
if(people.incomeMlOOOO) return high income;
else return low income;
如果该规则用于信用卡中请,那么在这样的规则下,对于一个刀收入10001 的人将申请到信用卡,而一个月收入9999的人将得不到申请,这种苛刻的阈值看 來并不公平。换一种方式,我们口J以将income离散化成分类的,如{lowjncome, medium」ncome, high」ncome},然后使用模糊逻辑,允许对每个类定义模糊” 阈值或还界。模糊逻揺使用0.0T.0Z间的真值表示一个特定的值是一个给定类成 员的隶属程度,而不是用类之间的精确截断。每个类表示一个模糊集。使用模糊 逻辑,严以表达这样的概念:在某种程度上,9999兀的月收入是高的,尽管没有 10001元的收入高。
模糊集理论简介
模糊集理论最早于1965年由Zadeh捉出,它可以用来处理不确定事件。作为 对古典集合的扩展,在模糊集合中,论域X上的模糊集合A由隶属函数表示,对于 任意的xWX,都有唯一确定的隶属函数与之对应。贝UA可表示为:。设X为有限集, 且,其中的元索对应的隶属函数为,则此时A口J以表示为模糊集合的并,交, 补运算以隶屈函数Z间的关系來确定。设A, B是论域X上的模糊集,记A和B的并, 交运算分别为AUB, AAB, A的补集为,则它们的隶屈函数可以表示为:,,。对 于模糊集合上的二元关系R (模糊关系),可以定义为论域U与论域V的笛卡尔乘 积(UxV)上的一个模糊子集,它的隶属函数R: UxV-[0,l],(u, v) I-R (u, v)确定了U中的元索u与V中的元索v的关系程度。设和分别是定义在UxV和VxW 上的两个模糊关系,它们的合成运算结果为UxW上的模糊集,其合成运算可表示 为:.(u, v)二其屮表示取大运算,表示取小运算。
使用模糊集进行分类的方法
设U二{}为待分类的全体,其中每一个待分类对象可由一组属性表征如下:
二(,, ,)
对于屮的每个屈性域,可根据需要分类的类别(类别1,
文档评论(0)