- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模糊集的分类方法在高校评教系统中的应用
基于模糊集的分类方法在高校评教系统中的应用
[摘要]数据库中蕴藏着大量的信息,通过对其进行分析,可以令我们做出明智的决策。分类是一种数据分析的形式,可以用于提取描述重要数据类的模型。这种分析有助于我们全面地理解数据。传统的数据分类方法(如决策树分类器,贝叶斯分类器……)大都采用基于规则的分类技术,这样分类系统有一个缺点,那就是对于具有连续性取值的属性,它们对其进行了陡峭的截断。
为了对这种苛刻的阈值规则进行消除,本文介绍了一种基于模糊逻辑的分类方法,它允许对每个类定义“模糊”阈值或边界。对于某个给定的类成员,相对于使用类之间的精确截断来表示类别,模糊逻辑使用0.0~1.0之间的一个值来表示该类成员对于给定类别的隶属程度,从而达到更为精确的分类效果。
关键词:数据挖掘 分类 模糊集
隶属度 决策支持
一.引言
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广泛使用的大量数据,并且迫切需要将这些数据装换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。顾名思义,数据挖掘是探查和分析大量数据以及发现有意义的模式和规则的过程。
分类是数据挖掘最常见的任务之一,包括考察一类新出现的对象的特征,并归类到已定义类中。分类的对象通常表示为数据库表或文件中的记录,分类工作包括向数据库添加一个新列,并给出某种分类代码。分类工作首先要有一个清晰定义的类,还要有一系列已分类实例。分类过程实际上是先建立某种模型,然后将其用于对未分类数据进行分类。例如贷款应用数据的“安全”或“风险”,销售数据的“是”或“否”,医疗数据的“疗法A”,“疗法B”,“疗法C”。这些类属可以用离散值表示,其中值之间的序没有意义。
模糊集是模糊数学的理论基础,模糊集理论也称可能性理论,作为传统的二值逻辑和概率论的一种替代,它允许我们处理高层抽象,并且提供了一种处理数据的不精确测量的手段。模糊性是指存在于现实中的不分明现象。如“稳定”与“不稳定”、“健康”与“不健康”之间找不到明确的边界。从差异的一方到另一方,中间经历了一个从量变到质变的连续过渡过程。相对于经典集模型(所描述的事物本身的含义是确定的),模糊性的数学模型用于描述本身含义不确定的事物。模糊集反映了“亦此亦彼”的模糊性,不满足互补律。
传统的以经典集为基础的基于规则的分类方法有一个缺点,那就是对于那些连续的属性,有着陡峭的截断。例如,考虑高收入人群的集合,定义月收入大于等于10000的人群为高收入人群,若是低于10000,则为非高收入人群。该规则可用伪代码描述为
if(people.income≥10000) return high income;
else return low income;
如果该规则用于信用卡申请,那么在这样的规则下,对于一个月收入10001的人将申请到信用卡,而一个月收入9999的人将得不到申请,这种苛刻的阈值看来并不公平。换一种方式,我们可以将income离散化成分类的,如{low_income, medium_income, high_income},然后使用模糊逻辑,允许对每个类定义“模糊”阈值或边界。模糊逻辑使用0.0~1.0之间的真值表示一个特定的值是一个给定类成员的隶属程度,而不是用类之间的精确截断。每个类表示一个模糊集。使用模糊逻辑,可以表达这样的概念:在某种程度上,9999元的月收入是高的,尽管没有10001元的收入高。
二.模糊集理论简介
模糊集理论最早于1965 年由Zadeh提出, 它可以用来处理不确定事件。作为对古典集合的扩展,在模糊集合中,论域X上的模糊集合A由隶属函数表示,对于任意的x∈X,都有唯一确定的隶属函数与之对应。则A可表示为:。设X为有限集,且,其中的元素对应的隶属函数为,则此时A可以表示为:。模糊集合的并,交,补运算以隶属函数之间的关系来确定。设A,B是论域X上的模糊集,记A和B的并,交运算分别为A∪B,A∩B,A的补集为,则它们的隶属函数可以表示为:,,。对于模糊集合上的二元关系R(模糊关系),可以定义为论域U与论域V的笛卡尔乘积(U×V)上的一个模糊子集,它的隶属函数R:U×V→[0,1],(u,v)|→R(u,v)确定了U中的元素u与V中的元素v的关系程度。设和分别是定义在U×V 和V×W上的两个模糊关系, 它们的合成运算结果为U×W上的模糊集,其合成运算可表示为:·(u,v)=其中表示取大运算,表示取小运算。
三.使用模糊集进行分类的方法
设U={}为待分类的全体,其中每一个待分类对象可由一组属性表征如下:
=(,,……,)
对于中的每个属性域,可根据需要分类的类别(类别1,类别2,类别3……)定义模糊集(,,…
文档评论(0)