- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实用标准文档
文案大全
成 绩
评卷人
姓 名
学 号
华 中 师 范 大 学
研 究 生 课 程 论 文
完成时间 2014.7.15
课程名称 数据挖掘
专 业 通信与信息系统
年 级
Aprior-TIDS算法在教育领域的应用
摘 要:
数据挖掘技术是应用一系列技术从大型数据库中提取出出隐含的、以前未知的、具有潜在应用价值的信息,它是知识发现(KDD)过程中最核心的部分。而关联规则的挖掘是数据挖掘的一项重要的任务,用以发现大量数据项集之间的相关联系。Apriori 算法在关联规则挖掘中最具代表与影响的一种算法。针对它需要重复的扫描数据库以确定各个候选项集的支持度计数和产生大量候选项集的缺陷,设计出了新的算法Aprior-TID(Sransaction Identifier)算法。本文还将探讨这个算法落实到教育相关领域上的两个具体应用--教育管理决策系统和招生管理系统。
关键字:Aprior-TIDS;数据挖掘;教育决策;招生管理;关联规则;
1.知识发现与数据挖掘
1.1知识发现相关概念
自从 1989 年 8 月在第 11 届国际联合人工会议上首次提出知识发现这一概念以来,研究者们给 KDD 下了很多定义。随着 KDD 研究的不断深入,对 KDD 的定义也在不断地改进,以下是目前对 KDD 比较公认定义:
KDD 是从大量繁多的数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程,这种处理过程是非平凡的过程[1]。
KDD 是一个多步骤的过程,并且根据实际需要这些步骤可能要多次反复,其主要步骤如图 1-1 所示:
1.准备:了解 KDD 相关领域的有关情况,熟悉有关的背景知识并了解用户需求。
2.筛选:从用户需求出发由数据库中提取出于本次 KDD 过程相关的数据,此过程主要是对数据库中的原始资源进行提取。
3.预处理:初步处理上一步所选择出的数据,包括对数据的完整性与一致性进行检查,对数据中出现的噪声进行判断并加以去除,对错误和丢失的数据进行修补。
4.缩减:对经过预处理数据的数据项,主要通过投影的方式或一些相关的数据库操作减少数据量。
5.任务定性:根据用户需求确定 KDD 的结果属于哪类知识,这是作为选择知识发现算法的依据。
6.确定算法:根据上一步所得结果选择适合的算法、模型和参数。
7.数据挖掘:利用所选算法,从经过初步处理的数据中提取出用户所需的知识。要求其结果要简单易懂,一般都是一些常用的表达式或产生式。
8.模式解释:对发现的模式进行解释。
9.评价:将发现的数据以用户易于理解的方式呈现,也包含对知识一致性的检查。
图1-1KDD过程
从上述对 KDD 过程的描述可以得出结论:数据挖掘只是知识发现过程中的一个步骤,但它是知识发现过程中最重要的一个步骤。它主要是利用知识发现算法,从数据中发现出有关的知识或模式。
1.2数据挖掘的相关概念。
数据挖掘(Data mining,简称 DM),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
数据挖掘过程一般由确定挖掘对象、数据准备、模型建立、数据挖掘、结果分析表述和挖掘应用这几个主要阶段组成。数据挖掘可以描述为这几个阶段的反复过程[2]。
首先确定目标、明确数据挖掘任务。
(1)数据准备
数据准备阶段又可进一步分成四个子步骤数据集成、数据选择、数据预处理和数据转换。
A、数据集成。数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗数据等。
B、数据选择。数据选择指为数据挖掘目标搜集和选择有关的数据,这包括不同格式数据的转换以及不同部门数据的统一和汇总。数据选择的目的是辨别出需要分析的数据集和,缩小处理范围,提高数据挖掘的质量。
C、数据预处理。数据预处理是对数据进行清理和充实等工作。数据库中重要的数据是准确的,不重要的数据可能存在污
您可能关注的文档
最近下载
- 2025江西赣州南康赣商村镇银行招聘4人笔试备考试题及答案解析.docx VIP
- T_CMEAS 030-2024 儿童哮喘标准化门诊建设规范.pdf
- 小学一年级体育教案全册表格式(精品).doc VIP
- 2025年湖南有色金属控股集团有限公司校园招聘模拟试题附带答案详解参考答案.docx VIP
- 摩登家庭台词剧本第一季第一集中英双语左右对照.pdf VIP
- 前厅服务与管理前厅销售课件.pptx VIP
- 货架验收标准.docx VIP
- 2025年湖南有色金属控股集团有限公司校园招聘模拟试题附带答案详解必考题.docx VIP
- 新22N1 供暖工程图集 .docx VIP
- 2025年湖南有色金属控股集团有限公司校园招聘模拟试题附带答案详解附答案.docx VIP
文档评论(0)