- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 时态约束关联规则挖掘问题及算法
5.1.1 用户主观层面
事实上,一个规则的有用与否最终取决于用户的感觉。只有用户可以决定规则的有效性、可行性,所以我们应该将用户的需求和系统更加紧密的结合起来。约束数据挖掘可以为用户参与知识发现工作提供一种有效的机制。
用户可以在不同的层面、不同的阶段、使用不同的方法来主观设定约束条件。例如,可以把约束作为算法的参数和算法有机结合,也可以以交互式方式进行不同的尝试;可以事先根据挖掘目标设定,还可以作为事后评估规则的依据;可以在数据预处理阶段用来减少数据量,也可以对知识形式进行约束以减少尝试路径。
从被约束的对象来看,下面是数据挖掘中常用的几种约束类型。
(1)知识类型的约束
对于不同的商业应用问题,特定的知识类型可能更能反映问题。如前所述,一个多策略的知识发现工具可能提供多种知识表示模式,因此需要针对应用问题选择有效的知识表达模式。例如,如果一个商业企业希望根据客户特点进行有针对性地销售,那么使用分类或聚类形式可以帮助用户形成客户群。用户可以设定明确的挖掘知识模式,减少不必要的模式探索,增强挖掘的实用性。
(2)数据的约束
对数据的约束可以起到减少数据挖掘算法所用的数据量、提高数据质量等作用。用户可以指定对哪些数据进行挖掘,通过指定约束把粗糙的、混杂的庞大源数据集逐步压缩到与任务相关的数据集上。在不同的阶段,可以通过数据挖掘语言实施数据约束。例如,目前研究的数据挖掘操纵语言大都支持数据约束的设定[1,93]。
(3)维/层次约束
对于一个基于数据仓库或多维数据库的数据挖掘工作来说,不同的维为用户提供了不同粒度的数据和对数据的不同视点。但是,它也给数据挖掘工作带来新的问题。例如,从不同粒度挖掘出来的知识可能存在冗余问题;由于维数不加限制可能引起挖掘效率低下等问题。因此,可以限制聚焦的维数或粒度层次,也可以针对不同的维设置约束条件。利用约束灵活地进行多维挖掘是目前比较集中讨论的问题[93]。
(4)知识内容的约束
可以通过限定要挖掘的知识的内容,如指定单价10的交易项目,可以减少探索的代价和加快知识的形成过程。这样的约束也可以通过数据挖掘语言来指定。
(5)针对具体知识类型的约束
不同的知识类型在约束形式和使用上会有所差异,因此开展针对具体知识类型的进行约束挖掘形式和实现机制的研究是有意义的。近年来,在基于约束的聚类[90]、关联规则[92] 等方面开展了相应的工作。
5.1.2 系统客观层面
使用“支持度-可信度” 的关联规则挖掘度量框架,在客观上也可能出现与事实不相符的结果。例如,我们前面提到的“计算机游戏和录象产品是负相关的”问题。现在已有许多工作来重新考虑关联规则的客观度量问题。例如,Brin等[94]考虑的蕴涵规则(Implication Rule);Chen等给出的R-兴趣(R-Interesting)[4] 规则度量方法等。这些工作都期望通过引入新的度量机制和重新认识关联规则的系统客观性来改善挖掘质量。
5.2 约束数据挖掘问题
如前所述,在数据挖掘和知识发现中使用约束可以提高挖掘效率、精度等。事实上,对于一个大型数据集而言,可能蕴涵着巨大数量的关联知识。如果盲目地进行挖掘,不仅效率很低,而且可能造成新的“信息坟墓“问题,即知识太多以至于我们无法利用。同时,数据挖掘和知识发现是一件艰苦而细致的工作。只有严格控制应用规模才有可能达到实用。
归纳起来,约束在数据挖掘中的使用可以在如下方面起到关键作用:
(1)聚焦挖掘任务,提高挖掘效率
数据挖掘和知识发现的早期研究注重模型和算法的研究,但是随着应用的探索,人们发现孤立的挖掘工具是很难取得预期效果的。虽然一个项目的启动阶段,反复进行调研和分析,甚至制订了很详细的挖掘任务列表,但是还是不能得到我们感兴趣的知识。实际上,一个好的挖掘目标需要依靠具体的实现机制保证。利用约束,我们可以把具体的挖掘任务转换成对系统工作的控制,从而使挖掘工作按着我们期望的方向发展。约束的使用可以在知识发现的任何阶段进行,它是交互式或探索式挖掘的基本方法。通过人机交互和探索实验,我们可以快速聚焦挖掘任务,进而提高挖掘效率。
(2)保证挖掘的精确性
数据挖掘是一个结果不可预测的工作,我们很难预先把所有的问题都设计好。因此,需要不断地验证和修改错误。即使有些知识是正确的,它也未必是我们感兴趣的。挖掘结果的精确性,不仅体现在它的可信程度,而且取决于它是否对我们是有用的。约束的使用可以帮助我们发现问题,并及时加以调整,使知识发现的各个阶段按着正确的方向发展。
(3)控制系统的使用规模
数据挖掘和知识发现应用最常犯的错误就是无限制的扩大规模。想要把所有的问题都在一个系统内解决,结果是什么也解决不了。约束数据挖掘的思想为系统的增量式扩充提供条件。当基本的原则和目标确定后
文档评论(0)