第八关联规则21.pptVIP

下载本文档

0
0
约5.17千字
约 36页
2018-07-14 发布于上海
举报
版权申诉

第八关联规则21.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第八关联规则21

8.10 文本挖掘存在于多数文本数据库中的信息都是半结构化数据，文本挖掘用于从大型文本形式的数据库集中发现新的信息。文本挖掘的两种技术：一种是互联网搜索能力，另一种是文本分析方法。搜索引擎是互联网用于帮助用户找到他们想要的内容，使用户只要处理更少的链接、页面和索引，就可以获得得相关的信息。在信息检索(IR)领域，文档典型地表述为向量空间的模型，并用简单的语法规则(如英语中的空白分隔)来加以标记，标号被转化成标准形式，每个标准标号代表欧氏空间里的一根轴。文档就是n维空间里的向量。如果一个也可叫做词的标号t在文档d中出现n次，那么很简单，文档d第t个坐标就是n。可以选择L1,L2,…,L∞范数将文档的长度标准化为1。其中n(d,t)是文档d中词t出现的次数。存在这样一个事实：一些叫关键字的词(像“algorithm”)在确定文档的内容方面比其他的一些词(像“the”，“is”)更重要。如果在N个文档中，有nt个文档中出现词t，nt/N表示稀有性，表示词t的重要性。逆文档频数IDF=1+log(nt/N)用于延长向量空间中的轴，这种延长是有差别的。因此，可以用加权向量空间(n(d,t)/|d1|×IDF(t) 的值来表示文档d的第t个坐标的值。超文本文档通常表示为Web的基本成分，它是基于文本文档的一种特珠的类型，其内容除了文本外，还有超链接。有一种最简单的模型，超文本可以被当作是有向图表(D,L)，其中D是表述文档或Web页面的节点集，L是链接集。文本挖掘是一个建立在文本分析技术基础上的新兴的功能集合。文本挖掘必须提供一些超越文本索引检索的值，如关键字。文本挖掘是一个涉及到信息检索、文本分析、信息提取、聚类、分类、可视化、机器学习和已经包括在数据挖掘“菜单”中的其他技术的多学科领域。文本挖掘处理分为两个阶段： 1.文本提炼，将自由形式的文本文档转换成所选的中介形式。 2.知识萃取，从中介形式中演绎出模式或知识。文本挖掘框架如图8-9所示。例如，事务DB如表8-3所示。首先找出频繁多维值的组合，然后寻找DB中相应的频繁项集。设支持度阈值为2，即属性值的组合出现两次或两次以上为频繁项集，称为多维模式或叫做MD-模式。要挖掘MD-模式时，可以使用最早由beyer和Ｒamakrishnan(它是个有效的“冰山立方体”，见下图)开发的改进BUC算法。 BUC算法的基本步骤如下:首先，在第一维(A1)中按值的字母顺序将每个项进行排序。 1.在该维中仅有的MD-模式为(a,*,*)，因为只有a值的支持度大于2。其它维的值(*)在第一步不相关，可取任意值。　在DB中选择那些具有MD-模式的项。即T01和T03事务。针对第二维(A2),值1和2,对简化的DB进行再一次排序。没有符合支持度的模式，所以不存在A1和A2值的MD-模式。因此可忽略A2。在第三维(A3)中按字母顺序进行排序。子集(a,*,m)出现两次，因此它是一个MD-模式。 2.重复步骤1的过程：只从A2开始，不需要搜索第一维。　第二次迭代从A2开始，MD-模式为(*,2,*), 针对A3，不存在其它MD-模式。最后一次迭代，从A3开始，(*,*,m)为MD-模式. 图8-6是BUC算法对表8-3的处理结果。找到MD-模式后，下一步对每个MD-模式在MD-投影中挖掘频繁项集。 8.7 WEB挖掘在分布式的信息环境中,文档或对象通常被链接在一起,从而可以起到互相访问的作用。例如，WWW和在线服务，这类信息提供的环境，通过工具(如超链接、URL地址)从一个对象转到另一个对象，从而获得有用的信息。WEB是一个超8亿页的超文本的载体，而且信息量还在不断增长。几乎每天要增加100万个页面，而且页面每几个月就会更新一次，因此，每月会有几百G字节的数据在变化。 Web挖掘可以定义为使用数据库挖掘技术在Web文档和服务中自动在发掘并且提取信息。它涉及到整个挖掘的过程，而不仅仅是应用标准的数据挖掘工具。Web挖掘任务划分为４个子任务： 1.寻找资源─这是一个从Web上的多媒体资源中在线或离线检索数据的过程。　　电子时事通信、电子新闻专线、新闻组以及通过删除HTML标记得到的HTML文档。　2.信息选择和预处理─这是在上面的子任务中检索出的不同种类的原始数据的转换过程。　　转换过程既可以是一种预处理，比例删除停止字，障碍字等，或者旨在获得所需要的表示法，例如查找在训练主体中的习语，以第一顺序逻辑的形式表示文本等。　3.总结─总结是一个在个别Web站点上自动地发掘出综合模式的过程。　　本阶段使用了不同的综合目的机器学习、数据挖掘技术和指定的面向Web的方法。　4.分析─在这一过程中，执行生效和／或解释已挖掘出模式。

您可能关注的文档

文档评论（0）

peili2018 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第八关联规则21.pptVIP