- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8.9 挖掘路径遍历模式 改进公司的WEB站点之前,先估计它的当前用量。每个站点都由Web服务器电子化在管理,所有活动都会记入日志,存放在日志文件中。用户的所有痕迹都存在这个文件中。因此,可应用数据挖掘技术,从该文件中提取一些可以间接在反应站点质量的信息,也可以挖掘数据来优化Web服务器的性能,找出哪些产品被合在一起购买,或者确定站点是否按照预期的情况使用。 LOGSOM方法重点在于Web页面的相似性,而其他技术则强调用户经过Web的路径的相似性。 捕捉Web环境中的用户访问模式被称为挖掘路径遍历模式,它属于另一种数据挖掘技术。这种技术还处于萌芽阶段,但却在互联网应用中显示出了极光明的前景。 由于用户沿着信息路径在网上搜寻想要的信息,一些对象或文档只是因为它们的位置而被访问,而不是因为它们的内容。这个特征不可避免在增加从遍历数据中获取有用信息的难度,同时也解释了为什么当前的网络用量主要是为旅行点而不是为旅行路径提供统计数据。 8.10 文本挖掘 存在于多数文本数据库中的信息都 是半结构化数据,文本挖掘用于从大型文本形式的数据库集中发现新的信息。 文本挖掘的两种技术:一种是互联网搜索能力,另一种是文本分析方法。 搜索引擎是互联网用于帮助用户找到他们想要的内容,使用户只要处理更少的链接、页面和索引,就可以获得得相关的信息。 在信息检索(IR)领域,文档典型地表述为向量空间的模型,并用简单的语法规则(如英语中的空白分隔)来加以标记,标号被转化成标准形式,每个标准标号代表欧氏空间里的一根轴。 文档就是n维空间里的向量。如果一个也可叫做词的标号t在文档d中出现n次,那么很简单,文档d第t个坐标就是n。可以选择L1,L2,…,L∞范数将文档的长度标准化为1。 其中n(d,t)是文档d中词t出现的次数。 存在这样一个事实:一些叫关键字的词(像“algorithm”)在确定文档的内容方面比其他的一些词(像“the”,“is”)更重要。 如果在N个文档中,有nt个文档中出现词t,nt/N表示稀有性,表示词t的重要性。逆文档频数IDF=1+log(nt/N)用于延长向量空间中的轴,这种延长是有差别的。因此,可以用加权向量空间(n(d,t)/|d1|×IDF(t) 的值来表示文档d的第t个坐标的值。 超文本文档通常表示为Web的基本成分,它是基于文本文档的一种特珠的类型,其内容除了文本外,还有超链接。有一种最简单的模型,超文本可以被当作是有向图表(D,L),其中D是表述文档或Web页面的节点集,L是链接集。 文本挖掘是一个建立在文本分析技术基础上的新兴的功能集合。文本挖掘必须提供一些超越文本索引检索的值,如关键字。 文本挖掘是一个涉及到信息检索、文本分析、信息提取、聚类、分类、可视化、机器学习和已经包括在数据挖掘“菜单”中的其他技术的多学科领域。 文本挖掘处理分为两个阶段: 1.文本提炼,将自由形式的文本文档转换成所选的中介形式。 2.知识萃取,从中介形式中演绎出模式或知识。 文本挖掘框架如图8-9所示。 就业工场数据中心 8.6 多维关联规则挖掘 多维事务数据库DB的结构为(ID,A1,A2,…,An,items) ,Ai是DB中的结构化属性(例如顾客的年龄,职业,收入等),而items是同事务连接的项的集合(例如购物篮中频繁项集)。每一个t=(id,a1,a2,…,an,items-t)由两部分信息组成:维信息(a1,a2,…,an)和项集信息。 挖掘过程分为两部分:挖掘维度信息的模式和从投影的子DB中找出频繁项集。 例如,事务DB如表8-3所示。 首先找出频繁多维值的组合,然后寻找DB中相应的频繁项集。设支持度阈值为2,即属性值的组合出现两次或两次以上为频繁项集,称为多维模式或叫做MD-模式。 要挖掘MD-模式时,可以使用最早由beyer和Ramakrishnan(它是个有效的“冰山立方体”,见下图)开发的改进BUC算法。 BUC算法的基本步骤如下:首先,在第一维(A1)中按值的字母顺序将每个项进行排序。 1.在该维中仅有的MD-模式为(a,*,*),因为只有a值的支持度大于2。其它维的值(*)在第一步不相关,可取任意值。 在DB中选择那些具有MD-模式的项。即T01和T03事务。针对第二维(A2),值1和2,对简化的DB进行再一次排序。没有符合支持度的模式,所以不存在A1和A2值的MD-模式。因此可忽略A2。 在第三维(A3)中按字母顺序进行排序。子集(a,*,m)出现两次,因此它是一个MD-模式。 2.重复步骤1的过程:只从A2开始,不需要搜索第一维。 第二次迭代从A2开始,MD-模式为(*,2,*), 针对A3,不存在其它MD-模式。最后一次迭代,从A3开始,(*,*,m)为MD-模式. 图8-6是BUC算
文档评论(0)