- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Web数据挖掘技术研究_000002
基于Web数据挖掘技术研究_000002
摘要:随着因特网的迅速发展,数据资源量越来越庞大,为从这些资源里迅速、准确找到需要的知识,数据挖掘技术应运而生。介绍了基于Web的数据挖掘技术,阐述了该技术的特征并分类作了介绍,对数据挖掘技术的几大研究方向作了展望。
关键词:Web;数据挖掘技术;XML
DOIDOI:10.11907/rjdk.143785
中图分类号:TP392
文献标识码:A 文章编号文章编号2015)001014902
1 Web挖掘简述
数据挖掘指从随机又模糊的庞大数据里,把那些潜在但很实用的信息、趋势或模式提取出来。
被视为新兴领域的Web挖掘,实质是数据挖掘的升级版。Web信息有着极为特殊之处,这样在数据挖掘上必须添加匹配的新特性。这些特性包含:①在挖掘对象上,Web挖掘的数据源全部是异构的;② Web文档是机器理解不到或者没有结构、半结构的语义。
2 Web挖掘特性
2.1 缺乏智能化理解
Web中的数据的格式几乎都是HTML,与主题相关的信息往往杂乱地在Web站点的目录下散布开来。因此,必须有非常强大的一个搜索引擎,通过对关键字查找,实现对超文本位置的定位。数据格式不尽相同,必须有一个智能化的系统对自然语言陈述的数据作理解。然而,当下自然语言理解的有关技术还不成熟,所以很难对所有数据都理解到位。另外,数据源冗余或极为矛盾等问题也对此产生影响。
2.2 数据源过于庞大
Web对于有效的数据仓库和数据挖掘而言似乎太大了[1]。目前在计算上,Web数据已经达到用几百兆字节来表示的地步,并朝着更大单位来表示的趋势发展,有两点特别明显:
(1)动态性强。因特网时时刻刻都在变化、更新中,于是需要借用某些数据仓库技术,才能保留Web上已更新过的数据。
(2)多样性。过滤后的Web数据包含4种:①以实型、整型为实例的数值型;②布尔型;③描述数据及分类数据;④邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征,原先的挖掘方式行不通,必须对原有方式作扩充、改进。
2.3 用户目标极为模糊
在基于因特网下作数据挖掘,用户往往对挖掘主题认识很粗浅,说不出特别准确的目标。因此,数据挖掘系统必须具备学习机制及智能化特征,对用户的兴趣不断跟踪,才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找,由此表明Web挖掘极具挑战性。
3 Web挖掘分类
3.1 基于内容的Web挖掘
指在Web文件内容、描述信息中,取得潜在但实用的知识、模式的过程,分为文本挖掘、多媒体挖掘。
(1)文本挖掘。特指对文本文档的挖掘。在Web庞大文档里,可对内容作出分类别、总结、关联性分析及趋势分析等。
(2)多媒体挖掘。指对多媒体文档的挖掘,即对Web上图像、音视频预处理,利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时,对文件或者视频的键值表、文件名、颜色向量及类型等进行提取。
3.2 基于结构的Web挖掘
在结构上,Web包括超链接结构、树形结构及目录路径结构等[2]。这样,在结构上,可用有向图对Web进行表示,有向图中点对应的是页面,有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径,也就是用较小代价获取最多文档。
(1)HITS算法。对一给定的话题进行搜索,往往不只期望获取相关联的Web页,还期望被检索出的页面质量高且具权威性。而Web不只包含页面,还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面,接着又让该页面向另一页面指向,就可认为作者对另一页面持认可态度。同一页面,收集源自不同作者的不同注解,便能反映此页面的重要性,而且可非常自然地用作权威页面。可是在链接结构上,Web有一定的局限:①并非每个超链接都认可此寻找;②商业竞争中,不可能有Web页面与自家竞争的页面指向;③难有权威页面具备特别性描述。鉴于以上情形,研究者不得不提出另一种Web页面(俗名Hub页面)。一个Hub页面可代替一个或多个Web页面,提供的是集合性链接。同时,任何话题,Hub页面都向着最显眼的链接指向。
(2)PageRank算法。Web超链接有下列几种假设:①网页A的作者向网页B推荐;②网页A、B在主题相同时,超链接便把两个网页连接;③基于前两种,某页面数次被引用,说明此页面也许特别重要;④某页面虽然未被数次引用,但却被某重要页面引用,说明它也很重要。此算法便是针对上述4种情形做的专门研发。
3.3 基于访问的Web挖掘
网页点击数、浏览量、独
您可能关注的文档
- 基于Web Services文献管理系统数据交互访问机制研究.doc
- 基于Web Services校园网通用网格平台.doc
- 基于Web Services模型库系统开发研究.doc
- 基于Web Services电子采购系统设计.doc
- 基于Web Services民航综合信息服务平台设计与实现.doc
- 基于Web Services电子采购系统设计与实现.doc
- 基于Web Services网上图书订购系统安全性应用.doc
- 基于Web Services积件库代理系统研究与设计.doc
- 基于Web services网上在线实时答疑系统研究.doc
- 基于Web ServiceWeb应用系统与Android移动端整合研究.doc
文档评论(0)