基于Web数据挖掘技术研究_000002.docVIP

下载本文档

1
0
约3.51千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于Web数据挖掘技术研究_000002.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Web数据挖掘技术研究_000002

基于Web数据挖掘技术研究_000002 　　摘要：随着因特网的迅速发展，数据资源量越来越庞大，为从这些资源里迅速、准确找到需要的知识，数据挖掘技术应运而生。介绍了基于Web的数据挖掘技术，阐述了该技术的特征并分类作了介绍，对数据挖掘技术的几大研究方向作了展望。　　关键词：Web；数据挖掘技术；XML 　　DOIDOI：10.11907/rjdk.143785 　　中图分类号：TP392 　　文献标识码：A 文章编号文章编号2015）001014902 　　1 Web挖掘简述　　数据挖掘指从随机又模糊的庞大数据里，把那些潜在但很实用的信息、趋势或模式提取出来。　　被视为新兴领域的Web挖掘，实质是数据挖掘的升级版。Web信息有着极为特殊之处，这样在数据挖掘上必须添加匹配的新特性。这些特性包含：①在挖掘对象上，Web挖掘的数据源全部是异构的；② Web文档是机器理解不到或者没有结构、半结构的语义。　　2 Web挖掘特性　　2.1 缺乏智能化理解　　Web中的数据的格式几乎都是HTML，与主题相关的信息往往杂乱地在Web站点的目录下散布开来。因此，必须有非常强大的一个搜索引擎，通过对关键字查找，实现对超文本位置的定位。数据格式不尽相同，必须有一个智能化的系统对自然语言陈述的数据作理解。然而，当下自然语言理解的有关技术还不成熟，所以很难对所有数据都理解到位。另外，数据源冗余或极为矛盾等问题也对此产生影响。　　2.2 数据源过于庞大　　Web对于有效的数据仓库和数据挖掘而言似乎太大了[1]。目前在计算上，Web数据已经达到用几百兆字节来表示的地步，并朝着更大单位来表示的趋势发展，有两点特别明显：　　（1）动态性强。因特网时时刻刻都在变化、更新中，于是需要借用某些数据仓库技术，才能保留Web上已更新过的数据。　　（2）多样性。过滤后的Web数据包含4种：①以实型、整型为实例的数值型；②布尔型；③描述数据及分类数据；④邮箱地址、网址等仅为Web所有的数据型。新的数据类型有新的特征，原先的挖掘方式行不通，必须对原有方式作扩充、改进。　　2.3 用户目标极为模糊　　在基于因特网下作数据挖掘，用户往往对挖掘主题认识很粗浅，说不出特别准确的目标。因此，数据挖掘系统必须具备学习机制及智能化特征，对用户的兴趣不断跟踪，才能详细、清晰地对挖掘结果做出阐述。它涵盖Web的结构、存取模式及动态查找，由此表明Web挖掘极具挑战性。　　3 Web挖掘分类　　3.1 基于内容的Web挖掘　　指在Web文件内容、描述信息中，取得潜在但实用的知识、模式的过程，分为文本挖掘、多媒体挖掘。　　（1）文本挖掘。特指对文本文档的挖掘。在Web庞大文档里，可对内容作出分类别、总结、关联性分析及趋势分析等。　　（2）多媒体挖掘。指对多媒体文档的挖掘，即对Web上图像、音视频预处理，利用挖掘技术对有意义的、潜在信息及模式作挖掘的一个过程。提取特征不同是多媒体与文本挖掘最不一样的地方。在挖掘时，对文件或者视频的键值表、文件名、颜色向量及类型等进行提取。　　3.2 基于结构的Web挖掘　　在结构上，Web包括超链接结构、树形结构及目录路径结构等[2]。这样，在结构上，可用有向图对Web进行表示，有向图中点对应的是页面，有向图中边对应的是超级链接。用此方法可得到站点的主页到任一定点的最短路径，也就是用较小代价获取最多文档。　　（1）HITS算法。对一给定的话题进行搜索，往往不只期望获取相关联的Web页，还期望被检索出的页面质量高且具权威性。而Web不只包含页面，还包含超链接。超链接简单说就是一个页面向另一个页面指向。若作者先建立一个页面，接着又让该页面向另一页面指向，就可认为作者对另一页面持认可态度。同一页面，收集源自不同作者的不同注解，便能反映此页面的重要性，而且可非常自然地用作权威页面。可是在链接结构上，Web有一定的局限：①并非每个超链接都认可此寻找；②商业竞争中，不可能有Web页面与自家竞争的页面指向；③难有权威页面具备特别性描述。鉴于以上情形，研究者不得不提出另一种Web页面（俗名Hub页面）。一个Hub页面可代替一个或多个Web页面，提供的是集合性链接。同时，任何话题，Hub页面都向着最显眼的链接指向。　　（2）PageRank算法。Web超链接有下列几种假设：①网页A的作者向网页B推荐；②网页A、B在主题相同时，超链接便把两个网页连接；③基于前两种，某页面数次被引用，说明此页面也许特别重要；④某页面虽然未被数次引用，但却被某重要页面引用，说明它也很重要。此算法便是针对上述4种情形做的专门研发。　　3.3 基于访问的Web挖掘　　网页点击数、浏览量、独