Web挖掘基础.pptVIP

下载本文档

37
0
约2.87千字
约 27页
2017-12-24 发布于浙江
举报
版权申诉

Web挖掘基础.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web挖掘基础

Web挖掘基础提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 Web日志挖掘 Web 挖掘的挑战 Web数据量太庞大：Server Level Collection、Client Level Collection和 Proxy Level Collection ?Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 Web挖掘与IR Web上的IR是Web挖掘的一个方面，仅是对信息有序化。 Web挖掘是智能化的IR，IR出现早，技术成熟。 Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程：C→P 。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据，这些数据分布在Web文档、Web服务器的日志、用户cookies等。 Web挖掘分类 Web内容挖掘基于网页内容或其描述中抽取知识的过程。 Web内容挖掘主要包括文本挖掘和多媒体挖掘两类，其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。日志的预处理 Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据，应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 Web文本挖掘的方法文本概括：从文本（集）中抽取关键信息，用简洁的形式总结文本（集）的主题内容。例如搜索引擎在向用户返回查询结果时，通常需要给出文本摘要。文本分类：把一些被标记的文本作为训练集，找到文本属性和文本类别之间的关系模型，然后利用这种关系模型判断新文本的类别。召回率和精度。文本聚类：根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。 Web文本挖掘的应用搜索引擎领域：利用Web文本挖掘可以更合理地组织搜索结果：按照页面之间的相似程度分为若干簇。自然语言理解领域：结合自然语言处理技术和Web文本挖掘技术。文本挖掘在垃圾邮件过滤中的应用 Web多媒体挖掘 Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义，发现隐含的、有价值的和可理解的模式，得出事件的趋向和关联，为用户提供决策支持。多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。多媒体挖掘系统的结构多媒体挖掘的典型应用视频挖掘：从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化，并在此基础上发现场景的内容特征，运动对象的行为模式和事件模式等。在线诊疗系统：对新产生的医学图像进行分类，从而对病人进行疾病的诊断。 Web结构挖掘有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构，而且也存在于URL中的目录路径结构（页面之间的目录结构关系）。 Web结构挖掘是指挖掘Web链接结构模式，即通过分析页面链接的数量和对象，从而建立Web的链接结构模式。 Web结构挖掘主要方法 PageRank算法 HITS算法 PageRank算法 Web结构挖掘的应用信息检索社区识别网站优化 Web日志挖掘 Web日志挖掘是从用户访问日志（包括搜索引擎日志等）中获取有价值的信息，即通过分析Web日志数据，发现访问者存取Web页面的模式。理解用户的行为，改进站点结构，发现潜在用户，为用户提供个性化的服务，增强网站的竞争力。隐私保护数据挖掘数据挖掘可能会违反用户的隐私在原始数据库中，类似于标识符、姓名、地址和喜好等数据作为用户的隐私应该被保护。对用户的敏感的原始数据进行变换，以便数据的使用者不能对用户的原始数据进行查看，以此保护用户的私有数据。知识 WWW Web挖掘类项目 Web内容挖掘 Web结构挖掘 Web日志挖掘处理数据类型 IR方法：无结构数据、半结构数据 Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本 Web文档内及文档间的超链 Serverlog, Proxy serverlog, Client log 表示方法词集、段落、概念、IR的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现页面权重分类聚类模式发现 Web站点重建，商业决策 IP Address Time/Date Method/URI Referrer Agent 15:30:01/2-Jan-01 GET Index.htm /link.htm Mozilla/4.0(IE5.0W98) 15:30:01/2-Jan-01 GET 1.