- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web挖掘基础
Web挖掘基础 提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 Web日志挖掘 Web 挖掘的挑战 Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection ?Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 Web挖掘与IR Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 Web挖掘是智能化的IR,IR出现早,技术成熟。 Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:C→P 。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等 。 Web挖掘分类 Web内容挖掘 基于网页内容或其描述中抽取知识的过程。 Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。 日志的预处理 Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 Web文本挖掘的方法 文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。 文本分类 :把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。 文本聚类:根据文本的不同特征划分为不同的类。 从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。 Web文本挖掘的应用 搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。 自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。 文本挖掘在垃圾邮件过滤中的应用 Web多媒体挖掘 Web多媒体挖掘是从大量多媒体数据中通过综合分析视听特性和语义,发现隐含的、有价值的和可理解的模式,得出事件的趋向和关联,为用户提供决策支持。 多媒体挖掘包括图像挖掘、视频挖掘和音频挖掘等类别。 多媒体挖掘系统的结构 多媒体挖掘的典型应用 视频挖掘:从电影、监控录像等视频数据中提取视频场景内容和其中运动对象的特征及其时空位置变化,并在此基础上发现场景的内容特征,运动对象的行为模式和事件模式等。 在线诊疗系统:对新产生的医学图像进行分类,从而对病人进行疾病的诊断。 Web结构挖掘 有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。 Web结构挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。 Web结构挖掘主要方法 PageRank算法 HITS算法 PageRank算法 Web结构挖掘的应用 信息检索 社区识别 网站优化 Web日志挖掘 Web日志挖掘是从用户访问日志(包括搜索引擎日志等)中获取有价值的信息,即通过分析Web日志数据,发现访问者存取Web页面的模式。 理解用户的行为,改进站点结构,发现潜在用户,为用户提供个性化的服务,增强网站的竞争力。 隐私保护数据挖掘 数据挖掘可能会违反用户的隐私 在原始数据库中,类似于标识符、姓名、地址和喜好等数据作为用户的隐私应该被保护。 对用户的敏感的原始数据进行变换,以便数据的使用者不能对用户的原始数据进行查看,以此保护用户的私有数据。 知识 WWW Web挖掘类 项目 Web内容挖掘 Web结构挖掘 Web日志挖掘 处理数据 类型 IR方法:无结构数据、半结构数据 Web结构数据 用户访问Web数据 主要数据 自由化文本、HTML标记的超文本 Web文档内及文档间的超链 Serverlog, Proxy serverlog, Client log 表示方法 词集、段落、概念、IR的三种经典模型 图 关系表、图 处理方法 统计、机器学习、自然语言理解 机器学习、专有算法 统计、机器学习、关联规则 主要应用 分类、聚类、模式发现 页面权重 分类聚类 模式发现 Web站点重建,商业决策 IP Address Time/Date Method/URI Referrer Agent 15:30:01/2-Jan-01 GET Index.htm /link.htm Mozilla/4.0(IE5.0W98) 15:30:01/2-Jan-01 GET 1.
您可能关注的文档
最近下载
- 三一EBZ200悬臂式掘进机使用说明书.pdf VIP
- 教学能力比赛-教学实施报告(基础会计).pdf VIP
- 古典文献学第十章 文献的整理 : 校勘与辨伪.ppt VIP
- 学校食堂供应商评价表(参考模板).doc VIP
- 2025年广东省广州市初中学业水平考试英语试题.docx VIP
- 禁毒教育知识培训.pptx VIP
- JB-QB-FS5101火灾报警控制器_使用说明书.pdf
- 2025上半年中级软件水平考试《网络工程师(综合知识)》新版真题卷(附详细解析).docx VIP
- 新人教版小学六年级数学上册教学课件(全册).pptx VIP
- 中小学校教师师德师风专题培训讲座PPT课件.pptx VIP
文档评论(0)