Web挖掘基础 提纲 Web挖掘的概念 Web内容挖掘 Web结构挖掘 Web日志挖掘 Web 挖掘的挑战 Web数据量太庞大:Server Level Collection、Client Level Collection和 Proxy Level Collection ?Web数据的复杂性高于传统的文本文档 Web是一个动态性极强的信息源 Web面对的是一个广泛的用户群体 Web上的信息只有很小的一部分是相关的或有用的 Web挖掘与IR Web上的IR是Web挖掘的一个方面,仅是对信息有序化。 Web挖掘是智能化的IR,IR出现早,技术成熟。 Web挖掘概念 Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:C→P 。 Web挖掘主要处理文本、图形和图像等半结构、非结构化的数据,这些数据分布在Web文档、Web服务器的日志、用户cookies等 。 Web挖掘分类 Web内容挖掘 基于网页内容或其描述中抽取知识的过程。 Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。 日志的预处理 Web文本挖掘 Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。 Web文本挖掘的方法 文本
您可能关注的文档
- “3G手机支付卡”项目公关传播策略.ppt
- “爱一触即发”活动推动举措.ppt
- “嘉年华”金穗节日卡1金融投资经管营销专业资料.ppt
- “沟通100”品牌传播策略.ppt
- 《飞越足球杂志》68com球运通对七匹狼体育用品2006年广告投放方案.ppt
- 《购物策略》上课课件2.ppt
- 《广告理论与策划》第十一章:影视广告的设计制作.ppt
- 《师说》实用金融投资经管营销专业资料.ppt
- 3d人生规划模板.ppt
- 101种教学策略思维导图课件.ppt
- 企业规避缴纳社保的十大风险.docx
- 北师大版小学五年级数学上册教学计划.docx
- CN119747672A 等离子旋转电极雾化设备的自动进给及工艺调整控制方法 (信为(深圳)新材料有限公司).pdf
- CN119747618A 一种高硅铝合金流变压铸装置及方法 (湖南文昌新材科技股份有限公司).pdf
- CN119748059A 一种ta15钛合金耐压壳体及其制备方法 (西安超晶科技股份有限公司).pdf
- CN119747661A 一种自润滑模具导向板及其制备方法 (西安交通大学).pdf
- CN119748539A 线号机的切割控制方法、装置、线号机及计算机存储介质 (武汉精臣智慧标识科技有限公司).pdf
- CN119747549A 一种大型复杂tc18钛合金的锻造方法 (陕西宏远航空锻造有限责任公司).pdf
- CN119746996A 一种核苷酸饲料高效节能粉碎设备及粉碎方法 (山东中裕建信生物技术有限公司).pdf
- CN119746969A 一种基于液滴分裂融合的微流控芯片及其制作方法 (桂林电子科技大学).pdf
原创力文档

文档评论(0)