- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[经济学]第9章:案例:电子商务数据挖掘改
Web数据到底挖掘什么? 用点击率和访问量来决定一个站点成功与否,就好像用音量来决定音乐美妙与否。 -- Forrester Report, 1999 对电子商务站点而言,只有转化率(购物者与浏览者之间的比率)才是最重要的指标 对广告链接而言,更是如此 给出一个指向你的广告的HTTP请求,你怎么决定该HTTP请求是否会带来一个销售? Forrester Report 结论 现在流行的基于Web日志的数据挖掘并不是一个很好的选择 电子商务中蕴涵有的数据,远比Web日志中所提供的内容要多 两种比Web日志更好的数据收集方法: Packet sniffer 在应用服务器层收集数据 Packet Sniffer Packet sniffer通过侦听从Web服务器发送的数据包来获得跟电子商务相关的数据。 优点 可以获得比Web日志中更多的信息 不需要改动现有的应用架构 缺点 在识别用户和session方面还是有困难 逻辑信息提取困难 无法探测到加密的信息,比如使用SSL协议传送的信息,而实际应用中,一些关键信息,像用户登陆,登出,用户信息传送都常常使用SSL协议 多层应用框架(J2EE/EJB) 应用服务器层数据收集 应用服务器层数据收集可以克服Web日志和Packet sniffer的缺点,对用户的访问数据做全面的收集和解析。 应用服务器端可以得到返回给用户的所有内容 应用服务器使用cookie技术(或者是URL编码技术)来记录一个用户的session 应用服务器通过用户登陆机制来锁定一个用户,因而可以将每个点击定位到用户 需要将数据收集机制和应用服务器端相集成 电子商务中进行数据挖掘的几个难点 爬虫/机器人 大量数据的处理 分析前的数据变换 提供市场级的决策支持 网络爬虫/机器人 网络爬虫/机器人是自动访问你的站点的程序 搜索引擎使用的爬虫(√ ) 购物机器人(√ ) IE离线浏览器(√ ) E-MAIL搜索者(×) 一些PERL脚本(×) 为了对客户行为作出准确研究,必须过滤掉爬虫/机器人的访问 30%的session是由网络爬虫/机器人造成的 有些网络爬虫/机器人会故意将自己隐藏起来 数据变换 在电子商务中进行数据挖掘时,有时70%以上的数据分析时间都消耗在数据变换上 改善数据变换的方法: 自动的将站点上的数据传送到数据仓库中 提供良好的数据转换用户界面 为常见的数据转换问题定制一些工具 提供市场级的决策支持 你花费了大量的时间来 收集数据 构建数据仓库 数据变换 建模分析... 最后将你的结果交给了用户... 这个具有237个维的数据立方体到底是什么东西? 总结: 9.1 电子商务与数据挖掘 9.2 数据预处理 9.3 模式挖掘 主机名TimeRequest, e.g., 一个网页的URLReferrerUser agent (浏览器及版本号)IP 地址Cookie字节数状态位等等 ... 扩展日志格式(ECLF): 附:Web日志其它一些实例 - - [01/Aug/1995:00:01:38 -0400] GET/shuttle/missions/sts-71/images/images.html HTTP/1.0 200 8529 5 - - [01/Aug/1995:00:01:39 -0400] GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0 200 3804 80 - - [01/Aug/1995:00:01:48 -0400] GET /persons/nasa-cm/jmd.html HTTP/1.0 200 4067 9.2 数据预处理 通过预处理,使挖掘过程更有效、更容易 数据净化: 其目的在于把日志文件中一些与数据分析、挖掘无关的项清除掉; 比如剔除用户请求方法中不是GET的记录; 用户识别: 日志文件只是记录了主机或代理服务器的IP地址,要识别用户,需要Cookie技术和用一些启发规则来帮助识别; 路径补充: 确认Web日志中是否有重要的页面访问记录被遗漏; 事件识别: 事件识别是与要挖掘什么样的知识有关,将用户会话针对挖掘活动的特定需要进行事件定义。 数据预处理的功能 数据净化是指删除Web 服务器日志中与挖掘算法无关的数据,一般来说只有日志中HTML 文件与用户会话相关。 Web 日志文件的目的是获得用户的行为模式, 通过检查URL 的后缀,删除认为不相关的数据。 例如:将日志中文件的后缀名为GIF、J PEG、J PG等的图形文件删除。将后缀名为CGI 的脚本文件删除。具体到实际的系统就使用一个缺省的后缀名列表帮助删除文件。列表可以根据正在分析的站点类型进行修改。 过滤非法请求的页面:有些网
您可能关注的文档
- [经济学]生产企业出口退免税培训课件.ppt
- [经济学]生态学基础2010Unit3.ppt
- [经济学]电大专科会计学《经济数学基础》职业技能实训-50分钟完成、得分90分以上。.doc
- [经济学]电子商务安全第二章.ppt
- [经济学]电子商务概念.ppt
- [经济学]留学生在美国找工作的三大窍门.doc
- [经济学]社会主义市场经济概论导论.doc
- [经济学]社会保障学第03章_社会保障理论smm20110916.ppt
- [经济学]秘书心理学教案.ppt
- [经济学]章铮-论民工荒续080318.ppt
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)