网站大量收购闲置独家精品文档,联系QQ:2885784924

第九讲(数据挖掘一个重要应用:电子商务和数据挖掘).ppt

第九讲(数据挖掘一个重要应用:电子商务和数据挖掘).ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
模式分析 在挖掘出一系列用户访问模式和规则后,还需要进一步观察评估发现的规则、模式和统计值。 确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型。 经过模式分析得到有价值的模式,即我们感兴趣的规则、模式,采用可视化技术,以图形界面的方式提供给使用者。 思考: 除了用户访问模式,电子商务中还能挖掘其他什么信息? 基于Web日志的用户访问模式挖掘有什么缺点? Beyond Web Logs 数据挖掘的一个重要应用 ---------电子商务与数据挖掘(2) WEB日志挖掘的不足 WEB日志提供的数据非常有限(Web日志是为了监控服务器的运行状况而设计的,不是为了数据挖掘),即使使用的是扩展日志格式(ECLF),其信息如下: 主机名 Time Request, e.g., 一个网页的URL Referrer User agent (浏览器及版本号) IP 地址 Cookie 字节数和状态位等等 ... 网页上都有什么? WEB日志的设计目的是分析WEB服务器的运行状况,而不是挖掘电子商务的交易数据和点击流 虽然Web日志中给出了被访问页面的URL,但是这并不等于知道了该URL所指向的网页内容。 给定一个URL,能不能提取出上面有什么?其对数据挖掘而言,远远不足。 /computers/common/info.asp?id=12177 要自动提取出关于这个网页所描述的产品的信息,像作者、版本、出版日期就更加困难了 动态内容 随着互联网上的动态内容越来越多,基于WEB日志的分析与挖掘就越来越困难了 同样的URL将会连接到不同的内容 在动态站点,URL往往会很长很复杂而实际所指的内容却是在应用服务器的session上 /American?BV_EngineID=dealikcjfekgbfdmcflmcfkhdgfh.7BV_Operation=Dyn_RawSmartLinkBV_SessionID=%40%40%40%400822617159.0968100982%40%40%40%40form%25destination=indexmember.tmplBV_ServiceName=American 个性化的内容(比如:推荐的捆绑销售内容),基本上无法通过Web日志来进行重构 总之,动态模式的出现对WEB日志的使用模式挖掘是一个很大的挑战。 重构session的困难 一个Session代表着一次用户和网站之间的连接,从Web日志中的多个用户的requests中重构每个用户的session是困难的 由于HTTP是无状态的,因此通过Web日志重构session只能依赖于假设与推断,而且用于假设与推断的数据也少得可怜,包括三个部分: IP地址 Cookies 浏览器类型 商业事件 对用户“点击流”事件的考察,最终必须定位到“商业事件”,即将一个点击(或请求)的集合转化为一个逻辑上有意义的事件或商业细节。 一些对数据挖掘很重要的商业相关事件无法由Web日志来决定,包括: 购物中哪些东西添加到购物车,哪些又被抛弃了 购物车中物品数量的增减其所对应的URL中不显示,而是动态链接后台数据库才知道的 网页上的促销信息都是动态的,显示在后台数据库中 当时显示的“没有库存”的商品同样显示在后台数据库 表单数据 检索——关键字以及没有找到内容的关键字,同样无法进行Web日志进行重构 示例——关键字检索 在一个销售运动器材的电子商务网站,排名前10的检索关键字为: 篮球 录像 足球 排球 乒乓球 音乐 书 海报 扑克 手套 红色字体显示的关键字都有些什么共同特点? 失败的检索 红色字体显示的关键字都是没有检索结果的关键字!(这些信息非常重要!) 有些关键字可能是因为用词不正确 有些却传达了一种强烈的暗示:这个网站都还应该卖些什么东西 而Web日志却没有足够的信息让我们来挖掘、提取出哪些关键字检索失败了 在实际的电子商务网站中,11%的检索没有返回任何结果! 将Web日志中的内容映射到数据库 从Web日志中提取一个URL请求,如何才能: 将这个请求映射到在你的数据库中注册过的一个客户? 决定这是这个客户的第几次访问? 决定这个客户是否曾经购物? 由事后来决定上述信息是极端困难的 要想由一系列的请求来重构一个用户的购物过程就更加困难了 在电子商务中该挖掘什么? 用点击率和访问量来决定一个站点成功与否,就好像用音量来决定音乐美妙与否。 -- Forrester Report, 1999 对电子商务站点而言,只有转化率(购物者与浏览者之间的比率)才是最重要的指标(赚钱) 对广告链接而言,更是如此 给出一个指向你的广告的HTTP请求,你怎么决定该HTTP请求是否会带来一个销售? 结论 现在流行的基于Web日志的数据挖掘并不是一个很好的选

文档评论(0)

js1180 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档