- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电子商务与数据挖掘 基于WEB日志的用户访问模式挖掘 电子商务与数据挖掘——完美结合 在电子商务中进行成功的数据挖掘得益于: 电子商务提供海量的数据 如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是160万次。 丰富的记录信息 良好的WEB站点设计将有助于获得丰富的信息 干净的数据 从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合 研究成果容易转化 在电子商务中,很多知识发现都可以进行直接应用 投资收益容易衡量 电子商务为数据挖掘提供海量数据 “点击流”(Clickstreams)将会产生电子商务挖掘的大量数据 Yahoo!在2000年每天被访问的页面数是10亿,如此大的访问量将会产生巨大的Web日志(记载页面访问的情况),每个小时产生的Web日志量就达到10GB! 即便是一个小的电子商务站点,也会在断时间内产生进行数据挖掘所需的大量数据 计算一下,如果你的站点一个小时卖出5件物品,一个月会有多少页面访问: 5件×24小时×30天/%2(转化率,表示访问的人中买东西的人的比率)×9页面(平均买一件物品要访问9个页面)=1,600,000页面 丰富的记录信息 如果你的电子商务站点设计的好,你将可以获得各种商务的或者是用户访问的信息: 商品和商品的属性 商品的归类信息(当同时展示多种商品是,归类信息是非常有用的) 促销信息 关于访问的信息(比如:访问计数) 关于客户额信息 (可以通过登陆/注册来获得) “干净的数据” 信息直接从网站上提取 无需从历史系统中集成,避免很多错误 可以通过良好的站点设计,直接获得跟数据挖掘有关的数据 而不是再来分析、计算、预处理要用的数据 直接收集的电子数据——可靠 无需人工数据输入,避免了很多错误 可以通过良好的站点设计,良好的控制数据采样的颗粒度 颗粒度控制在客户级别或者是session级别,而不是页面级别 有趣的“生日现象” 一个银行通过对客户数据统计发现,它的5%的客户都是在同一天出生的(同年同月同日)! 为什么? 如何解释? 研究成果容易转化 历史上的数据挖掘研究有过许多的知识发现,但是这些知识发现却很少在实际的商业应用中产生什么效果 要应用这些发现的知识可能意味着要进行复杂的系统更改、流程更改或是改变人们的办事习惯,这在现实中是非常困难的。 在电子商务中,很多知识发现都可以进行直接应用 改变站点的设计(改变布局,进行个性化设计等) 开始有目标的促销 根据对广告效果的统计数据改变广告策略 可以很容易的提供捆绑销售 投资收益容易衡量 使用数据挖掘成果的革新带来的收益如何衡量? 在传统的商业中衡量投资收益需要长期的测量和观察,Paco Underhill在《购物的科学》一书中提及,一个超市为了衡量他们的促销策略带来的投资收益,每年要花14,000个小时查看录像带。 在电子商务中,衡量革新的投资收益是非常容易的 销售变化的报表可以自动产生 客户对电子邮件和电子调查的反馈都可以在几天内得到,而不必等个几个月 电子商务乃至整个互联网都是传统商业的理想试验室。 对电子商务网站的Web数据挖掘 通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。 我们可以在一个电子商务网站挖掘些什么东西? 内容挖掘 (Web Content Mining) 结构挖掘 (Web Structure Mining) 使用挖掘 (Web Usage Mining) Web Content Mining 对Web页面内容进行挖掘,从Web数据中发现信息。 自动地从数以百万计的Web站点和在线数据库中搜索和获取信息和资料; 尽管人们可以直接从网上通过抓取建立索引,实现检索服务来获得资源,但是大量的“隐藏”信息只能通过内容挖掘来自动挖掘。 Web Structure Mining Web Structure Mining是对Web页面之间的结构进行挖掘。 在整个Web空间,有用的知识不仅包含在页面的内容中,而且也包含在页面的结构中。 Web结构挖掘主要针对的就是页面的超链接结构,如果有较多的超链接指向它,那么该页面就是重要的,发现的这种知识可用来改进搜索路径等。 Web Usage Mining 与Web Content Mining和Web Structure Mining不同的是,Web Usage Mining的挖掘对象是用户和网络交互过程中抽取出来的二手数据,这些数据主要是用户在访问Web时在Web日志里留下的信息,以及其它一些交互信息, 日志信息包括访问日期、时间、用户IP地址、服务器IP地址、方法、所请求URL资源、服务器响应状态、用户代理、发送字节等。 Web Usage Mining就是对系统日志信息,以及用户的注册数据等进行挖掘,以发现有用的模式和知识。 Web
文档评论(0)