- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于电子商务网站WEB内容挖掘
基于电子商务网站WEB内容挖掘
[摘要] 随着网络技术的迅速发展,电子商务行业正处以一个高速发展的时期,各类商务网站也应运而生。如何从繁多的商务网站数据中获得有用的信息就成了一件亟需解决的问题。本文分析了Web内容挖掘在电子商务网站中的应用以及如何获得数据源。
[关键词] 电子商务网站 Web内容挖掘 数据源
一、引言
对于电子商务网站来说,Internet上储存了大量的文档、图像、声音等非结构化的数据及信息,并且用户群体也显示出多样性,也就是说每个浏览网站的人,他们的需求、兴趣以及浏览目的各不相同。一个稍具规模的电子商务网站每天处理的业务成千上万,那么如何从这些数据中找到有用的信息,帮助电子商务的经营者和研究者从海量的Web数据中得到真正有价值的信息,以指导他们做出管理上的决策。就是一个非常重要而有意义的事情。
二、爬虫和Web内容挖掘
1.Web挖掘的典型分类
在目前的研究中, Web数据挖掘分为:Web内容挖掘(Web content mining)、Web使用(访问信息)挖掘(Web usage mining)、Web结构挖掘(Web structure mining)三种典型的类型。
(1)Web内容挖掘主要是对站点的Web页面内容进行挖掘。目前,大多数研究主要集中在如何对网站上的文本以及多媒体数据进行分类以提高数据挖掘的有效性,很少涉及到如何从网站上进行数据的采集以及分析。
(2)Web结构挖掘主要是对Web文档的结构进行挖掘,通过一定的算法来发现给定的Web文档之间的链接情况,从而得到比较重要的页面,以向浏览网站的用户提供权威页面。
(3)Web使用(访问信息)挖掘主要是对用户访问Web时在服务器方留下的访问记录,也就是用户访问Web站点的存取方式进行挖掘。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式。目前流行的挖掘手段主要包括:路径分析、关联规则和序列模式的发现、聚类和分类等。
2.Web挖掘的数据源
在Web数据挖掘中存在几种代表性的数据源:
(1)服务器日志数据。个人浏览Web服务器时,在服务器那方就会产生3种类型的日志文件:Server logs,Error logs和Cookie logs,这些日志文件主要是用来保存用户访问的基本情况。所以就成为开展Web使用(访问信息)挖掘的主要数据源。但有一点需要注意的是,这些数据是在服务器方生成的,因此有一定的不可获取性,因为这会涉及到商业机密。
(2)在线市场数据。这类数据主要是跟市场活动有关的信息。在线市场数据是业务数据,是进行业务相关分析的主要数据源。
(3)Web页面。目前的Web页面大多满足HTML标准。HTML页面中包含文本和多媒体信息,例如图片、图像、语言等,因此涉及到数据挖掘领域中的文本挖掘和多媒体挖掘,目前很多研究都在致力于如何对文本和多媒体信息进行挖掘的算法分析。
(4)Web页面超链接关系。Web页面之间的超链接关系是一种重要的资源,网站的设计者总是把他们认为重要的页面添加到自己的页面上来。
(5)其他数据。除了上述几种重要的数据源外,还有一些其他方面的数据,比如用户注册信息等一系列信息。
当然,在实际的Web数据挖掘中这些数据源并不是孤立使用的,而是几种数据源的综合使用和分析,例如我们要对访问某个电子商务网站的用户购买商品的路径分析的同时还需要知道这些客户群的一些基本信息。
3.爬虫和Web内容挖掘
由于上述的几种数据源中有一些是在服务器方生成的,比如说日志文件和用户注册信息,并且涉及到商业机密问题,所以在数据源的获得上存在一定的难度。这里,我们可以利用爬虫(Crawler)的工作原理,来作为我们进行Web内容挖掘的一种信息获取和分析的工具,得到我们需要的数据源。
(1)爬虫的工作原理。爬虫(Crawler)是一个用来分解Web中超文本结构的工具。一个商业网站的Web页面是通过超链接的关系存在的,就组成了类似一张张的网。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
(2)数据的获得。我们就可以利用上述爬虫的工作原理,从我们需要的信息起始页开始进行爬取数据,得到与之有关的大多数Web页面上的信息。
(3)数据的分析。在对链接页面进行搜索的过程中,经常需要判断信息的属性或分析信息的价值,因为Web页面上存储了浩瀚的数据,比如一些
您可能关注的文档
最近下载
- 2025年台湾AI行销趋势报告(繁体版)-Kolr.docx VIP
- 湖北办公楼监控及电子围栏系统施工组织设计.doc VIP
- 围栏(施工组织设计围栏(施工组织设计).doc VIP
- 2024年台湾YouTube年度社群内容趋势报告(繁体版)-Kolr.pptx VIP
- 诺尔起重设备(中国)有限公司RTG&RMG中国福建招商局漳州开发区363105.pdf VIP
- 小区沥青道路设计做法.doc VIP
- 2025年台湾AI行销趋势报告(繁体版)-Kolr.pdf VIP
- 防雷安全知识试题及答案.doc VIP
- 智能体协议:MCP、A2A、ANP-智能体互联网的黎明之前.docx
- 国有企业收购合同协议.docx VIP
文档评论(0)