基于XML的Web挖掘技术在电子商务中的应用研究.docVIP

下载本文档

1
0
约3.8千字
约 6页
2018-03-16 发布于北京
举报
版权申诉

基于XML的Web挖掘技术在电子商务中的应用研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML的Web挖掘技术在电子商务中的应用研究　　摘要:该文重点探讨了基于Web的数据挖掘问题,成分利用XML将非结构化的HTML文档转换、组织成结构化的XML文档,并开展有效的数据挖掘处理,然后在一个电子商务网站上进行了初步尝试。　　关键词:数据挖掘;XML;Web;HTML;电子商务　　中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)33-9562-02 　　电子商务作为一种新兴的事物,随着Internet的迅速发展和应用的深入,从最初的B2C(企业-个人)模式发展到目前的B2B(企业-企业)、C2C(个人-个人)、G2B(企业-政府)等不同的模式。电子商务的迅速崛起,使得商家对基于Internet的Web数据检索、挖掘等的需求不断提高。　　目前,多数的Web站点,普遍由静态的或动态的HTML页面组成,使得这种Web文档只具有有限的结构性,因而要想利用分析工具准确、高效地进行数据挖掘和分析还比较困难。而XML的出现,则对基于Web的数据挖掘带来了新的挈机。可利用XML作为元标记语言的特性,用户只要在XML的文档类型定义中定义一系列有意义的标记,就可以实现对Web上大部分非结构化文档的内容进行有效的总结、分类、组织,从而实现与关系型数据库中的属性建立对应关系,这样,Web上的数据挖掘也就变得可行了。　　1 XML与Web数据挖掘技术　　1.1 Web数据挖掘技术　　基于Web的数据挖掘就是从Internet上庞大、复杂、异构的数据中发现隐含的规律性的东西或者是特定的精确的数据。Web挖掘也不同于一般的信息检索,它是从大量的文档集合中找出所具有的结构、趋势和含义,而Web信息检索则是从大量的Web文档中找到与给定主题相关的文档,而且建立索引模型、文档内容表示、匹配策略等技术基础上的搜索引擎,搜索的精确度仍然不够高,远远不能满足那些只希望检索到精确数据的用户的要求。而Web挖掘则可以对大量的文档、数据重新进行整理、分析和组织,可以按照用户特定的要求给出结果,因而比单纯的信息检索更进一步,是未来技术发展的趋势。　　按照处理对象的不同,Web挖掘可分为:内容挖掘、结构挖掘和使用记录挖掘。其中,内容挖掘是从Web文档的内容中抽取信息特征,这些文档可以是文本和多媒体文档,包括文本、HTML、图象、音频、视频等形式;结构挖掘是从Web文档的组织结构和链接关系中推导知识,这些结构不仅仅局限于文档之间的超连接,还包括文档内部的结构、文档URL中的目录路径结构等;使用记录挖掘则是从Web的访问记录中抽取感兴趣的模式。　　1.2 XML应用于Web挖掘的优势　　与HTML相比,XML有了很大的飞跃。XML出色之处在于它不再是一个单纯的标记语言,而是一个定义语言。HTML每个只能定义某一种文件,而XML突破了HTML固定标记集合的约束,可以定义无穷无尽的标记来描述Web中的任何数据元素及其结构,从而组成一个完整的信息体系,使文件的内容更丰富更复杂更结构化。而且,在兼容性方面, HTML规范的文件可以转换成XML格式文件,普通的SGML文件也可以转换成XML文件。由于XML能针对特定的应用定义自己的标记语言,这使得XML可以在电子商务、政府政务、企业及中介组织的信息交换中得到广泛的应用。　　目前,许多主流的数据库厂商都在把XML支持结合到其产品中,或者提供可在其数据库中使用XML的工具。如IBM提供了XML Extender for DB2,允许用户在DB2中存储XML文档,并提供一些新功能协助用户处理XML文档;Microsoft 的SQL Server 6.5和7.0也进行了XML扩充用以向其他系统传送信息。　　1.3 基于XML的Web挖掘过程　　如果Internet上的Web站点都由XML实现,以XML作为信息发布与交换的主要媒介,那么,Web这个巨大的异构数据库中的XML文档就可以很容易地与关系数据库中的属性一一对应起来,从而方便地实现精确检索和进一步的Web挖掘。　　在目前多数的Web站点仍由静态的或动态的HTML页面组成的情况下,虽然每个站点的开发自行其是,而且数据本身还存在着自我描述性和动态可变性,但由于XML作为可以定义语言的语言,能够把不同来源的数据结合在一起, 从而使得Web上大量非结构化的数据变成了进行挖掘的宝藏。　　Web挖掘的过程由以下三步完成: 　　1)Web信息数据的获取。对Web数据源进行搜索,获取必要的信息。　　2)Web信息的转换。将搜集到的HTML文档进行抽取,转换为结构化的XML文档,生成相应的DTD文档或者XML Schema,同时进行分类,并选择合适的数据库进行存储组织。其核心是如何将非结构化文档进行结构化处