关于WEB一些知识.docVIP

下载本文档

2
0
约2.11万字
约 12页
2016-08-05 发布于安徽
举报
版权申诉

关于WEB一些知识.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于WEB一些知识.doc

Web挖掘是数据挖掘在Web上的应用，它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域，是一项综合技术。　　?Web内容挖掘。Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘，从Web文档内容及其描述中的内容信息中获取有用知识的过程。　　同时还可以对Web的组织结构和链接关系进行挖掘，从人为的链接结构中获取有用的知识。由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。　　?Web使用记录挖掘。Web使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该站点上的浏览者的行为模式，获取有价值的信息的过程。　　如何实现Web挖掘　　Web挖掘发展自数据挖掘。数据挖掘方法通常可以分为两类：一类是建立在统计模型的基础上，采用的技术有决策树、分类、聚类、关联规则等；另一类是建立一种以机器学习为主的人工智能模型，采用的方法有神经网络、自然法则计算方法等。　　1.Web内容挖掘实现技术　　Web上的内容挖掘多为基于文本信息的挖掘，它和通常的平面文本挖掘的功能和方法比较类似。利用Web文档中部分标记，如Title、Head等包含的额外信息，可以提高Web文本挖掘的性能。　　?文本总结。文本总结是指从文档中抽取关键信息，用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩，给出它的紧凑描述。这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容。　　?文本分类。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型，即通常所说的分类器。　　?文本聚类。文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次凝聚法和平面划分法两种类型。　　?关联规则。发现关联规则的算法通常要经过以下三个步骤：连接数据，作数据准备；给定最小支持度和最小可信度，利用数据挖掘工具提供的算法发现关联规则；可视化显示、理解、评估关联规则。　　2.Web使用记录挖掘实现技术　　在挖掘Web用户使用记录时描述用户访问的数据包括：IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。　　发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析，包含两种方式：一是先进行预处理，即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据；二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。　　能挖到什么　　? 获取竞争对手和客户信息。Web不仅由页面组成，而且还包含了从一个页面指向另一个页面的超链接。一个Web页面的作者建立指向另一个页面的指针，就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来，就可以用来反映该页面的重要性，并可以很自然地用于权威页面的发现。另外一种重要的Web页面是一个或多个Web页面，它提供了指向权威页面的链接集合，称为Hub。Hub页面本身可能并不突出，或者说可能没有几个链接指向它们，但是 Hub页面却提供了指向就某个话题而言最为突出的站点的链接。通过分析这类信息，企业可以获得零售商、中间商、合作商以及竞争对手的信息。　　? 发现用户访问模式。通过分析和探究Web日志记录中的规律，可以识别电子商务的潜在客户，提高对最终用户的服务质量，并改进Web服务器系统的性能。 Web日志记录数据库提供了有关Web动态的，基于URL、时间、IP地址和Web页面内容的丰富信息，对它们进行分析，有助于发现潜在客户、用户和市场,有助于聚类用户并将用户分门别类，以实现个性化的市场服务。　　?反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。Web站点是企业与外界进行交流的窗口，同时也是竞争对手获取竞争情报的一个重要信息源。在竞争情报计算机系统中，可以充分利用Web挖掘技术，通过运用分析访问者的IP地址、客户端所属域、信息访问路径，统计敏感信息访问率等方法识别竞争对手，保护企业敏感性信息。,Web挖掘是数据挖掘在Web上的应用，它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息，涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域，是一项综合技术。,　　?Web内容挖掘。Web内容挖掘是指对Web页面内容及后台交易数据库进行挖掘，从Web文档内容及其描述中的内容信息中获取有用知识的过程。,　　同时还可以对Web的组织结构和链接关系进行挖掘，从人为的链接结构中获取有用的知识。由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。利用