Web挖掘技术在竞争情报活动中应用浅析.docVIP

下载本文档

3
0
约2.91千字
约 7页
2018-08-11 发布于福建
举报
版权申诉

Web挖掘技术在竞争情报活动中应用浅析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web挖掘技术在竞争情报活动中应用浅析

Web挖掘技术在竞争情报活动中应用浅析　　[摘要]网络环境下竞争情报的获取已经成为企业提高自身竞争力的一个重要的途径与来源。Web挖掘作为一种有效的技术工具，也开始在竞争情报活动中逐渐得以推广与应用。本文主要就对web挖掘及其在竞争情报活动中的实现进行了简单介绍。　　[关键词]web挖掘竞争情报　　中图分类号：TP3文献标识码：A文章编号：1671－7597 (2008) 0110046－01 　　　　一、竞争情报活动中web挖掘的必要性　　　　随着经济全球化和全球信息化的逐渐深入，我国企业发展也面临巨大的挑战。在激烈的市场竞争中，企业只有明确自己所处的国内和国际环境，掌握竞争对手信息，制定准确的竞争战略，才能使企业立于不败之地。互联网的出现，为企业开展竞争情报工作提供了巨大的信息源。要想提升企业竞争力，企业竞争情报的搜集范围，相应的就应该扩展到Internet上来。　　Internet上竞争情报源由于其数量巨大且获取成本相对较低，目前它已经成为企业获取竞争情报的一个重要途径。但是，我们同时也要意识到，不同于一般的竞争情报源， Internet竞争情报源的内容更为复杂，此外，它还具有开放性、异构性、动态性、半结构化、非结构化的特点。因此，这就需要我们寻求一种新的情报处理和分析工具，协助企业对大量散布在互联网上的数据进行深层分析，就像从矿石中淘金一样，获得有利于商业运作、提高竞争力的信息，这就是web挖掘。　　　　二、Web挖掘的分类　　　　web挖掘是一门综合技术，涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。依据挖掘对象的不同，web挖掘又可以分为以下三个方面：　　（一）web内容挖掘。Web内容挖掘是一种基于网页内容的web挖掘。是从大量的web数据中发现信息、抽取知识的过程。这些数据既有文本数据，也有图像、声频、音频等多媒体数据，既有来自于数据库的结构化数据，也有用HTML标记的半结构化数据和无结构的自由文本。　　（二）web结构挖掘。Web结构挖掘是从www的组织结构和连接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接数量以及对象，建立web自身的连接结构模式。这种模式可以用于网页归类，并且可以由此获得不同网页间相似度和关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点，并且可以指向众多权威站点的相关主题站点。　　（三）web使用挖掘。除了web内容和web链接结构以外，web挖掘的另一个重要任务是对web使用记录进行挖掘。Web内容挖掘和web结构挖掘的对象是网上的原始数据，而web使用记录的挖掘则与此不同，它面对的是在用户和网络交互的过程中抽取出来的第二手数据。它通过挖掘web日志记录和相关数据，从而发现用户访问web页面的模式。　　　　三、Web挖掘技术研究　　　　（一）Web内容挖掘实现技术。Web内容挖掘主要体现为对web文本的挖掘，包括对文本内容的总结、分类、聚类机关联分析等。1.文本总结。其目的是对文本信息进行浓缩，给出它的紧凑描述。文本总结是指从文档中抽取关键信息，用简洁的形式对文档内容进行摘要或解释。这样，用户不需要浏览全文就可以了解文档或文档集合的总体内容。2.文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型，即通常所说的分类器。分类器一般分为训练和分类两个阶段。3.文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别，即“物以类聚”。4.关联规则。关联规则模式数据描述型模式，发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤：连接数据，做数据准备；给定最小支持度和最小可信度，利用数据挖掘工具提供的算法发现关联规则；可视化显示、理解、评估关联规则。　　（二）用户使用记录挖掘实现技术。在挖掘Web用户使用记录时描述用户访问的数据包括：IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。　　发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析，包含两种方式，是访问前先进行预处理，即将日志数据映射为关系表并采用相应的数据挖掘技术，如关联规则或聚类技术来访问日志数据；二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。　　　　四、Web挖掘在竞争情报系统中的应用　　　　（一）利用Web挖掘获取、开发和利用竞争对手和客户的信息。从Web挖掘技术的实现流程来看，W