基于互联网数据挖掘技术在竞争情报收集工作中应用.docVIP

下载本文档

2
0
约2.89千字
约 6页
2018-08-28 发布于福建
举报
版权申诉

基于互联网数据挖掘技术在竞争情报收集工作中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于互联网数据挖掘技术在竞争情报收集工作中应用

基于互联网数据挖掘技术在竞争情报收集工作中应用　　摘要本文主要提出了一个将数据挖掘技术应用到基于互联网的竞争情报收集子系统的框架，这个框架可以让Internet竞争情报收集工作变的有条不紊。　　关键词数据挖掘；WEB挖掘；竞争情报　　中图分类号TP311 文献标识码A 文章编号 1674-6708（2011）37-0231-02 　　1 Internet情报收集子系统概述　　一个企业要进行竞争情报的研究，应该建立自己的基于网络环境的竞争情报系统――竞争情报网络系统是围绕企业的经营战略目标，以现代信息技术（尤其是网络技术）为主要手段，对企业内部和外部的竞争要素，竞争环境以及竞争对手的信息进行收集、存储、处理与分析研究的新一代综合性网络系统。系统有3部分组成：竞争情报收集子系统、竞争情报分析子系统和竞争情报服务子系统。竞争情报收集子系统是根据事先确立的情报课题，收集、整理各种信息，初步筛选，同时作好文件、记录等资料的保管及定期归档工作。竞争情报分析子系统是应用恰当的分析方法与技术，深入分析竞争情报收集子系统的信息，生产竞争情报产品。竞争情报服务子系统是以各种适当的方式包装竞争情报产品，及时将产品传送到情报用户手中去，并为企业决策层提供快捷的浏览、查询服务和情报服务。以企业现有技术和信息资源为核心，以网络为基础的现代竞争情报系统共分3个层次：第一个层次是企业内部网。它利用Internet技术把企业内部所有的信息资源集成起来，把各子公司、各部门联系起来，实现企业内部的信息共享与协同作业；第二层次是企业外联网，它将Internet技术应用于企业间的信息系统，把与企业有业务合作关系的交易伙伴、合作对象、相关公司以及主要客户连成一体；第三层次是因特网，它是覆盖全世界范围的网络，通过它可以使国内外企业、远程用户、异地资源得以联合，实现资源共享，沟通合作。　　2 数据挖掘技术在Internet情报收集子系统的应用　　2.1 公共信息挖掘系统　　随着Internet的迅速发展，在Internet上储备了大量的信息，这些信息是零散的分布在全球的各个位置上，也就是分布在各个不同的计算机服务器上，那么我们如何来更好的找到并利用这些信息，成为了竞争情报工作中一个非常重要的课题研究。竞争情报工作除了要挖掘自身门户网站的知识，Internet上的各种各样的公共信息的利用同样也不容忽视。公共信息挖掘系统就是企业通过在Internet上免费的信息获得有价值的信息的系统。通过查阅大量的资料提出一个公共信息挖掘系统的模型如图1。　　　　图1 公共信息挖掘系统模型图　　WEB上的数据与传统的数据库中的数据不同，传统的数据库都有一定的数据模型，可以根据此模型来具体描述特定的数据。而WEB上的数据非常复杂，没有特定的摸模型描述，每一站点的数据都各自独立设计，且数据本身具有自述性和动态可变性。传统数据挖掘技术是用来处理保存在数据库中的结构化数据，但是Internet上的大量数据都是半结构化和非结构化。因此，要在竞争情报工作中充分利用Internet的信息，数据由非结构化和半结构化转化为结构化形式是关键，从而就涉及到情报检索和WEB挖掘两个领域的研究。　　2.1.1 元搜索引擎　　搜索引擎按其工作方式主要可分为3种，分别是全文搜索引擎目录索引类搜索引擎和元搜索引擎。元搜索引擎，被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求，由于元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将所有查询结果经过处理后集中起来以整体统一的格式呈现到用户面前。由于采用了一系列的优化运行机制，能够在尽可能短的时间内提供给搜索者相对全面、准确的信息，能够更好的满足搜索者的需要，但显示给搜索者的信息也是不能达到100%，可以通过扩展调用多个搜索引擎来提高搜索的全面性。值得推荐的元搜索引擎有Dogpile、InfoSpace、Vivisimo等。为了在大范围的检索中取得较好的效果，本模型采用元搜索引擎。　　2.1.2 WEB结构挖掘（链接分析）　　目前的大多数搜索引擎在进行分类的时候都是利用内容的相关性进行排序的，所谓的内容相关性排序就是根据网页的内容进行分类，处理的办法一般是进行分词、词频统计，根据统计的结果进行分类和进行相关性排序。这样的分类不能反映人们对该网页内容的分析与看法，缺乏一定的主观性。在使用元搜索引擎技术后，调用己有的搜索引擎，因此返回的搜索结果是进行了基于内容相关性的相关性排序。这些结果中包含指向的结果页面的超级连接(URL网址)，不同的搜索引擎的结果不同，那么它们的超级连接也是不同的，其中有部分内容是重复的。我们知道通过超级连接能够反映某个页面是不是权威页面，也就可以根据某个页面被引用的次数可以知道这