Web的环境下竞争情报自动采集初探.docVIP

下载本文档

2
0
约6.12千字
约 13页
2018-10-11 发布于福建
举报
版权申诉

Web的环境下竞争情报自动采集初探.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Web的环境下竞争情报自动采集初探

Web的环境下竞争情报自动采集初探　　〔摘要〕介绍了Web环境下竞争情报自动采集的关键技术，构造了一种基于自动采集的CI模型，该模型能够对Web信息源进行自动采集、文本分析、分类聚类，并根据特定主题对信息源实施监控，生成竞争情报报告提交给企业决策层，从而提高企业决策的及时性、科学性。　　〔关键词〕Web;竞争情报;自动采集　　〔中图分类号〕G35 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0023-03 　　　　1 Web环境下的竞争情报及竞争情报工作　　　　简单的说，竞争情报就是利用公开的信息源，获取有关竞争、竞争对手和市场环境的信息的过程。这个过程包括如下几个环节:(1)识别需要获取什么信息;(2)识别可以获取所需信息的信息源;(3)收集所需信息;(4)分析、整合所收集的信息;(5)把分析的结果和得到的结论提供给相关人员，为其提供决策支持。随着竞争的加剧，竞争情报工作越来越受重视。　　早期，竞争情报从业者多是通过一些商情数据库、公开的出版物、会议、展览以及其他一些公共信息源人工采集竞争情报。近些年，随着Internet的快速发展，Web给竞争情报从业者提供了更广阔的信息获取空间。这表现在，许多商情数据库可以通过Internet使用;许多行业协会建立了自己的网站，在Web上发布大量的行业信息;绝大多数政府的法律、法规、相关政策等在Web上都可以检索到;多数企业、组织都建立了自己的网站，发布大量的诸如公司历史、产品一览、金融数据、统计信息、销售记录、年度报告、人事变动、招聘广告之类的信息。可以说，Web不但为竞争情报从业者提供大量的免费信息，而且绝大多数信息比较及时，且能够通过一些工具获取，比起手工方式效率提高较明显。然而，由于缺乏有效的自动采集工具，Internet在给竞争情报从业者提供大量信息的同时，也给他们带来了巨大的时间消耗。有调查表明，收集信息所耗费的时间往往会占据整个竞争情报工作流程的30%[1]。竞争情报从业者迫切需要有效的信息自动采集工具来减少他们收集信息的时间，从而使他们把更多的精力放到信息的分析和整合上。　　　　2 Web环境下的竞争情报自动采集技术　　　　2.1 搜索引擎技术　　搜索引擎技术是竞争情报从业者在Web环境下使用最为广泛的一种信息自动采集技术。搜索引擎通常由如下模块构成:(1)信息采集模块，主要负责从Web上获取网页内容和链接信息。通常通过Robot软件信息的自动采集。Robot是一种能够根据文档内的超链递归访问新文档的软件程序。在自动加载方式下，Robot从一个事先制定好的URL列表出发，根据http协议自动访问WWW网页，当网页被提取后，分析提取网页中超文本的URL，将其加入URL列表，同时以此超链接作为新的起点，进一步访问其他网页，不断循环下去;(2)索引模块，主要负责对Robot收集的信息进行索引，并按照一定的方式存贮在索引数据库中;(3)检索和排序模块，主要是确定检索机制以及检索结果的呈献顺序。利用搜索引擎进行竞争情报的自动采集，通常需要确定待采集信息的主题，从而使Robot自动跟踪这些主题，实现采集的自动化和长期化，通过监控一个主题的变化情况分析竞争对手的行为。这些主题包括企业名称、产品名称、竞争者网站的URL等。　　除了一般的搜索引擎之外，元搜索引擎技术也开始应用于竞争情报的自动采集。元搜索引擎可以调用多个搜索引擎，集成多个搜索引擎的结果，因而，所采集的信息更为全面。　　但是，目前应用的传统搜索引擎技术，往往只能采集部分信息，如GOOGLE、百度只是采集了网上信息的10%，而对隐藏在网络深处的一些结构化和非结构信息难以处理[2]，如企业内部信息数据库、企业的研发报告、文献资料等。这些信息都无法被传统的搜索引擎采集，即使采集到，也只能作为全文处理，不能区分信息的详细属性。但是，web数据库、企业内部非结构化信息中蕴涵了大量高质量的权威信息，必须对其给予重视。对于这些信息的采集，需要应用新的搜索引擎技术。有学者提出把P2P技术应用到网页检索中，能够大大改善信息采集的深度和宽度，拓展信息的采集面。　　2.2 文本分析与聚类技术　　通过Robot收集的信息数量很大，对这些信息的长期跟踪必须建立在对这些信息的分析和分类、归类的基础上，这就需要用到文本分析和聚类技术。　　文本分析是通过对文档的结构和内容的分析来获取文档的关键信息，包括文档标志、文档空间矢量、文档中的词频分布、文档中重要关键词的关联、词的权重、文档的语义等，消除文档的模糊性。根据这些信息，判断文档的主题内容和文档集的语义，有利于文档内容的确定和文档的归类、聚类。词的分析、文本特征抽取、自动去重、自动标引、自动索引、自动摘要、自然语