基于Internet的CIS研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
。 基于Internet的CIS研究 翟伟斌许榕生 中国科学院高能物理研究所计算中心,中国科学院研究生院,北京100049 摘要针对CIS(CompetitiveIntelligenceSystem)面临的挑战,利用信息自动提取技术和文本 自动分类技术,提出一种基于Intemet的自动CIS。 关键词竞争情报系统;信息采集;自动分类 l引言 随着经济全球化浪潮,企业的竞争环境发生了巨大的变化,前所未有的压力与机遇交织 在一起,为了与迅速变化的竞争环境相适应,建立企业竞争情报系统己成为提升企业竞争力 的重要环节。统计表明,美国90%的公司拥有自己的竞争情报机构,全球500强企业中, 几乎所有企业都设立了专门的情报部门。 根据美国竞争情报从业者协会(SCIP)的定义,竞争情报是指对整体竞争环境和竞争对手 的一个全面检测过程。主要包括竞争环境、竞争对手和竞争策略等各方面信息的收集和研究。 传统的CIS主要依靠人力,对收集到的信息采用人工的方式进行处理。随着Intemet的快速 发展,CIS面临着海量非结构化情报资源,如果还依靠人工进行处理,不但需要消耗大量的 人力资源,而且时效性也不能很好的满足企业的实际需要。本文基于Web信息采集和文本 内容的自动分类技术相结合的方式,探讨一种基于Intemet的自动CIS。利用Web信息采集 技术,对感兴趣的各种竞争信息进行自动采集,然后采用自动分类技术对采集到的Web文 本进行自动分类。每个CIS的使用者都可以根据自己的需要,定制类别。整体设想如图一 所示。 炉 信息自动提取// q 各种信喜潭 图一基于Intemet的CIS架构 图二基于主题Web信息采集流程图 2Web信息采集 Web信息采集(Web Crawling),主要指通过Web页面之间的连接关系。从Web上自动 获取Web信息,并随着链接不断向整个Web扩展的过程。实现这一过程主要是由Web信息 采集器来完成,常用的Web采集器主要有Web Root。这两种传统的采集器的 Spider和Web 目标是尽可能多的采集信息页面,很少考虑采集页面的准确性。随着Web数量的快速增长, 这两种采集器的速度和准确度不能满足实际需要。本文采用基于主题的Web信息采集[I】, 主要是指选择性地搜索那些与预定义好的主题集相关页面的采集器。主题可以是关键词,也 可以是样本文件。和传统的Web信息采集器相比,基于主题的Web信息采集器并不采集那 些与主题无关的网页,所以极大的节省了存储空间和网络资源。采集器架构如图二所示。 3Web内容分类 3.1类别关键词的提取 对采集到的Web文本内容进行分类时,每个Web主题都有一系列重点特征项,表达该主 题的Web都会包含这些特征项,这些特征项的组合可以看作该类Web内容的唯一代表。同时, 670 那些对于区分Web内容类别所起的贡献很小的特征项,可以完全忽略。因此,对于每一类 Web,需要筛选出针对该类的特征项集合,构造一个类别关键词表。本文采用词和类别的互 信息量进行特征项抽取。其计算公式如下E23: , I(t,c,)=log[哥】(1) 其中,P(tI C,)为特征词t在类别C,中出现的比重,P(f)是特征词t在所有训练文 本中的比重。对计算出来的所有的互信息量,进行从大到小排序,根据需要抽取一定数量的 特征项。类别关键词表中的词在对Web内容进行分类时所起到的作用也是不同的,一般采用 权重来表示词的重要程度,本文采用互信息量来表示特征词的权重。 3.2Web内容的表示 ’ .(1)Web内容的表示。Web内容提取后为文本形式,但是计算机只能识别二进制码,不 可能象人一样读懂文本,所以必须将Web内容转换为计算机可识别格式。根据“贝叶斯假设”, 假定字和词在确定文本内容的作用上相互独立,就可以使用文本中出现的字或词的集合来代 替文本。 目前,在信息处理方面,文本的表示主要采用向量空间模型(vSM)。向量空间模

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档