基于Internet的CIS研究.pdfVIP

下载本文档

0
0
约5.58千字
约 4页
2017-11-06 发布于湖北
举报
版权申诉

基于Internet的CIS研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

。基于Internet的CIS研究翟伟斌许榕生中国科学院高能物理研究所计算中心，中国科学院研究生院，北京100049 摘要针对CIS(CompetitiveIntelligenceSystem)面临的挑战，利用信息自动提取技术和文本自动分类技术，提出一种基于Intemet的自动CIS。关键词竞争情报系统；信息采集；自动分类 l引言随着经济全球化浪潮，企业的竞争环境发生了巨大的变化，前所未有的压力与机遇交织在一起，为了与迅速变化的竞争环境相适应，建立企业竞争情报系统己成为提升企业竞争力的重要环节。统计表明，美国90％的公司拥有自己的竞争情报机构，全球500强企业中，几乎所有企业都设立了专门的情报部门。根据美国竞争情报从业者协会(SCIP)的定义，竞争情报是指对整体竞争环境和竞争对手的一个全面检测过程。主要包括竞争环境、竞争对手和竞争策略等各方面信息的收集和研究。传统的CIS主要依靠人力，对收集到的信息采用人工的方式进行处理。随着Intemet的快速发展，CIS面临着海量非结构化情报资源，如果还依靠人工进行处理，不但需要消耗大量的人力资源，而且时效性也不能很好的满足企业的实际需要。本文基于Web信息采集和文本内容的自动分类技术相结合的方式，探讨一种基于Intemet的自动CIS。利用Web信息采集技术，对感兴趣的各种竞争信息进行自动采集，然后采用自动分类技术对采集到的Web文本进行自动分类。每个CIS的使用者都可以根据自己的需要，定制类别。整体设想如图一所示。炉信息自动提取／／ q 各种信喜潭图一基于Intemet的CIS架构图二基于主题Web信息采集流程图 2Web信息采集 Web信息采集(Web Crawling)，主要指通过Web页面之间的连接关系。从Web上自动获取Web信息，并随着链接不断向整个Web扩展的过程。实现这一过程主要是由Web信息采集器来完成，常用的Web采集器主要有Web Root。这两种传统的采集器的 Spider和Web 目标是尽可能多的采集信息页面，很少考虑采集页面的准确性。随着Web数量的快速增长，这两种采集器的速度和准确度不能满足实际需要。本文采用基于主题的Web信息采集[I】，主要是指选择性地搜索那些与预定义好的主题集相关页面的采集器。主题可以是关键词，也可以是样本文件。和传统的Web信息采集器相比，基于主题的Web信息采集器并不采集那些与主题无关的网页，所以极大的节省了存储空间和网络资源。采集器架构如图二所示。 3Web内容分类 3．1类别关键词的提取对采集到的Web文本内容进行分类时，每个Web主题都有一系列重点特征项，表达该主题的Web都会包含这些特征项，这些特征项的组合可以看作该类Web内容的唯一代表。同时， 670 那些对于区分Web内容类别所起的贡献很小的特征项，可以完全忽略。因此，对于每一类 Web，需要筛选出针对该类的特征项集合，构造一个类别关键词表。本文采用词和类别的互信息量进行特征项抽取。其计算公式如下E23：， I(t，c，)=log[哥】(1) 其中，P(tI C，)为特征词t在类别C，中出现的比重，P(f)是特征词t在所有训练文本中的比重。对计算出来的所有的互信息量，进行从大到小排序，根据需要抽取一定数量的特征项。类别关键词表中的词在对Web内容进行分类时所起到的作用也是不同的，一般采用权重来表示词的重要程度，本文采用互信息量来表示特征词的权重。 3．2Web内容的表示 ’ ．(1)Web内容的表示。Web内容提取后为文本形式，但是计算机只能识别二进制码，不可能象人一样读懂文本，所以必须将Web内容转换为计算机可识别格式。根据“贝叶斯假设”，假定字和词在确定文本内容的作用上相互独立，就可以使用文本中出现的字或词的集合来代替文本。目前，在信息处理方面，文本的表示主要采用向量空间模型(vSM)。向量空间模