- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
。
基于Internet的CIS研究
翟伟斌许榕生
中国科学院高能物理研究所计算中心,中国科学院研究生院,北京100049
摘要针对CIS(CompetitiveIntelligenceSystem)面临的挑战,利用信息自动提取技术和文本
自动分类技术,提出一种基于Intemet的自动CIS。
关键词竞争情报系统;信息采集;自动分类
l引言
随着经济全球化浪潮,企业的竞争环境发生了巨大的变化,前所未有的压力与机遇交织
在一起,为了与迅速变化的竞争环境相适应,建立企业竞争情报系统己成为提升企业竞争力
的重要环节。统计表明,美国90%的公司拥有自己的竞争情报机构,全球500强企业中,
几乎所有企业都设立了专门的情报部门。
根据美国竞争情报从业者协会(SCIP)的定义,竞争情报是指对整体竞争环境和竞争对手
的一个全面检测过程。主要包括竞争环境、竞争对手和竞争策略等各方面信息的收集和研究。
传统的CIS主要依靠人力,对收集到的信息采用人工的方式进行处理。随着Intemet的快速
发展,CIS面临着海量非结构化情报资源,如果还依靠人工进行处理,不但需要消耗大量的
人力资源,而且时效性也不能很好的满足企业的实际需要。本文基于Web信息采集和文本
内容的自动分类技术相结合的方式,探讨一种基于Intemet的自动CIS。利用Web信息采集
技术,对感兴趣的各种竞争信息进行自动采集,然后采用自动分类技术对采集到的Web文
本进行自动分类。每个CIS的使用者都可以根据自己的需要,定制类别。整体设想如图一
所示。
炉
信息自动提取//
q
各种信喜潭
图一基于Intemet的CIS架构 图二基于主题Web信息采集流程图
2Web信息采集
Web信息采集(Web
Crawling),主要指通过Web页面之间的连接关系。从Web上自动
获取Web信息,并随着链接不断向整个Web扩展的过程。实现这一过程主要是由Web信息
采集器来完成,常用的Web采集器主要有Web Root。这两种传统的采集器的
Spider和Web
目标是尽可能多的采集信息页面,很少考虑采集页面的准确性。随着Web数量的快速增长,
这两种采集器的速度和准确度不能满足实际需要。本文采用基于主题的Web信息采集[I】,
主要是指选择性地搜索那些与预定义好的主题集相关页面的采集器。主题可以是关键词,也
可以是样本文件。和传统的Web信息采集器相比,基于主题的Web信息采集器并不采集那
些与主题无关的网页,所以极大的节省了存储空间和网络资源。采集器架构如图二所示。
3Web内容分类
3.1类别关键词的提取
对采集到的Web文本内容进行分类时,每个Web主题都有一系列重点特征项,表达该主
题的Web都会包含这些特征项,这些特征项的组合可以看作该类Web内容的唯一代表。同时,
670
那些对于区分Web内容类别所起的贡献很小的特征项,可以完全忽略。因此,对于每一类
Web,需要筛选出针对该类的特征项集合,构造一个类别关键词表。本文采用词和类别的互
信息量进行特征项抽取。其计算公式如下E23: ,
I(t,c,)=log[哥】(1)
其中,P(tI C,)为特征词t在类别C,中出现的比重,P(f)是特征词t在所有训练文
本中的比重。对计算出来的所有的互信息量,进行从大到小排序,根据需要抽取一定数量的
特征项。类别关键词表中的词在对Web内容进行分类时所起到的作用也是不同的,一般采用
权重来表示词的重要程度,本文采用互信息量来表示特征词的权重。
3.2Web内容的表示 ’
.(1)Web内容的表示。Web内容提取后为文本形式,但是计算机只能识别二进制码,不
可能象人一样读懂文本,所以必须将Web内容转换为计算机可识别格式。根据“贝叶斯假设”,
假定字和词在确定文本内容的作用上相互独立,就可以使用文本中出现的字或词的集合来代
替文本。
目前,在信息处理方面,文本的表示主要采用向量空间模型(vSM)。向量空间模
您可能关注的文档
最近下载
- 海南省乡村旅游用地精细化管理问题与对策研究.pdf VIP
- 10kV变压器及高低压柜安装施工方案 - 电气安装工程.docx VIP
- 初中数学八年级上册 三角形 练习题.doc VIP
- GST-QKP04型气体灭火控制器检验报告.pdf VIP
- 专题13 看图写话-2022-2023学年二年级语文上册寒假专项提升(部编).docx VIP
- 北京某养老院居室空间使用调查研究.pdf VIP
- 2023-2024年中国付费自习室行业发展现状与消费趋势调查分析报告.docx VIP
- 2025年九年级数学中考二轮复习专题四边形中的十字架模型与相似三角形综合问题.docx VIP
- 廉洁文化进校园,廉洁在我心.ppt VIP
- 避免潜在的风险.pdf VIP
原创力文档


文档评论(0)