- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【推荐】自动分类技术在企业竞争情报系统中的应用.doc
自动分类技术在企业竞争情报系统中的应用
自动分类技术在企业竞争情报系统中的应用
白广慧连浩许洪波程学旗
(中国网通集团研究院,北京100036)
(中国科学院研究生院,北京100039)
(中国科学院计算技术研究所,北京100080)
摘要论文介绍了基于支持向量机(SVM)方法的自动分类技术,以及该项技术在企业竞争情报系统中实现情报资料
自动分类的应用,通过对测试结果的评估表明,这种基于统计学习原理的自动分类方法能够达到较好的效果,实现企业
情报资料智能化预处理功能.
关键词数据挖掘情报自动分类支持向量机
文章编号1002—8331一(2005)18—0212—03文献标识码A中图分类号TP2
AutomaticCategorizationTechnologyandItsApplicationsin
EnterpriseCompetitiveIntelligenceSystems
BaiGuanghui?LianHaoXuHongbo~ChengXueqP
(ChinaNetcomGroupLabs,Beijing100036)
(GraduateSchooloftheChineseAcademyofSciences,Beijing100039)
(InstituteofComputingTechnologyoftheChineseAcademyofSciences,Beijing100080)
Abstract:ThispaperintroducesanautomaticcategorizationtechnologybasedonSupportVectorMachine(SVM),andits
applicationsinenterprisecompetitiveintelligencesystems.TheSVMmethodbasedontheStatisticalLearningtheory
showsgoodresultincategorizationtests,andplayskeyfunctioninenterprisecompetitiveinformationprocessing.
Keywords:datamining,automaticcategorization,SupportVectorMachine(SVM)
1背景简介
建立企业竞争情报系统是提升企业竞争力的一个重要环
节.统计表明,美国90%的公司均拥有自己的竞争情报机构;全
球500强企业中,几乎所有企业都设有专门的情报部门.
在构建企业竞争情报系统的过程中,面临着处理海量非结
构化信息的难题.通过网络机器人从互联网上收集的原始资
料,加上通过咨询机构各种渠道获取的信息资料,每天接收的
数量非常大,上千篇,甚至上万篇.对于这些资料信息,需要进
行的一项重要工作就是进行情报分类,以便情报人员进行后续
的情报加工处理工作.对于海量的情报资源,如果依靠人工进
行分类处理,不但需要耗费很大的人力资源,而且时效性不能
满足企业的实际需要.在竞争情报系统实施过程中,可以采用
自动分类技术对情报资料进行分类,分类准确率能够达到实用
化要求,并高效地节省了人力资源.
我们在竞争情报资料的自动分类实现中,综合运用了基于
关键词过滤的规则方法和基于支持向量机的统计学习方法.本
文重点介绍支持向量机的自动分类技术,并对它的分类效果进
行评估.
2自动分类技术的实现
自动分类是指利用计算机根据文献内容进行类别划分的
功能.
理想的自动分类要分三步进行:
(1)定义特定系统的特定分类体系;
(2)根据分类体系的定义,为每个类别选择一定数量的样
本文章,训练计算机,得到分类模版;
(3)将这个模版交给网络采集工具,在采集的同时根据模
版对所采信息进行基于内容的分类,即利用计算机分析待分类
对象中的特征,然后将其与各种类别中的对象所具有的特征进
行比较再将对象划归特征最接近的类别的过程.
自动分类的常用方法可分为如下三类:
(1)基于词的分类技术:文本自动处理是以概念为基本单
元,而词是概念的基本组成部分,是信息的载体,因此这种方法
是根据那些代表文章主题内容的词汇对文章进行类别判定的
一
种方法.
(2)基于知识的分类技术:这种基于知识的文本自动分类
方法,主要依赖于一个明确的知识库,知识的表示方法主要有
规则库,语义模型或格框架等.基于知识的分类技术的显着特
点是需要手工建造知识库,且建造的知识库领域性极强,移植
困难.
(3)基于信息的分类技术:基于信息的分类技术是一种介
于词的技术和基于知识的技术之间的方法,该方法对上下文敏
作者简介:白广慧(1976一),女,工程师,研究方向:计算机及应用,网络安全.连浩,女,研究生,研究方向:中文处理,网络安全.许洪波,男,助理
您可能关注的文档
- (新古典私人会所设计规划)hwcd--上海皇室豪宅会所设计规划方案【名师联期】.docx
- 房地产商标之乱 家香榭里究竟谁是正宗(Real estate trademark confusion champs who is authentic).doc
- GMAT OGSC全解终极版版..docx
- 农村乡镇企业承包经营合同.doc
- 高等学院研究生英语上readingmore中英对照翻译方案.docx
- 农药企业经营风险防范:如何分辨和处理不良经销商.doc
- 冰雪奇缘水墨梦幻质感金属字商务模版ppt精品模板.doc
- 2018电大《汽车发动机构造与维修》试题库(共22页).doc
- 尔雅通识课答案-尔雅课程登陆.doc
- doc在大学物理教学中引入非线性物理的探索与探索.doc
- DeepSeek培训课件入门宝典:第2册 开发实战篇 .pptx
- 全面认识全过程人民民主-2024春形势与政策课件.pptx
- 2024春形势与政策-全面认识全过程人民民主.pptx
- 2025年春季学期形势与政策第二讲-中国经济行稳致远讲稿.docx
- 2024春形势与政策-铸牢中华民族共同体意识课件.pdf
- 2024春形势与政策-走好新时代科技自立自强之路课件 (2).pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pptx
- 形势与政策学习指导教学-整套课件.pdf
- 2023年春季形势与政策讲稿第三讲-开创高质量发展新局面.pdf
- DeepSeek培训课件-清华大学-DeepSeek模型本地部署与应用构建.pptx
文档评论(0)