浅谈企业竞争情报信息采集器分析和设计.docVIP

下载本文档

0
0
约2.98千字
约 7页
2018-10-09 发布于福建
举报
版权申诉

浅谈企业竞争情报信息采集器分析和设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈企业竞争情报信息采集器分析和设计

浅谈企业竞争情报信息采集器分析和设计　　[摘要]随着全球经济一体化步伐的加快，国内和国际市场竞争日益激烈，企业为了使自身能够在激烈的市场竞争中处于有利的地位，更加关注竞争环境、竞争对手、竞争态势、竞争策略等相关信息，情报信息的竞争已经成为企业在市场竞争中的一个重要关注面[1]。据统计，近些年竞争情报分析中所需的90%信息来源于互联网，但互联网上各类信息都在以几何级数增长，使得通过传统的情报信息采集器从互联网中获取的信息中包含着大量的与企业无关的信息，这些信息无疑会加大系统负担，因此，本文开展对企业竞争情报信息采集器的研究是必要的。本文在对开源搜索引擎项目Nutch研究的基础上，设计并实现了企业竞争情报信息采集器。　　[关键词]企业竞争情报，信息采集器，Nutch 　　中图分类号：G350 文献标识码：A 文章编号：1009-914X（2014）24-0347-01 　　1.引言　　随着Internet的高速发展，互联网已经成为人们获取信息的主要来源，以Google、百度等为代表的通用信息检索工具，极大地方便了我们从互联网上获取所需的信息。然而，企业更关心与自身息息相关的主题领域信息，因此也希望搜索引擎采集到的信息具有主题性、准确性、时效性，在当前Web信息爆炸式增长的环境下，通用搜索引擎对于这些要求就显得力不从心了。　　2.总体架构分析　　企业竞争情报信息采集器是在通用搜索引擎的基础上发展起来的，它采用了企业竞争采集技术对互联网中的信息进行采集，采集器将选择性地搜寻那些与预先定义好的主题相关的页面。企业竞争情报系统中的情报信息采集器应能够根据企业需求，对企业关心的主题信息进行采集，本文根据实际需求。　　企业竞争情报信息采集器的体系结构具体分析如下：　　（1）Spider是任何搜索引擎不可缺少的部分，它通过各种Web协议自动采集URL所对应的页面内容。本文采用开源搜索引擎Nutch中的Crawler作为Spider对待采集队列中的URL进行采集。　　（2）页面分析，对采集到的页面进行内容和链接抽取，企业竞争情报信息采集器继承了Nutch插件机制，可根据采集的文件类型调用相应文件解析插件，如对于HTML、PDF、WORD分别调用HtmlParser、PdfParser、MSWordParser对页面内容进行解析和链接的抽取。　　（3）基于主题树的分类插件，系统中情报信息的加工、浏览、推荐等操作都是基于主题树方式，主题树中的不同节点代表着不同的情报类别，因此，应对采集到的页面基于主题树进行分类。将对基于主题树的分类插件进行设计，通过该插件可对页面内容进行基于主题树的分类，并返回在分类过程中获得的最大相似度值。　　3.关键功能设计　　众所周之，英文单词与单词之间以空格分割，而中文是以字为单位，中文文档中词与词之间并没有明显的边界标志[5]。把中文文档中的汉字序列分割成有意词的序列就是中文分词，中文分词是对中文文档进分类的基础和关键。Nutch提供了搜索引擎的全部工具，但是它本身并不支持中文分词，为了企业竞争情报信息采集器能够对中文文档正确处理，因此，在对Nutch插件机制研究的基础上，设计并实现了中文分词插件，为企业竞争情报信息采集器提供中文分词的支持；设计并实现了基于主题树的分类插件，完成对主题信息和链接过滤。　　3.1 中文分词功能　　系统是在对Nutch插件机制研究的基础上，设计并实现了中文分词功能的。　　Nutch将可扩展部分设计成为插件扩展点，每个扩展点对应Nutch中的一个抽象类，通过插件扩展Nutch时，须针对某个扩展点进行扩展，即扩展插件必须继承这个扩展点的抽象类，并对抽象类中方法进行实现，以完成新增功能[7]。Nutch在实际运行时，首先通过配置文件将所有注册的插件加载到内存中，当系统运行到某个扩展点时，通过工厂模式读取配置文件中插件属性值以获得此扩展点的所有插件，然后再根据处理的对象调用将此对象的实例化并进行处理。企业竞争情报信息采集器的中文分词插件是通过对NutchAnalyzer扩展点进行扩展实现的。　　若使中文分词插件能够正常工作还需要通过以下五个方面的辅助工作：　　（1）Nutch通过扩展NutchAnalyser实现对多语言分词支持，而插件languageidentifier是对文档进行语言标识，Nutch对文档进行分词时需根据文档的语言标识调用相应的语言分词插件。为使得中文分词插件在恰当时能被调用，应为系统加入中文语言标示。首先，通过插件languageidentifier的NGramProfile类可生成后缀名为ngp文件，为了使其能够对中文文档进行正确识别，该类的输入应为包含一定数量中文词汇的文本，经训练后生成zh.ngp文件。