- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、服务概述1.1 服务简介昆仑纵横-互联网情报服务,是海量信息技术有限公司(下称海量公司)集中文智能计算技术,并整合海量公司十几年的互联网工作经验,推出的为企业、事业单位及机关提高舆情信息工作效率并直观展示结果的舆情信息分析服务。服务简介如下所述,信息采集标引服务。服务的模式是海量对数据源进行统一采集,根据用户提出的标引要求和系统提供的知识网络给信息打上标签。用户可通过接口实时获取标引后的数据包,并依据标签完成信息的分拣、搜索、统计、展示、报告生成等业务。1.2服务适用范围利用互联网信息进行知识情报收集的企事业单位。政府舆情分析;企业竞争情报;证券信息分析;示意图如下图1所示,二、产品优势2.1.全面种类全:昆仑纵横互联网情报服务包含资讯、微博、论坛、博客、电子报等多种数据源,基本涵盖常见互联网媒体常见数据形式。信息全:对数据源信息完整采集,真实客观反映信息全貌;所提供的数据字段包括:标题、正文、类型、来源、出处、时间、图片链接、内容特征、关键词、摘要、分类、转载数(含列表)、主题(含线索)、相关度、主题热点、正面、负面等等,除此之外还可以根据用户需要定义更多标签。信源广:舆情监控最基本的需求就是信息源要广泛,若信息源数量较少则所监控的信息就不具有代表性;截止到2013年8月初昆仑纵横互联网情报服务所涵盖的数据源覆盖资讯、论坛、微博、博客、电子报、搜索引擎等资源类型共60万采集源,搜索引擎也是采集源之一采集深度:对采集源进行深度采集,可采集到所发布内容的98%以上而搜索引擎由于其广度优先的收录规则,普遍只能采集到网站内容的10%-50%,且无法支持个性化采集源,易受敏感信息屏蔽搜索的影响 2.2.准确智能标引引擎组:采用业界领先的海量中文语义识别技术,基于语义、模式行为标签自动进行标引,彻底解决中文歧义对数据分析结果的干扰。例如:传统舆情系统采用关键词检索方式查询信息,当用户在查询“中国石油”公司相关信息时,会搜索出“中国石油大学”、“中国石油行业协会”等跟中国石油公司完全不相干的数据。昆仑纵横互联网情报服务就不会出现这类歧义标识。通用和个性化知识标引:海量语义知识网络提供通用、行业正负面知识的支持,除此之外系统还支持个性化知识标引。例如:“涨薪”在通用知识中是正面信息,但是对于中国石油、中国石化这类公司来说,这是一个负面信息。数据采集:形式结构化引擎 独特的基于视觉的版式还原技术 成功应用于“海纳互联网智能采编服务” 精准提取资讯内容的标题、正文、出处等字段,杜绝内容杂质对情报加工的干扰 信息标引:语义结构化引擎 独创的基于关键特征的模式识别技术 专业运营的通用知识、规则库 2.3.及时及时的采集频度 海量对所有采集源进行人工运营,根据每个采集源的内容更新时间和更新频率设定采集时间与频度,最快采集频度可达1分钟,保证数据采集的及时性 独有的“传感器” “海纳互联网智能采编服务”为500余家大中型网站提供互联网新闻资讯采集转载服务,可第一时间获得新的资讯内容 “小阳伞网站体检服务”为数千家中小型网站提供违法不良信息检测服务,可第一时间获得新的互动信息 实时标引:昆仑纵横互联网情报服务24小时在线运营,实时采集、实时标引、实时发布,达到分钟级的采集和标引,保证了信息的及时性。如上图所示,一分钟前发布的文章,系统就已经采集标引完毕。2.4.配置灵活,可扩展性强数据来源范围可选:对主题进行舆情监控业务时,某一类数据会对监控结果产生不良影响,这类数据要从信息源中剔除。例如:从经济角度监控中国石油公司时,娱乐类信息源中出现的“中国石油“等信息可能会对数据量、正面、中性信息的比例产生干扰,最好的办法是不从娱乐类信源中采集数据。除了剔除数据,若客户对某些网站特别关注,也可以将该网站提供给海量,添加到数据采集源中来。主题知识配置灵活:可通过WEB方式在线对监控主题的知识进行配置、添加、修改、自定义。2.5.集中服务客户无需软件、硬件、设备、带宽、运维人员等投入,享受专运营团队的7*24小时运营服务。同时保持与业界领先的海量中文智能计算技术保持同步,达到技术领先、准确可靠的优势。三、服务技术原理3.1服务工作原理服务工作原理如下图3所示,图3 服务原理图昆仑纵横互联网情报服务使用多重功效的传感器对互联网数据进行普遍的采集,通过海量公司独创的H2X互联网数据结构化技术对数据进行优化加工,筛选,最后利用海量自身不断积累的通用、行业化知识结合用户的个体、个性化知识通过基于领先的中文在线智能计算技术的标引引擎对数据进行标引处理后,形成供舆情分析、竞争情报分析、证券分析等一系列情报分析等应用。标引标题支持正文支持来源支持时间支持相关主题支持负面支持转载数(资讯类)支持浏览数(互动类)支持回复数(互动类)支持扩展标签支持服务运营支持7*24小时数据备份支
文档评论(0)