舆情监控产品推广20111024要点详解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
舆情监控产品介绍 蔡毅 2011年10月 内容概要 产品背景 产品主要功能 产品关键技术 产品开发计划 产品模块划分 同类厂家产品对比 产品优势和劣势 附录:老系统截图 产品背景 供电局办公室新闻中心或相关部门有专门的信息员,定期通过人工搜索的方式,来收集所需关注的新闻舆情信息,以获取有利和不利的资料,方便进一步跟踪和处理。 深圳供电局目前已经通过舆情监控系统实现了自动化搜索舆情信息,提高了办公室的工作效率。 现阶段,在深圳供电局的系统基础上,进行产品开发和包装,向公司更多客户进行推广。 产品功能 系统大体分为四大部分:舆情自动采集引擎、舆情管理平台、舆情分析统计平台和舆情基础数据平台。 产品功能 舆情自动采集引擎 1 对目标网站进行信息自动抓取,支持HTML页面内各种数据的采集。 2 配合元搜索引擎和web爬虫技术,保证信息的完整性和准确性。 3支持自由定制,可针对重点网站实现全站监控、定点监控。 4 超链分析、正文抽取、编码识别、关键词抽取、锚文件处理、内容去重 产品功能 舆情管理平台 1 将搜索到的网页内容以及快照进行保存和留档。 2 舆情信息自动分类 3 正负面新闻自动设置 4 舆情信息在线和离线查看 5 舆情自动预警(短信、邮件方式) 产品功能 舆情分析统计平台 1 舆情新闻查询和浏览。 2 舆情新闻管理(设置管理用的相关标识和信息) 3 自由上传舆情新闻的附件 4 生成舆情报告以及各类文字和统计图表 5 支持导出excel和word功能,方便给领导汇报 6 通过多维度如正负面新闻数量、热度分析、来源媒体、舆情榜等,提供多样化辅助统计 产品功能 舆情基础数据平台 1 分类管理和维护。 2 关键字管理和维护。 3 采集参数设置。 4 媒体信息以及通讯录设置。 5 采集日志查看(管理员使用)。 产品关键技术 元搜索引擎 Web信息抽取技术 结构化采集技术 自然语言智能处理 全文检索 产品关键技术 元搜索引擎 元搜索引擎不同于谷歌、百度等通用搜索引擎,它是建立在多个搜索引擎之上的集成系统。它可汇集多个搜索弓l擎的搜索结果,同时主动帮用户获取各大搜索引擎最佳结果,并按重要性和热门程度有序排列,以保障结果精准而全面。 元搜索发展历史在国外已逾十年,尤其在美国,已为人们广泛认可和应用。由于元搜索引擎无需建立自己的庞大的索引数据库和复杂的检索机制,维护起来比较容易,因此是目前解决通用搜索引擎存在问题的最佳方案,元搜索技术也越来越成为计算机界研究的热点。 产品关键技术 Web信息抽取技术 爬虫能够抓取的是原始的网页,垃圾内容所占比例甚至超过80%,这对于计算机的智能文本处理构成很大威胁,因此,需要抽取其中真正有用的部分,或者过滤垃圾内容,学术界称之为信息抽取。互联网上的网站风格、网页版式、内容结构千变万化,采用一种技术完成数据的提取,自然十分困难,因此成为当前学术界的研究热点。现有的web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。 产品关键技术 结构化采集技术 结构化数据采集引擎一般涉及到两类技术,一部分是网页遍历技术,也就是人们常说的爬虫,因为很多动态网站的页面连接不是普通连接,而是由脚本动态生成,所以爬虫必需能理解URL构造模式,这可以借助一定的配置文件完成。另一部分是结构化内容识别技术,能够从文本型网页中识别出不同字段的内容,例如作者、发布时间、联系电话等,并进行数据存储,,以满足多维度的信息挖掘和统计需要。 产品关键技术 自然语言智能处理 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。 应用在舆情监控系统中的核心技术有:自动分词、自动关键词、自动摘要、自动分类、自动聚类、相似性检索和查重。 产品关键技术 全文检索 全文检索是一种将文件中所有文本与检索项匹配的文字资料检索方法。全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。   功能上全文检索系统需要具有建立索引,处理查询返回结果集,增加索引,优化索引结构等功能。结构上具有索引引擎,查询引

文档评论(0)

三沙市的姑娘 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档