- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新华社多媒体数据库构建企业搜索引擎服务
新华社多媒体数据库:构建企业搜索引擎服务
引言:
组织机构(以下统称企业)信息化建设浪潮,催生了大量的内部信息资源。据统计,企
业数据每年以200%的速度增长,其中80%的数据以文件、邮件、图片等非结构化数据形式存
放在企业内计算机系统中的各个角落,而这些数据总量远远超过了互联网信息的总量。整合
企业信息资源,构建企业搜索引擎,为组织内外部用户提供检索和个性化信息服务,已经成
为企业信息化的一大热点。
“新华社多媒体数据库搜索引擎”整合新华社海量多媒体数据,为内部工作人员和外部
会员等用户提供个性化综合信息检索、发布和推送订阅服务。
需求分析
新华社拥有国内新闻编辑部、对外新闻编辑部、国际新闻编辑部、新闻摄影编辑部等
多个编辑部和分社,每个编辑部都有一套独立的新闻采编系统,由不同系统负责不同种类新
闻信息的存储和管理工作,从而造成了不同部门的信息资源壁垒,形成了信息孤岛,影响信
息的共享和有效利用,迫切需要整合这些有价值的信息资源,建立开放的、共享的信息资源
搜索平台,为广大编辑、记者等的采编工作提供服务。
同时,新华社作为有着70 多年历史的国家通讯社,是中国最大、最权威的新闻信息采
集和发布中心,其新闻信息具有权威性、原创性、前瞻性、实用性、及时性等特点,党政机
关、群众团体、科研教育机构、大中企业等都是新华社的用户,所以该信息资源搜索平台还
应考虑外部用户的不同需求,提供不同层次,具有不同针对性的信息服务。
概括起来新华社多媒体数据库搜索引擎的需求有以下几个方面的特点:
信息量大,需要对海量信息进行搜索、存储和智能管理
文字信息,从 1948 年以来新华社播发的所有中文电讯稿 3000 余万篇,而且每天新增
全天24 小时实时播发的新华社各路电讯稿、各种经济信息专线产品,以及新华社社办报刊
和精选稿件等10000 多篇。
图片信息,内容涉及国内外政治、经济、外交、文化、体育、教育及风土人情的图片
信息200 多万张,每日增加1600 多张。
1
图表信息,及国内外多个领域,集新闻性与艺术性于一体的图表近万张,每天递增最新
的国内国际图表新闻10 多张。
音、视频信息,国内外时政新闻、财经新闻、体育新闻、娱乐新闻等音、视频近万小
时。
信息形式多,需要提供统一、跨媒体检索
不但包括文字、图片、图表和视频等多种形式的信息资源,而且涵盖了中文、英文、
法文、西文、俄文、阿拉伯文、葡文等10 多种语言信息资源。
服务人群多,需提供个性化服务
新华社多媒体数据库搜索引擎不仅面向内部用户,还面向许多类型的的外部用户,例
如:为媒体用户提供大量丰富、前沿、精彩的各类新闻,作为编写稿件的权威参考;为党政
机关提供不同针对性的政府专供信息,为各级政府及时把握中国政治、经济的脉搏,正确决
策提供参考;为大企业、经济决策层、经济管理部门、金融机构管理层等提供宏观经济、资
本市场、货币市场的重要参考信息。
解决方案
通过仔细考虑和对比,新华社采用了TRS 的系列产品搭建了多媒体数据搜索引擎,整合
了各个系统和互联网上有价值的新闻资源,实现了海量信息的分布存储和管理,实现了跨媒
体统一检索和个性化服务功能。
信息资源的采集、整合、管理
新华社多媒体数据库系统通过TRS Gateway (关系数据库网关)将原有各个部门系统中
的信息采集到TRS Database Server (全文数据库服务器)中进行统一分类存储,采集不会影
响到原有系统的业务逻辑的正常运行,同时保证了信息同步采集的实效性。
对于互联网上有价值的新闻信息,则通过TRS InfoRadar (网络信息雷达)定制网站进
行采集,进入TRS Database Server 中进行统一分类存储,同时采集工具采用TRS 先进的
文本挖掘技术实现了自动过滤、自动排重、自动文摘和分类等功能,大大提高了信息的加工
效率。
2
为了保证海量信息的存储,保证海量信息的检索的效率、稳定性和可靠性。系统采用
TRS Database Server 分布式集群结构作为系统的存储和检索支持。如下图:
您可能关注的文档
- 政府干预经济集聚与能源效率.pdf
- 政府扶持云计算产业的项目制与园区制的协同研究-中国科技论坛.pdf
- 政府网络舆情信息的需求分析.pdf
- 政府采购法草案中契约解除及终止规定之探讨.doc
- 政策和依法办事.pdf
- 故障分量差动保护与故障变化量差动保护陈德树.pdf
- 故障检修-smt贴片机.pdf
- 故障检修表.pdf
- 效率工资机制及其效应研究-华东经济管理.pdf
- 故障电弧探测装置使用说明书-合极电气.doc
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)