- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
拓尔思(TRS)绿色节能搜索解决方案-搜索引擎解决方案
一、TRS绿色节能搜索 TRS网络信息雷达系统(TRS InfoRadar)实时监控和采集Internet网站内容,对采集到的信息自动进行过滤、分类和排重等智能化处理,最终将最新内容及时发布出来,实现统一的信息导航,同时提供包括全文、日期等在内的全方位信息查询。
双模服务1+12 TRS InfoRadar不仅支持独立产品模式,而且支持SaaS模式。 独立模式:按照用户的需求设置采集网站,定制分类模板,建立本地数据库,用户完全拥有软件产品。 SaaS模式:数据采集、加工的繁琐工作由厂商完成,用户只需定制需要的信息即可。 绿色节能搜索冲击波 TRS InfoRadar倡导绿色环保节能搜索。 绿色环保:TRS InfoRadar按需过滤掉互联网的电子垃圾信息,准确获取目标。 节能先锋:TRS InfoRadar是节约能源先锋,通过自动化、智能化、多样化、个性化的雷达信息采集和监控,避免了人力、物力等资源的浪费。
第一波:超群的信息采集 采集全面,采全率高
各类元数据准确采集 定位元数据:支持利用mata和html标签实现各项元数据信息的精准采集与智能抽取,能够采集结构化数据。 与CKM整合,实现丰富的信息抽取:包括人名、 等详细信息,供人们分析和利用。 多种个性化设置:在需要的情况下人工配置,实现部分元数据的准确解析。 高效采集,性能超群 采集的效率:在10M网络带宽环境下,每小时可以采集5万个网页。 高效的更新:已经采集过的信息不会重复采集,更新时只获取前次采集后更新的网页。数据索引更新时间平均小于0.02s/记录。 大规模集群应用:单个采集工具能支持千万数量级的网页采集。通过集群应用,就可以实现更大规模的海量搜索。 第二波:智能的信息处理 自动分类:采集的网页可以基于内容的自动分类,不需人工干预,自动分类达到85%以上准确率。同时,提供智能分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板。 自动排重:采用TRS相似性检索技术实现,可根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。 垃圾过滤:自动过滤网页中新闻的正文内容,剔除广告、版权等垃圾信息。 其它:自动生成网页摘要以及自动抽取网页中的关键词等。 第三波:及时的信息发布 一键式发布:支持自动和人工发布两种方式。采集的信息可及时发布到提供服务的网站上。 可发布专题内容。 第四波:快捷的信息检索 支持多语言网页的采集和检索:支持中、英、日、韩、俄、法、西、德、阿拉伯语等语言。 支持大量并发用户的查询请求:采用基于成本优化的查询算法,多用户并发检索,每秒可响应60个以上查询。 支持对多种属性的检索:包括按日期、URL、标题等,同时提供排序功能。 快捷的检索速度:成功管理用户T级规模的数据,保证了检索速度和可靠性。现在,在G级数据集合上达到亚秒级检索速度。 二、产品架构
网络信息雷达由三个逻辑模块组成: 网络信息智能采集工具:实时监控网站,并把最新的网页采集到本地,进行内容处理。 TRS全文数据库系统:根据应用的具体需求存储到不同的目标上。比如存储成TRS格式文件,或存储到TRS全文数据库中,或存储到关系数据库(SQL Server、Oracle)等。 Web发布模块:实现网页信息的统一发布,导航和检索功能。 另外,雷达的网页信息可方便地导入TRS WCM系统中,积累成网站发布的素材。 三、雷达的“长尾”应用 TRS InfoRadar在内容运营的垂直搜索应用、内容监管的网络舆情应用以及决策支持的竞争情报等方面的应用,将极大的提高组织对外部信息的获取效率,极大降低信息采集成本,全方位掌控环境脉动,并提高各个组织的快捷反应效能。TRS InfoRadar让各行业的所有人员受益: 内容运营的垂直搜索应用:现在,购物搜索、MP3搜索…几乎各行各业的信息都可细化成各类的垂直搜索。TRS InfoRadar站内搜索与网站群垂直搜索应用,实现对结构化信息的抽取,达到资源整合与提高流量的目标。 内容监管的网络舆情应用:互联网信息既有大量进步、健康、有益的信息,也有很多垃圾信息。其虚拟性、隐蔽性、和随意性等特点,使越来越多的人们愿意透过这种渠道去表达自己的个人想法。加强互联网信息的监管和分析,对于预警、应对网络突发的公共事件和全面掌握社情民意具有现实意义。 决策支持的竞
文档评论(0)