- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
烟台中科网络技术研究所
简介
烟台中科网络技术研究所(简称“网络所”)由中国科学院计算技术研究所与烟台高新
技术产业开发区共同组建的从事网络应用技术研究的事业单位,于 2011 年 10 月正式挂牌成
立。网络所定位为把国家战略需求的拉动和地方市场驱动组合在一起,与中科院计算所协同
开展网络数据平台建设,技术转移和产业辐射等工作。网络所主要研究方向是海量网络信息
处理和信息服务,是中科院计算所继曙光、龙芯后第三发展方向“天玑”的研发和产业化基
地。
网络所在烟台高新区的大力支持下,三年来取得了快速发展。目前有正式员工 80 人,
42%为研究生学历,组建了研发、测试、运维、信息服务的完整研发团队,拥有多名国内网
络数据方向的一流科研人员。建成 400 平米独立的电信级网络数据专用中心机房,500 台高
性能服务器集群,总计算能力 60 万亿次浮点运算/秒,总存储 1.2PB,400Mbps 互联网接入
带宽
1. 拟推广技术
1.1. 互联网信息采集技术
1.1.1. 定向采集技术
1) 能够从互联网中高速准确的采集公开数据,提取相关元信息。
2) 能够快速高效获取网页,支持 Javascript 等多种复杂页面形式,支持网页编码自动
识别和转换,支持基于 cookie 状态检测的采集,具有反“防刷新”的采集机制;
3) 可定向采集并抽取新闻、论坛、博客、微博客、评论等各类复杂的信息内容;
1.1.2. 元搜索采集技术
元搜索可以认为是对多个独立搜索引擎的整合、控制和优化利用,对独立搜索引擎的
整合、控制和优化利用称之为 “元搜索技术”,元搜索技术即是元搜索引擎的核心。元搜索
主题采集,在各大搜索引擎基础上只采集用户感兴趣的内容,信息全面,更新及时。目前支
持的(站内)搜素引擎有,百度、搜狗、360、新浪、新浪微博、天涯、百度贴吧、股票贴
吧、财经贴吧、新浪博客、网易博客。
1.2. 分布式全文检索技术
1) 自主研发的分布式高扩展性、高性能全文检索系统I3Search。
2) 支持文本、数字、日期、字符串等数据类型的高效索引。
3) 支持丰富的查询语言,同时支持 32 位与 64 位硬件平台下的 Windows 、Linux 等
主流操作系统。
4) 索引速度高达 9M/S ,支持在线索引,实现毫秒级别查询。
1.3. 中文信息处理技术
1.3.1. 中文分词技术
1) 支持简体中文和繁体中文的词语切分,支持最常用的 UTF8 编码格式文本
2) 采用 C/C++编写,速度快,性能稳定。
3) 面向领域定制,可以准确地切分领域的专业术语词汇。
4) 支持未登录词识别,词典中不可能收录所有的词语,大量的人名、地名、外来语译
名、新词语等等,可以支持对未登录词的切分。
5) 分词效果,采用 SIGHAN2005 中文分词国际评测语料 PKU,MSR 进行分词效果评价,
效果达到目前分词技术的领先水平。
语料 准确率 召回率 F 值
PKU 0.952 0.953 0.952
MSR 0.957 0.962 0.959
1.3.2. 倾向性分析技术
1) 支持中文和英文混合文本,支持最常用的 UTF8 编码格式文本
2) 采用 C++编写,速度快,性能稳定。
3) 面向领域定制,引入领域的专用情感词典。
4) 高度可配置化,方便定制不同分析策略。
5) 分类效果,以金融行业为例,达到目前国内外金融倾向性分析先进水平,在不同通
道实际业务金融语料上评估表明平均准确率和召回率超过 85% 。
1.3.3. 命名实体识别技术
1) 面向领域文本进行定制,自动识别出其中出现的人名、地名、机构名、时间短语和
名称的命名实体。
2) 采用 C/C++编写,速度快,性能稳定。
3) 提供两种编程接口
a) 模块接口,可以在应用程序中以接口的形式直接被调用
b) 服务接口,将实体识别模块封装成服务端计算,客户端访问的服务方式,用户通过
C++,
您可能关注的文档
- 真题版2015年10月自学考试00896电子商务概论历年真题.pdf
- 索芙特股份有限公司财务分析总结报告(2).pdf
- 矿产普查及勘探毕业论文题目.pdf
- 生态文明视域下领导干部生态观构成及践行路径用于合并.pdf
- 公司绩效历年主观题和(附答案).pdf
- 数据统计学原理网上作业及答案.pdf
- 物流师试题(卷册二).pdf
- 环保局工作情况汇报.pdf
- 演讲活动又叫讲演或演说.pdf
- 秸秆还田综合利用技术示范推广.pdf
- 湖北省鄂东南教育联盟联考2025-2026学年高三上学期11月期中考试英语试卷.docx
- 2026年中考语文一轮复习:常考必背易错字词及成语汇编(含练习题及答案).docx
- 福建省部分达标学校2024-2025学年高一上学期11月期中考试英语试卷含解析.docx
- 精品解析:北京市丰台区2025-2026学年高一上学期11月期中考试政治试题-A4答案卷尾.docx
- 2026年中考语文常考考点专题之小说阅读.docx
- 第02讲《西游记》整本书阅读(练习)(解析版)-2026年中考语文一轮复习名著阅读(全国通用).docx
- 贵州遵义2013—2021年中考满分作文36篇.docx
- 2026年中考语文常考考点专题之作文.docx
- 2026中考英语词性转换汇总.docx
- 2026年中考英语专题复习:环境保护、保护野生动物等 常考话题作文练习题(含答案+范文).docx
原创力文档


文档评论(0)