烟台中科网络技术研究所拟推广技术和应用.pdfVIP

烟台中科网络技术研究所拟推广技术和应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
烟台中科网络技术研究所 简介 烟台中科网络技术研究所(简称“网络所”)由中国科学院计算技术研究所与烟台高新 技术产业开发区共同组建的从事网络应用技术研究的事业单位,于 2011 年 10 月正式挂牌成 立。网络所定位为把国家战略需求的拉动和地方市场驱动组合在一起,与中科院计算所协同 开展网络数据平台建设,技术转移和产业辐射等工作。网络所主要研究方向是海量网络信息 处理和信息服务,是中科院计算所继曙光、龙芯后第三发展方向“天玑”的研发和产业化基 地。 网络所在烟台高新区的大力支持下,三年来取得了快速发展。目前有正式员工 80 人, 42%为研究生学历,组建了研发、测试、运维、信息服务的完整研发团队,拥有多名国内网 络数据方向的一流科研人员。建成 400 平米独立的电信级网络数据专用中心机房,500 台高 性能服务器集群,总计算能力 60 万亿次浮点运算/秒,总存储 1.2PB,400Mbps 互联网接入 带宽 1. 拟推广技术 1.1. 互联网信息采集技术 1.1.1. 定向采集技术 1) 能够从互联网中高速准确的采集公开数据,提取相关元信息。 2) 能够快速高效获取网页,支持 Javascript 等多种复杂页面形式,支持网页编码自动 识别和转换,支持基于 cookie 状态检测的采集,具有反“防刷新”的采集机制; 3) 可定向采集并抽取新闻、论坛、博客、微博客、评论等各类复杂的信息内容; 1.1.2. 元搜索采集技术 元搜索可以认为是对多个独立搜索引擎的整合、控制和优化利用,对独立搜索引擎的 整合、控制和优化利用称之为 “元搜索技术”,元搜索技术即是元搜索引擎的核心。元搜索 主题采集,在各大搜索引擎基础上只采集用户感兴趣的内容,信息全面,更新及时。目前支 持的(站内)搜素引擎有,百度、搜狗、360、新浪、新浪微博、天涯、百度贴吧、股票贴 吧、财经贴吧、新浪博客、网易博客。 1.2. 分布式全文检索技术 1) 自主研发的分布式高扩展性、高性能全文检索系统I3Search。 2) 支持文本、数字、日期、字符串等数据类型的高效索引。 3) 支持丰富的查询语言,同时支持 32 位与 64 位硬件平台下的 Windows 、Linux 等 主流操作系统。 4) 索引速度高达 9M/S ,支持在线索引,实现毫秒级别查询。 1.3. 中文信息处理技术 1.3.1. 中文分词技术 1) 支持简体中文和繁体中文的词语切分,支持最常用的 UTF8 编码格式文本 2) 采用 C/C++编写,速度快,性能稳定。 3) 面向领域定制,可以准确地切分领域的专业术语词汇。 4) 支持未登录词识别,词典中不可能收录所有的词语,大量的人名、地名、外来语译 名、新词语等等,可以支持对未登录词的切分。 5) 分词效果,采用 SIGHAN2005 中文分词国际评测语料 PKU,MSR 进行分词效果评价, 效果达到目前分词技术的领先水平。 语料 准确率 召回率 F 值 PKU 0.952 0.953 0.952 MSR 0.957 0.962 0.959 1.3.2. 倾向性分析技术 1) 支持中文和英文混合文本,支持最常用的 UTF8 编码格式文本 2) 采用 C++编写,速度快,性能稳定。 3) 面向领域定制,引入领域的专用情感词典。 4) 高度可配置化,方便定制不同分析策略。 5) 分类效果,以金融行业为例,达到目前国内外金融倾向性分析先进水平,在不同通 道实际业务金融语料上评估表明平均准确率和召回率超过 85% 。 1.3.3. 命名实体识别技术 1) 面向领域文本进行定制,自动识别出其中出现的人名、地名、机构名、时间短语和 名称的命名实体。 2) 采用 C/C++编写,速度快,性能稳定。 3) 提供两种编程接口 a) 模块接口,可以在应用程序中以接口的形式直接被调用 b) 服务接口,将实体识别模块封装成服务端计算,客户端访问的服务方式,用户通过 C++,

文档评论(0)

LF20190802 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档