- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模内容计算(LCC)组介绍
大规模内容计算(LCC)组介绍Large-scale Content Computing 王 斌 中科院计算所软件室 wangbin@ 2005年6月HIT 内容提要 总体情况 研究框架 研发现状 部分系统 总体情况 中科院计算所软件室(7个研究室之一):约150人,员工50人 2000年成立,第一任主任 白硕,现任主任 程学旗 网络安全 + 网格平台 大规模内容计算课题组 (30人,员工10人) 路线:需求驱动、浅层计算、产出影响 领域:IR NLP ML DM 主要人员:王斌、许洪波、张刚、骆卫华、张凯、郭岩、刘悦、张华平、丁国栋 信息获取 高速、高质量 WEB膨胀得特别厉害 冗余度大、噪音多 一些新的现象 Deep Web WEB Spamming Virtual Links 研究方向: 基于主题的采集、个性化采集 高性能采集 采集平台 信息分析和组织 编码识别、转换、噪音消除 词法分析(中文分词、中英文词性标注) 文本表示(图模型、扩展的向量模型) 句法分析 语义分析 自动索引 内容抽取(标题、摘要) 高性能文本分类/聚类 检索模型 WEB mining 信息应用 WEB检索 Indexing/Searching 性能 信息过滤 粗过滤:多字符串精确模糊匹配 细过滤:基于内容的过滤 垃圾邮件过滤 信息发现和跟踪 发现话题、跟踪话题 P2P挖掘: Email追踪: 短文本挖掘 人物信息跟踪: 问答式系统: 最新的进展 高性能分类 目标:追求速度和效果的平衡 方法:在线学习,错误驱动 效果:在四个标准分类库上,和SVM效果相当;但是速度快,和中心向量法相当 Language Modeling IR 提出了一个更抽象的平滑方法 在理论上统一了Jelinek-Mercer和Dirichlet Priors方法 Anti-spam Email Filtering 模型:后缀树模型 方法:基于字符串匹配技术的分类方法 效果:在Bench Mark上超过现有的方法。 部分系统 信息采集系统 WEB检索系统 中文分词系统 其他 其他 资源建设 语料 词典 常用工具 第二届全国信息检索与内容安全学术会议 10月底,北京 7月15号截稿 /ncircs/ 希望大家踊跃投稿! 谢谢 * * 研究框架 Internet 文档 获取 Users WEB检索 信息过滤/监控 信息发现追踪 … 数据 分类/聚类/索引 数据 信息抽取/ 文本分析 信息获取 信息分析和组织 信息应用技术
文档评论(0)