大规模内容计算(LCC)组介绍.pptVIP

下载本文档

4
0
约1.08千字
约 19页
2018-01-24 发布于浙江
举报
版权申诉

大规模内容计算(LCC)组介绍.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模内容计算(LCC)组介绍

大规模内容计算(LCC)组介绍Large-scale Content Computing 王斌中科院计算所软件室 wangbin@ 2005年6月HIT 内容提要总体情况研究框架研发现状部分系统总体情况中科院计算所软件室(7个研究室之一)：约150人，员工50人 2000年成立，第一任主任白硕，现任主任程学旗网络安全 + 网格平台大规模内容计算课题组 (30人，员工10人) 路线：需求驱动、浅层计算、产出影响领域：IR NLP ML DM 主要人员：王斌、许洪波、张刚、骆卫华、张凯、郭岩、刘悦、张华平、丁国栋信息获取高速、高质量 WEB膨胀得特别厉害冗余度大、噪音多一些新的现象 Deep Web WEB Spamming Virtual Links 研究方向：基于主题的采集、个性化采集高性能采集采集平台信息分析和组织编码识别、转换、噪音消除词法分析(中文分词、中英文词性标注) 文本表示(图模型、扩展的向量模型) 句法分析语义分析自动索引内容抽取(标题、摘要) 高性能文本分类/聚类检索模型 WEB mining 信息应用 WEB检索 Indexing/Searching 性能信息过滤粗过滤：多字符串精确模糊匹配细过滤：基于内容的过滤垃圾邮件过滤信息发现和跟踪发现话题、跟踪话题 P2P挖掘： Email追踪：短文本挖掘人物信息跟踪：问答式系统：最新的进展高性能分类目标：追求速度和效果的平衡方法：在线学习，错误驱动效果：在四个标准分类库上，和SVM效果相当；但是速度快，和中心向量法相当 Language Modeling IR 提出了一个更抽象的平滑方法在理论上统一了Jelinek-Mercer和Dirichlet Priors方法 Anti-spam Email Filtering 模型：后缀树模型方法：基于字符串匹配技术的分类方法效果：在Bench Mark上超过现有的方法。部分系统信息采集系统 WEB检索系统中文分词系统其他其他资源建设语料词典常用工具第二届全国信息检索与内容安全学术会议 10月底，北京 7月15号截稿 /ncircs/ 希望大家踊跃投稿！谢谢 * * 研究框架 Internet 文档获取 Users WEB检索信息过滤/监控信息发现追踪 … 数据分类/聚类/索引数据信息抽取/ 文本分析信息获取信息分析和组织信息应用技术