- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章-互联网应用技术概论汇
北京大学软件与微电子学院2009度课程 第七章 互联网应用技术概述 2010年11月 自我介绍 主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。北大软件学院兼职教师。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生20余名。计算机学会高级会员,ACM、IEEE、中文信息学会会员,中文信息学会信息检索专委会委员,《中文信息学报》编委。 /~wangbin/ wangbin@ 办公电话提纲 互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法 提纲 互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法 搜索引擎 更多的搜索引擎 Google Killer? Email Email 分类目录 电子商务 BBS 社区网站-豆瓣网 社区网站--校内网 博客 以上应用的共同特征 基于内容的应用 内容是互联网应用的生命线 包括几个主要共同的技术 搜索 分类/聚类 过滤/推荐 提纲 互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法 搜索(Search) 搜索:从大量文档(Document)集合(Collection)中根据用户的需求(User Information Need)返回相关(Relevant)文档集合并排序(Ranking)的应用。 主要特点: 用户的需求动态变化,文档集合相对静态 事先下载,事先组织,在线搜索 应用例子: 搜索引擎 站内搜索 搜索技术 信息的获取技术 信息的组织和整理技术 相关度计算和排序技术 结果呈现技术 相关反馈、查询扩展技术 搜索的评估 信息分类(Classification) 信息分类:根据已有的类别体系(如:体育、经济、军事…)和训练文档(每个类别对应若干文档),对一篇新的文档判断其所属类别。属于有监督的机器学习 主要特点: 类别体系静态,但是需要分类的文档动态变化 事先训练,在线分类 需要大量训练文档集合 应用例子: 垃圾邮件/网页分类 信息聚类(Clustering) 聚类:从大量文档集合中自动聚团的过程,属于无监督的机器学习 主要特点: 事先无类别体系 需要事后进行解释 应用例子: 检索结果聚类 话题发现 文本分类系统的组成框架 信息过滤 信息过滤:从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。 主要特点: 用户兴趣静态,数据动态 对用户兴趣建模 应用例子: 广告推荐/商品推荐 信息过滤系统的组成框架 提纲 互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法 考核方法 技术专题讨论(20%) 学生分小组,选定一技术专题,共同读资料学习技术,并在课上交流。 阅读(30%) 阅读1篇论文SIGIR2008/2009,针对每篇文章写出至少阅读报告(含评论) 评论要有自己的见解,不要简单翻译原文的摘要和结论 评论主要着眼于文章的主要创新点和对自己启发最大的地方,以及可能的下一步研究工作 课程项目(50%) 2到3名同学一组 完成可以演示的具有一定创新的课堂项目 可从建议的项目列表中选项目,也可自己拟定项目(但需要与任课教师协商,取得任课教师的认可)。 论文阅读 ACM SIGIR Conference 课程项目 (一)、检索型: (1) 垂直搜索:选择2个或以上的餐馆网站进行爬行(餐馆记录不少于5000条),实现基于关键词的餐馆搜索,爬虫能够及时更新。 (2) 论文搜索:下载全部SIGIR论文,实现对论文的标题、摘要及全文的搜索,并实现论文之间的关系链接图,分析作者的共现关系并以图的方式显示。 (3) 桌面搜索:能够实现本机PPT文件的抽取及搜索,不少于1000篇PPT文件。能够自动抽取PPT的标题、目录等信息。 课程项目(续) (二)、文本分类型: (1) 文本分类:分类体系为:财经、科技、汽车、房产、体育、娱乐、其它类,利用网站的新闻主页,训练一个分类器(训练集合不能少于2000篇文档)。能够实现新的网页的分类。 (2) 文本倾向性分析:下载餐馆的评论信息进行训练,最后对餐馆的评论进行文本倾向性分析,分析对餐馆的评价(包括总评和细评,细评包括价格、味道、环境三个方面)是褒还是贬。 (3) 层次分类:Pascal Challenge on Large Scale Hierarchical Text Classification,http://lshtc.iit.demokrito
原创力文档


文档评论(0)