信息技术环境下的习活动设计研究.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息技术环境下的习活动设计研究

华中师范大学 国家语言资源监测与研究中心 网络媒体语言分中心 涂新辉 基于排序学习的 文本概念标注方法研究 人类理解自然语言的过程是一个语义概念的联想和关联的过程,这种功能是由人类大脑中几百亿个神经元构成的复杂神经网络所提供的。 大脑的语言能力 传苹果将于2012年乔布斯生日当天发布iPad 3? 新闻标题 大脑概念层 苹果公司 乔布斯 iPad 苹果 苹果遭遇对手!高分辨率屏幕手机盘点? 德国法院驳回苹果对三星的诉讼? 平安夜吃苹果 圣诞节中国化? 手机 水果市场箱装苹果缩水 纸箱被灌水泥重6斤 水果 三星公司 和人脑的基于概念的语义表征方法不同的是:“词袋”模型可以捕获文档的词语的细节,但是难以表征文档的主题信息。 传统文本表征模型的困境 传苹果将于2012年乔布斯生日当天发布iPad 3? 新闻标题 苹果遭遇对手!高分辨率屏幕手机盘点? 德国法院驳回苹果对三星的诉讼? 平安夜吃苹果 圣诞节中国化? 水果市场箱装苹果缩水 纸箱被灌水泥重6斤 “词袋”模型 苹果 乔布斯 iPad 手机 水果 三星 …… 概念是描述文本主题的非常重要的信息 基于概念的文本表征可以捕获文本的主题信息 研究动机 传苹果9月发布iPhone5 年底推出全新iPad 据报道,苹果将在今年9月正式发布新一代iPhone,目前该机的量产工作即将开始。苹果产业链内部人士还爆料称,苹果将在下代iPhone发布前即今年8月,推出传闻多时的7.85寸mini版iPad,与此同时,今年年底时,他们还将发布新一代iPad。…… 在大多数文档集中并没有可以直接利用的标注好的概念 本文中提出了一种利用排序学习模型自动生成概念标注的方法 基于维基百科概念的方法 概念库的构建 要建立能够表征文本中所蕴含中各种复杂主题所使用概念集合应该满足以下条件: 包含覆盖不同领域主题的海量概念 新的概念能够及时加入到这个概念库中 这些概念应该是人可以理解的 要建立和维护这样应该自然概念的集合是一个异常艰巨的任务。幸运的是,维基百科-这个世界上最大的百科知识库-已经满足了上面的几个要求。 概念库 ? 维基百科概念库的统计信息和结构 相关背景—已有的概念标注方法 基于关键词匹配(David Milne, 2008 等) 基于内容相关性匹配(显示语义分析, Gabrilovich, 2007 ) 提出新标注方法的研究动机 显示语义分析模型只考虑概念和文本的相关性,没有考虑概念本身的其它特征 可能有多种特征会影响我们使用概念来表示文本,希望利用有导学习的方法让机器学习人类在使用概念来表示文本时考虑的各种因素 相关背景—排序学习基本思想 当文档中的特征越来越多时,通过人工设定特征的权重信息来构建模型对文档排序的方法就难以为继了。 排序学习 (Learning to rank) 的方法试图利用有导学习的方法自动建立对象的排序模型。 Ranking SVM 方法 输入是针对一组查询的偏序排序信息的一组训练集合: 给定概念的训练数据和相关性排序信息,我们希望找到一个权重向量尽可能多地满足以下条件: 实际上,没有有效的方法找到完全满足条件的权重向量 。但是,可以把这个问题转换为一个标准的 SVM 优化问题: 特征列表 训练集生成系统 12位用户使用一个专门开发的文档段落标注系统为600个段落进行了人工标注 训练样本示例 标注完成后共得到3387个概念,平均每个段落5.6个概念。在实验中我们同时选取了未被选择的3500个概念作为反例。 自动生成的概念标注示例 和传统方法的比较 不同概念数的比较 总结 维基百科-这个世界上最大的百科知识库维基百科涵盖了大部分日常使用的概念,是建立通用概念库的绝佳资源。 实验表明,本章中利用Ranking SVM 排序学习算法得到的概念排序模型,比传统的文档概念映射方法在各类指标上都有相当大的提高,这个标注系统比传统的方法得到的概念标注更加接近人类的概念标注 研究中文文本的概念标注 把本文中的方法应用到各类自然语言处理任务中 未来工作展望 谢谢!请各位专家指正! * * * *

文档评论(0)

woai118doc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档