20151129-戴新宇-地理高考试题文本处理、分析“和理解“ - 南京大学.pptVIP

20151129-戴新宇-地理高考试题文本处理、分析“和理解“ - 南京大学.ppt

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20151129-戴新宇-地理高考试题文本处理、分析“和理解“ - 南京大学

Institute of Computer Software Nanjing University Institute of Computer Software Nanjing University 地理高考试题文本处理、分析和理解 戴新宇 南京大学课题组 内容概要 阶段性工作总结 试题库文本的梳理、标注和总结 地理试题词法分析 基于模板的试题文本表示 试题文本语义表示及问题 * * 阶段性工作总结 -- 试题库文本的梳理、标注和总结 试题库文本的梳理、标注和总结 针对北京高考若干套真题及模拟题的每一个题面及选项,标注 求解目标 (Answer Type): 多实体、单实体、判断、流程、其它; 问句模式 (Question type): 事实、因果、比较、关联、图表计算、其它; 时间表达式; 地点表达式; 学科术语; 课本知识点: 对应书本上的书号、章、节; 思维导图知识点; 图片: 标注出图片的类型,以及图片中包含的三元组信息。 * * 阶段性工作总结 -- 地理试题词法分析 地理试题文本词法分析 分词策略: 基于集成结构化感知器的序列化标注 用户词典优先的分词策略 时间表达式的识别 地点表达式的识别 性能:95%+ * * 阶段性工作总结 --基于模板的试题文本表示 基于模板的试题文本表示 举例: 此时,昆明气压较贵阳高 时间限定(此时)比较(昆明,贵阳,气压,高) 面向求解的策略手工制定问句模板 上述模板基本可以覆盖近十年北京高考真题 * * 位于(实体,地点) 分布(实体,地点,特征) 排序(方面,顺序,列表) 趋势(实体,#方面,#伴随/原因,变化) 影响(影响主体*,受影响体,#影响结果*) 匹配(实体1,实体2) 措施(问题,方案) 比较(实体1,#实体2,#方面1,#方面2,结果) 最值(实体,#方面,特征,#范围) 因果(原因*,结果*) 实体信息陈述(实体,#方面,取值*) # 表示该槽可以为空 * 表示该槽可以嵌套模板 阶段性工作总结 --基于模板的试题文本表示 基于模板的试题文本表示 问句模板与触发词 触发词: 能够触发句子表示特定模板的词语 例如: “我国主要入海河流年总输沙量变化可能是由于水土流失现象加剧” 问句模板: 因果(趋势(水土流失现象,#,#,加剧),我国主要入海河流年总输沙量变化) 触发词: 因果——“由于” 趋势——“加剧” * * 阶段性工作总结 --基于模板的试题文本表示 触发词的特点: 除了“实体信息陈述”模板,其它模板在原句中几乎都会有对应的触发词 ? 构建触发词列表 基于word2vec的扩展及人工删选 模板的框架信息能否帮助更精确地扩展触发词? * * 阶段性工作总结 --基于模板的试题文本表示 触发词的特点: 除了“实体信息陈述”模板,其它模板在原句中几乎都会有对应的触发词 ? 构建列表,扩展列表 模板触发词之间并没有overlap (目前) ? 同一个词在不同的句子里可能是或者不是触发词 ? 该交通体系的建立有利于提高运输效率【影响】 影响(该交通体系的建立,运输效率,提高) 大量调水后,汉江的丹江口下游航运能力提高【趋势】 时间限定(大量调水后)趋势(汉江的丹江口下游,航运能力,#,提高) 有嵌套模板的句子中可能有多个触发词,基于触发词找到模板的嵌套结构 ? * * 阶段性工作总结 --基于模板的试题文本表示 识别触发词 任务描述: a. 给定一个触发词列表,给定一个句子,判断句子中存在哪几个触发词? (有可能在列表中但不是触发词) b.给定一个句子,判断句子中存在哪几个触发词? 方法: 单个词预测是否为触发词(或特定模板的触发词) 序列化标注出,一个句子中存在的一个或多个触发词 * * 序列化标注 recall precious F-score 位于 0.972222 1 0.985915 分布 0.833333 0.862069 0.847458 排序 0.722222 0.896552 0.8 趋势 0.923077 0.972973 0.947368 影响 0.689655 0.952381 0.8 匹配 0.59375 0.95 0.730769 措施 0.972222 1 0.985915 比较 0.969697 1 0.984615 最值 0.833333 1 0.909091 因果 0.65625 0.954545 0.777778 平均 0.816576 0.958852 0.882013 试题文本语义表示及问题 -- 问题举例 术语的界定,术语词典的离线构造,在线扩充(与知识库的结合) 并列结构(成分)的识别 示例1:“该日,荷兰比北京昼更短,夜更长” 示例2:“在7、8月份,伦敦比北京风小雾大,降水多。

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档