试题标注结果统计及分析 - 南京大学.pptVIP

试题标注结果统计及分析 - 南京大学.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
试题标注结果统计及分析 - 南京大学

求解目标标注结果分析 与题面的关联分析(基于lasso特征选择模型的关键字提取算法) 问句模式标注结果分析 与题面的关联分析: 术语标注 手工标注并且不属于收集的术语集合的术语: 思维导图知识点标注分析 与题面的关联分析: 课本知识点标注结果分析 与题面的关联分析: 思维导图知识点分布 符合规范的标注统计结果(只统计根知识点的分布情况): 思维导图知识点分布 不同出现频率的知识点的分布: 思维导图知识点标注结果分析 未出现过的根知识点: 旅游与区域发展 宇宙 工业地狱的形成与发展 世界主要国家 课本知识点 课本知识点总条数:921 按照课本划分: 课本知识点标注结果 按照章划分,出现频率前10为: 试题标注结果统计及分析 南京大学-nlp组 2015.06.07 标注体系 试题及选项 求解目标:以题为单位,answer type 多实体、单实体、判断、流程、其他 问句模式: 以选项为单位,question type 事实、因果、比较、关联、图表计算、其他 时间 地点 术语 课本知识点 思维导图知识点 图片类型(可选) 标注样例 标注结果及分析 南大10人参加标注 28套北京高考及各区模拟试题 共515道选择题,515*4=2060个选项 求解目标标注结果统计 判断 386 单实体 83 多实体 36 流程 9 其它 1 问句模式标注结果统计 事实:349 因果:120 比较:100 图表计算:32 关联:19 其他:2 问句模式(标注错误) 问句模式为“其它”的题: 按照约定,上述题面不需要单独标问句模式,这里应该是误标 时间词标注 数量:251 我们将时间词整理为9类,识别优先级如下: cycle:周期类 period:时间段 season:季节(包括部分节气) timep:不同粒度的时间点 cond:有条件的时间 stage:某期间或某时期 frame:一天中的某时段 ref:虚拟指代的时间 other:其他 时间词分析 cycle 规则: 表达式中包含每 数量:5 例子: 时间词分析 period 规则: 数量:42 例子: 时间词分析 season 规则: 表达式中包含春“夏”“秋”冬中的至少一个 数量:29 例子: 夏季,春,秋冬,春季,冬季,秋冬季 特殊: 夏至日 冬夏之交 时间词分析 timep 规则: 表达式中包含年“月”“日”中至少一个,并且有数字(中文或阿拉伯数字) 包含“时”,并且前一个字符为数字 包含“点”,并且前一个字符为数字 包含“:”或:(时分秒) 包含/(年月日) 数量:116 例子: 特殊: 年复一年 此日后20天 3、4月 近20年来 2300万年前 时间词分析 cond 规则: 表达式以“时”或“后”结束 数量:11 例子: 特殊: 2小时后 此时 时间词分析 stage 规则: 数量:10 例子: 特殊: 图示时期 甲时期 (上述两个是否应该算入ref虚拟指代时间词中?) 时间词分析 frame 规则: 表达式包含这些词中的某一个: [u傍晚,u早晨,u昼,u夜,u上午,u中午,u下午,u晚上,u夜晚,u黎明,u深夜,u午间,u日出,u日落] 数量:9 例子: 时间词分析 ref: 规则: 表达式包含“某”“该”“当”“此”中的一个 数量:6 例子: 时间词分析 other 没有被分到上述8类的其它时间表达式 数量:23 例子: 地点词统计 数量:1019 8类,识别优先级如下: lonlat:包含经纬度的地点 ref:虚拟指代的地点 adregion:行政区域,国家、省、市、县等等 station:XX站 special:XX平原、高原等,包括特例公园 area:XX区 direction:包含方位词 other:其它 地点词分析 lonlat 规则: 包含°或者“北纬”“南纬”“东经”“西经” 数量:36 例子: 90oE 乌鲁木齐(44°N,88°E) (20°, 127°) 北纬35°~40° 西经170°附近 北纬50° 地点词分析 ref 规则: 包含“甲”“乙”“丙”“丁”中至少一个 或,包含①②③④⑤⑥中至少一个 或,包含字母 或,包含“某”“图示”“该”“此”“图中”“图+数字”中至少一个 数量:215 例子: 地点词分析 adregion 规则: 以“省”“市”“国”“县”“自治区”结尾 一个手工编辑的地名过滤列表(仅适用于目前收集的地名) 数量:322 例子: 海口 北京市 江苏省 荷兰 特殊: 苏、皖、浙、闽四省 我国 江苏省和陕西省 两省 各省 我国部分城市 地点词分析 station 规则: 以“站”结尾 数量:11 例子: 地点词分析 special 规则: [u平原,u高

文档评论(0)

yanpizhuang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档