自然语言理解大作业指南中文的分词-词性标注系统..pptVIP

  • 4
  • 0
  • 约2.11千字
  • 约 15页
  • 2017-01-08 发布于山西
  • 举报

自然语言理解大作业指南中文的分词-词性标注系统..ppt

自然语言理解大作业指南中文的分词-词性标注系统.

自然语言理解大作业指南 中文的分词-词性标注系统 赵海 上海交通大学 计算机科学与工程系 zhaohai@ 目标 根据提供的训练语料,训练一个或两个模型 在此获得的模型下,依据某个解码算法能对于输入的中文文本进行词切分和词性标注 格式 输入的训练文件格式举例,由以下类似格式的各行构成的文本文件: 中国/NR 进出口/NN 银行/NN 与/CC 中国/NR 银行/NN 加强/VV 合作/NN 输入的测试文件格式 中国进出口银行与中国银行加强合作 要求训练出的模型能够在适当的算法支撑下对以上的测试输入进行切分并且标注词性,输出的各式和训练文件相同 所有提交的系统只接受命令行格式的输入和输入,推荐命令行格式: Training: Your_program_train input.train.file output.model Test Your_program_test output.model input.test output.test 评估度量 使用比较标准答案和测试输出的f-score判定你的输出成绩 F=2RP/(R+P) R=测试输出中正确的词次数/正确答案中的词次数 P=测试输出中正确的词次数/测试输出中的词次数 只有切分和词性都对才能算完全正确一次 如果切分对,但是词性错,算正确0.5次 只要切分错

文档评论(0)

1亿VIP精品文档

相关文档