面向大规模信息检索中文分词技术研究.pptVIP

  • 4
  • 0
  • 约1.12万字
  • 约 73页
  • 2017-09-01 发布于安徽
  • 举报

面向大规模信息检索中文分词技术研究.ppt

七、实验结果和分析 分词测试结果 表8 pku语料库测试结果 P R Povv Rovv RIV IRSEG 0.933 0.921 0.804 0.653 0.982 ICTCLAS 0.920 0.911 0.641 0.599 0.981 FMM 0.856 0.887 0.000 0.000 0.952 七、实验结果和分析 分词测试结果 表9 msr语料库测试结果 P R Povv Rovv RIV IRSEG 0.842 0.882 0.401 0.220 0.964 ICTCLAS 0.853 0.893 0.468 0.300 0.969 FMM 0.802 0.868 0.000 0.000 0.912 七、实验结果和分析 分词测试结果 图9三种算法平均的切分准确率和召回率 七、实验结果和分析 分词测试结果相关说明 测试集切分标准不同。比如人名、时间、数量词等未登录词的切分标准。 语料库本身就存在一些切分不太合理或者可以说错误的地方 。 “相当大军区级单位的正职首长” 语料库切分结果:相当\大军\区级\单位\的\正职\首长 IRSeg切分结果:相当\大\军区\级\单位\的\正职\首长 有些地方虽然与语料库切分结果不同而被认为是切分错误,但实际上在语言学上来说,并没有严格的对错之分。甚至,有些我们认为要比语料库中的切分更合适一些。比如:“系\主任”、

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档