信息抽取(Information - Slide 1知识分享.pptVIP

  • 272
  • 0
  • 约1.7万字
  • 约 95页
  • 2018-10-17 发布于天津
  • 举报
信息抽取(Information - Slide 1知识分享.ppt

6.中文信息抽取系统的开发 初步解决中文信息抽取 6.中文信息抽取系统的开发 三个中文信息抽取的主要问题 Chinese tokenizing Chinese gazetteers Chinese named entity recognition 相应的处理方案 中文信息抽取 Chi Tokenizing Chi IE Chi Gazetteer 应用实验 应用实例 Chi Rules 用Java的JNI调用计算所ICTCLAS实现分词和词性标注。 通过网上免费语料或自己制作获得。(目前已有英文词表95个;中文词表74个) 重新构造中文IE的JAPE规则。 和现有信息系统结合,比如RSS信息聚合系统。 基于GATE的英文、中文信息抽取,开发Chinese Annie组件。 中文预处理 中文分词与词性标注 利用了ICTCLAS的研究(C++)成果 词性标注算法:HMM(马尔可夫隐码模型) 分词算法:图的N阶最短路径问题算法 源码结构: Utility?????????? 共用函数模块 Unknown??????未登录词识别模块 Tag????????????? HMM标注模块 Segment???????词语切分模块 Result??????????结果生成模块 Data????????????概率数据文件 res????????????? Windows界面

文档评论(0)

1亿VIP精品文档

相关文档