- 272
- 0
- 约1.7万字
- 约 95页
- 2018-10-17 发布于天津
- 举报
信息抽取(Information - Slide 1知识分享.ppt
6.中文信息抽取系统的开发 初步解决中文信息抽取 6.中文信息抽取系统的开发 三个中文信息抽取的主要问题 Chinese tokenizing Chinese gazetteers Chinese named entity recognition 相应的处理方案 中文信息抽取 Chi Tokenizing Chi IE Chi Gazetteer 应用实验 应用实例 Chi Rules 用Java的JNI调用计算所ICTCLAS实现分词和词性标注。 通过网上免费语料或自己制作获得。(目前已有英文词表95个;中文词表74个) 重新构造中文IE的JAPE规则。 和现有信息系统结合,比如RSS信息聚合系统。 基于GATE的英文、中文信息抽取,开发Chinese Annie组件。 中文预处理 中文分词与词性标注 利用了ICTCLAS的研究(C++)成果 词性标注算法:HMM(马尔可夫隐码模型) 分词算法:图的N阶最短路径问题算法 源码结构: Utility?????????? 共用函数模块 Unknown??????未登录词识别模块 Tag????????????? HMM标注模块 Segment???????词语切分模块 Result??????????结果生成模块 Data????????????概率数据文件 res????????????? Windows界面
您可能关注的文档
最近下载
- DB23T 3925—2024 医用空气加压氧舱安全管理指南.pdf VIP
- VW75174_Ch_2010-04_汽车连接器_试验标准.pdf VIP
- 四川省内江市2021-2022学年八年级下学期期末测评数学试卷(含解析).doc VIP
- 爆破震动安全允许距离计算表格.xls VIP
- 5G移动通信网 用户驻地设备(CPE)通用技术要求4727-2024.pdf
- NB_T 10569-2021 风电机组齿轮箱检修技术规程.docx VIP
- 村段防洪治理工程环评(新版环评)环境影响报告表.pdf VIP
- 2026年青岛版(63制)三年级科学下册 20.地球上的水(课件).pptx VIP
- 液压油缸出厂检验报告.docx VIP
- 2026年集成电路设计行业市场规模与增长报告.docx
原创力文档

文档评论(0)