- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
silenus09年工作进度
Silenus 09年工作进度
Nist 08测试
时间 BLEU值(敏感) 参数 知识源 程序版本 完成情况 2009-3-20 24.30 历史最好 g12原始子句切分
train.289.o5.eng.lm.gz
xinhuan.o5.eng.lm.gz
256W规则
原来的命名实体 Silenus_v2.4 已完成 2009-4-8 24.67 历史最好 g12原始子句切分
train.289.o5.eng.lm.gz
xinhuan.o5.eng.lm.gz
256W规则
原来的命名实体 Silenus_v2.4.4 已完成 2009-4-12 24.98 06news 同上 Silenus_v2.4.4 已完成 2009-4-13 24.96 06others 同上 Silenus_v2.4.4 已完成 2009-4-14 24.77 枚举 06news 同上 Silenus_v2.4.5 已完成 24.82 枚举R 24.91 Cube Pruning R 2009-4-15 25.39 枚举 06news 修改了06news的树概率权重为0.0185963 Silenus_v2.4.4 已完成 25.27 枚举R 25.27 CPR 2009-4-15 24.97 枚举 06news 没修改概率权重 Silenus_v2.4.6 已完成 25.02 枚举R 25.10 CPR 2009-4-15 25.38 枚举 06news 修改概率权重 Silenus_v2.4.6 已完成 25.26 枚举R 25.26 CPR 最新语言模型
562w规则 Silenus_v2.8 未完成 Nist08训练
训练集 时间 BLEU值(不敏感) 知识源 程序版本 完成情况 05 2009-4-8 34.21 g12原始子句切分
train.289.o5.eng.lm.gz
xinhuan.o5.eng.lm.gz
256W规则
命名实体 Silenus_v2.4.4 完成 06newsire 2009-4-11 34.34 g12原始子句切分
train.289.o5.eng.lm.gz
xinhuan.o5.eng.lm.gz
256W规则
命名实体 Silenus_v2.4.4 完成 06others 2009-4-12 31.05 g12原始子句切分
train.289.o5.eng.lm.gz
xinhuan.o5.eng.lm.gz
256W规则
命名实体 Silenus_v2.4.4 完成
Silenus 版本控制
版本号 版本描述 2.4.1 nbest不去重 2.4.2 未登录词全部设置为UNK标签,table表不设限制 2.4.3 修改nbest一个小bug,优先队列改用堆,不包括2.4.2 2.4.4 调整各个知识源权重,短语表0.6,字典0.8,不包括2.4.2 2.4.5 调整各个知识源权重,短语表0.6,字典0.8,UNK,不包括2.4.2 2.4.6 调整各个知识源权重,短语表0.6,字典0.8,UNK+,不包括2.4.2 2.5 使用triindex 2.6 多线程 2.7 性能改进,规则表使用指针 2.8 多线程,nbest去除bug,优先队列使用堆,nbest不去重,知识源使用权重
规则抽取
特征 完成情况 源语言端左右边界词,文本词性 已完成 目标语言端左右边界词,文本词性 已完成 源语言端子短语边界词 已完成 目标语言端子短语边界词 已完成 源语言端子短语长度 已完成 目标语言端子短语长度 未完成 父节点 已完成 兄弟节点 已完成 依存关系,中心词 未完成 最大熵分类 未完成 解码器修改 未完成
中文句法分析器
版本号 版本内容 完成情况 ICTCHIP_v3.0 重写森林剪枝,整合进分析器 已完成 ICTCHIP_v3.1 多线程+3.0 已完成
子句切分
切分方案 BLEU 知识源 完成情况 句法分析后切分 枚举23.96 256w+g15剪枝,句法分析ct 15 it 12 已完成 枚举重排序23.97 cube pruning 重排序 23.95 句法分析后切分 g12剪枝,句法分析ct 12 it 9 解码中 所有语料全部子句切分 未完成
570万句法分析
文件块 总数 完成数 运行节点 gq_head 1,000,000 105,522 a113 gq_tail 548,447 92,339 a113 hn 690,177 131,063
您可能关注的文档
- plc实现变频调速器多电机控制.doc
- proposalweb-standardwizardtemplate-chineseportal.doc
- psam卡需求分析.doc
- psosystem&prism+overview.doc
- pwm技术实现方法综述.doc
- psoc原理及操作教程.doc
- qj44型携带式直流双臂电桥.doc
- reportoftheglobalenvironmentfacility.doc
- smg2000b数字双钳相位伏安表.doc
- smt生产中的静电防护技术.doc
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
文档评论(0)