一种有效的大规模语言模型表示方法——Trindex的设计与实现.pptVIP

下载本文档

6
0
约 14页
2017-09-02 发布于重庆
举报
版权申诉

一种有效的大规模语言模型表示方法——Trindex的设计与实现.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种有效的大规模语言模型表示方法——Trindex的设计与实现骆卫华自然语言处理课题组 2009-6-5 提纲双层TRIE存储结构按需加载优化策略实验改进策略双层TRIE存储结构内存LM N元语言模型的k元前缀部分(k≤N) 以TRIE形式存储于内存硬盘LM N元语言模型的子树森林以二进制文件形式存储于硬盘按需加载按需加载在查询N元组a1a2…aN时，如果a1a2…aN不存在，而其前缀a1a2…ak（k≤N）存在，则定位到硬盘LM相应部分并加载部分映射从子树所在的位置开始向后映射按需加载优化策略节省空间块读取读文件时按块读取部分映射内存TRIE的叶子结点保存其第一个子树在硬盘LM的偏移位置从偏移位置内存映射一部分数据加载部分子树森林除最底层结点，加载硬盘LM时只存储真正查询过的N元组优化策略加快速度 ID 位置映射 1元组直接按照ID映射到对应的数组位置部分清除在清除内存TRIE时保留查询次数多的N元组 N元组缓存在翻译一句话时，保留部分已查询过的N元组，下次遇到直接查询计算结果缓存需计算才能得到的N元组概率直接保存到另一个TRIE 预取预先加载高频N元组部分实验结果设置解码器：Moses 短语表：2.3G（560万句对）语言模型：GigaAll 5元（17G）训练集：NIST05 测试集：NIST08 Trindex设置初始加载层数：2 部分映射大小：100M 部分清除：最大查询次数/2 部分实验结果部分实验结果总查询次数：约10亿次n-gram查询 Trindex的调用时间分配在内存TRIE中查询N元组概率：5% 计算N元组概率（无法直接查到）：10% 把硬盘LM映射到内存中：85% 改进策略尝试并改进预取策略减少无效操作的次数 * * a b c a c b e f g i k j 内存LM 硬盘LM a c b a b c 查询: abab a b c a c b a b c 查询: abab a b c a b *