网站大量收购闲置独家精品文档,联系QQ:2885784924

Research on Chinese Lexical Analysis -BIT教学精品.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向互联网应用的中文浅层语言分析技术;问题背景;分词的必要性: 词语信息熵大,计算速度更快;主要困难;主要困难2:汉语的切分歧义;主要困难2续:歧义问题;主要困难3:未登录词问题;汉语切分的数据结构-词图;汉语切分算法综述;全切分方法;最大匹配方法 1;最大匹配方法 II;最短路径方法;最短路径方法 II;N元语法分词方法;互信息与双字耦合度方法;其他方法;相关切分算法的对比测试实验 [召回率/结果数];Web搜索的串划分的简化方法;纲要;需求背景-Web内容现状 (CNNIC第19次报告);需求背景-内容形式;需求背景;需求背景;需求背景;浅层语言分析;浅层语言分析四大科学问题;浅层语言分析四大科学问题;潜在的应用方向;纲要;ICTCLAS:HHMM Architecture;ICTCLAS: Word Segmentation;ICTCLAS: Unknown word recognition;ICTCLAS : Unknown word recognition(Cont.);ICTCLAS: Unknown word recognition;ICTCLAS Solution Sample;ICTCLAS Evaluation: Result;ICTCLAS Evaluation: National Evaluation;ICTCLAS Evaluation: International Bakeoff;ICTCLAS Evaluation: International Bakeoff(Cont.);ICTCLAS2010(LJWS): 完美双数组TRIE树词典管理算法;The entry query time is O(word_length). The performance will not decrease as the dictionary size grow. On PIV/256M PC, it can query over 800,000 entries per second. Making maximum word segmentation with such lexicons, the speed is 23.5MB/s.;ICTCLAS2010(LJWS)最新进展;ICTCLAS2010(LJWS)最新进展;ICTCLAS2010(LJWS)综合测试结果 -真正适合Web的浅层语言分析利器;;ICTCLAS汉语分词系统;灵玖新特征词识别结果示例;LJWS版本结果示例;纲要;互联网新的语言分析需求;分词算法与粒度问题;分词算法与粒度问题II;分词算法与粒度问题III;分词算法与粒度问题IV;有意义串挖掘问题;有意义串挖掘问题-算法;有意义串对搜索应用的价值;有意义串分析结果;纲要;总结与展望;展望:Next Generation Web;展望:Next Generation Web II;展望:Next Generation Web III;Toward Next Generation Web Computing …;Thanks!

文档评论(0)

youngyu0318 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档