第1讲统计中文分词技术-orsci--或科学.pptVIP

第1讲统计中文分词技术-orsci--或科学.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8、假设自己设计一个词网格分词,并实现Bigram分词,请阐述设计方案、模块构成、系统工作流程图和关键技术。 9、简述领域专业词典构造的作用。 10、简述一种领域专业词典构造的方法。 姜维.《文本分析与文本挖掘》.科学出版社.2018 End 姜维.《文本分析与文本挖掘》.科学出版社.2018 Bigram、Trigram 姜维.《文本分析与文本挖掘》.科学出版社.2018 局部环境优缺点 全局环境优缺点 长距离特征 姜维.《文本分析与文本挖掘》.科学出版社.2018 基于词网格的分词技术 框架构成 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 Bigram的决策过程 姜维.《文本分析与文本挖掘》.科学出版社.2018 虚拟头节点 姜维.《文本分析与文本挖掘》.科学出版社.2018 候选路径 姜维.《文本分析与文本挖掘》.科学出版社.2018 问题转化:路径有效性评价 怎样评价? 姜维.《文本分析与文本挖掘》.科学出版社.2018 以第13号,为例:他们/是/社会党/党员 姜维.《文本分析与文本挖掘》.科学出版社.2018 Trigram与N-gram模型 N是大好还是小好? 姜维.《文本分析与文本挖掘》.科学出版社.2018 Trigram中的决策 姜维.《文本分析与文本挖掘》.科学出版社.2018 Tri-gram比Bigram的特点 显著特点: (1)受前两个词的约束影响,丰富; (2)数据稀疏。严重; (3)参数空间大; (4)计算量和存储空间更大。 姜维.《文本分析与文本挖掘》.科学出版社.2018 带Factoid词 姜维.《文本分析与文本挖掘》.科学出版社.2018 如何求解: 全局寻优 Viterbi算法 姜维.《文本分析与文本挖掘》.科学出版社.2018 Viterbi算法是一种典型的近似求解算法,属于动态优化算法 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 1.1 词法分析问题 1.2 词典与基于规则分词 1.3 仿词识别与最少分词技术 1.4 基于词网格的N-gram统计分词技术 1.5 数据平滑与专业词抽取 1.6 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 数据集的选择 数据样本尽量贴近实际应用场合的数据分布 代表性原则 i.i.d. 姜维.《文本分析与文本挖掘》.科学出版社.2018 数据稀疏问题 参数不准 零概率、低频概率问题 姜维.《文本分析与文本挖掘》.科学出版社.2018 三方面克服: (1)扩大数据集 (2)平滑 (3)模型 姜维.《文本分析与文本挖掘》.科学出版社.2018 专业词典抽取问题 专业词往往在某一个领域或几个领域内经常出现。 领域的划分可根据行业或参照“中图分类法”进行 金融,计算机,网络,电子工程,生物化学,医学等。 这里的领域还可以是用户自定义的范围。 姜维.《文本分析与文本挖掘》.科学出版社.2018 专业词典抽取框架 姜维.《文本分析与文本挖掘》.科学出版社.2018 在9000个常用词中,单字词占26.7%,双字词占69.8%,三字词占2.7%。 词的结合特点 姜维.《文本分析与文本挖掘》.科学出版社.2018 根据结合特点,构建评价方法 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 人民日报6个月数据 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 1.1 词法分析问题 1.2 词典与基于规则分词 1.3 仿词识别与最少分词技术 1.4 基于词网格的N-gram统计分词技术 1.5 数据平滑与专业词抽取 1.6 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 快速词典 自动Factoid识别 分词分类 N-Gram 领域专业词典构造 姜维.《文本分析与文本挖掘》.科学出版社.2018 内容索引 1.1 词法分析问题 1.2 词典与基于规则分词 1.3 仿词识别与最少分词技术 1.4 基于词网格的N-gram统计分词技术 1.5 数据平滑与专业词抽取 1.6 本章小结 练习与思考 姜维.《文本分析与文本挖掘》.科学出版社.2018 练习与思考 1、简述快速词典的作用? 2、简述最大正向匹配分词的工作过程。 3、简述最少分词的工作过程。 4、词网格分词与N-gram的关系。 5、为什么N-gram中大多使用Bigram和Trigram模型 6、简述Bigram分

文档评论(0)

sunhongz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档