汉语组块计算的若干研究.pptVIP

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业资料 3/28/2001 Intro to NLP ICT, CAS/Li sujian 汉语组块计算的若干研究 提纲 课题的提出、意义和现状 本文主要工作 总结 课题的提出、意义和现状 提出:认知理论、AI(Soar) 内容:组块分析+组块相似度计算 意义 简化句子结构 信息检索 信息抽取 文本聚类/分类 机器翻译 语言学的研究内容 词法分析: 句法分析:一个语句的可能句法结构 语义分析:将语句的意义形式化表达出来 语用分析:上下文对语句理解的作用 中文处理 组块分析--浅层分析,部分分析 不要求得到完整的句法树 标示出基本的组块 可以利用完全分析的各项技术 语言学中的研究方法 理性主义研究方法 基于规则的方法 经验主义研究方法 基于统计和实例的方法,语言建模 两种方式相结合 两种方法的比较 组块分析--规则方法 Finite State Cascade:有限状态叠 例句分析 组块分析--统计方法 隐马尔科夫模型 组块分析--统计方法 组块分析-- conll2000评测标准 组块分析--conll2000会议结果 中文处理的组块分析研究 baseNP的识别 汉语短语边界的界定 命名实体的识别 提纲 课题的提出、现状和意义 本文主要工作 总结 本文主要工作 组块 组块分析技术 组块相似度的计算 组块定义 组块标注集合 NC VCC PC QC LCC 组块库的获取 最大熵模型的组块分析技术 最大熵模型的介绍 相关的参数估计算法和特征选择算法 基于该模型的组块分析 最大熵模型介绍 训练样本集合{(x,y)} 概率分布:p(y|x) ? 引入特征: fi∈{0,1} 特征限制条件下的模型分布 影响组块分析的语言特征 词性 特定词 句法:组块标注 韵律:词音节数 原子特征模板 CurPOSTag POSTag-1 POSTag-2 POSTag+1 POSTag+2 PrevPOS NextPOS 特征实例 CurPOSTag_NN,Word+1_的=DNC CurPOSTag_NT,POSTag-1_VC=NC CurPOSTag_P,POSTag+1_PN=PC ChunkTag-1_NC,CurPOSTag_VV=VCC ChunkTag-1_NC,CurPOSTag_NN=NC CurRhythm_2,CurPOSTag_NN,Rhythm-1_1=NC PrevWord_被,CurPOSTag_VV=VCC ME模型的特征选取 最大熵模型相关算法 参数估计算法: G.I.S(Generalized iterative scaling) 迭代时间O(NPA) N:训练集大小; P: 预测数目;A:每个事件的平均特征数目 特征的选择:Field Induction Algorithm 选择对模型具有最大增益值的特征(KL) 输入文件格式 训练文本语料格式(每一个词为一行) 第1列表示:组块所在的文件号 第2列表示:组块所在的语句号 第3列表示:当前词在所在句中的号 第4列表示:当前词的组块标注 第5列表示:当前词的词性标注 第6列表示:当前词的内容 输出文件格式 测试语料文件格式 第1列表示:组块所在的文件号 第2列表示:组块所在的语句号 第3列表示:当前词在所在句中的号 第4列表示:当前词的词性标注 第5列表示:当前词的内容 文件格式示例 文本语料实例 最大熵模型优点 特征选取灵活:使用最大熵可以准确为变量间的细微依赖关系建模,这种关系用传统的预测模型技术是不可能的。 可以不做独立性假设:Maximum entropy learns exactly what the data says: no more, and no less. 该模型易于理解,可重用性强 有限状态机(1) 过去方法的难点 写覆盖面广的语法很困难 易获取的大量文本,使语法分析器更显健壮性差,覆盖面窄 有限状态机的成功应用 音律变换模型证明是有限状态模型 词内部语法是有限状态 “组块分析”促进了有限状态机的应用 语言整体不是一个有限状态的语言,但是分解后的一些子集,用有限状态描述不仅充分而且比PSG容易构造 有限状态机(2) 概率观点的兴起 很多概率方法可以用加权有限状态机描述。这样的描述简洁、易理解、操作/优化/结合都很有效。 有限状态技术的进步 适合于描述语言学现象的特定有限状态形式 有效实现语言学现象描述的编译器 用于加权及转换器的新算法 有限状态机类型 规则的获取 从已组块标注的训练语料中进行规则提取 组块由POS或词直接构成 任一类型的组块都有一个规则集合 组块规则实例 NC: NR 1857 (“中国”) NC: JJ, NN 1339 ( “新 格局”) VCC: AD, VV

文档评论(0)

wendan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档