[精华]工学博士学位论文 汉语句法歧义消解的统计方法研究 research on.ppt

[精华]工学博士学位论文 汉语句法歧义消解的统计方法研究 research on.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[精华]工学博士学位论文 汉语句法歧义消解的统计方法研究 research on

陈清才 主要内容 系统概述 研究背景 主要的自动文摘技术 系统目标 主要研究内容 系统处理过程 知识库建设 统计语言模型的建立 基于内容的压缩算法研究 信息提取 摘要生成技术 系统优化 系统性能 未来的工作 系统概述 研究背景 互联网的迅速普及在提供了信息获取途径的同时却给人们留下了另一个难题,那就是如何在每天都不断涌现的海量信息面前更快速、准确的获得有用的信息,显然,通过阅读文摘而不是全文能够极大的加快人们的信息过滤速度,帮助人们更容易地解决这个问题,从而使得对自动文摘技术的需求由过去的科技人员转向了普通用户,这也极大的鼓励了人们对自动文摘技术的研究热情。然而,自动文摘技术当前所取得的研究成果还不如其他自然语言处理技术那样成熟和得到广泛应用,这主要是因为为一篇文章撰写真正的文摘,首先必须真正的“理解”原文的内容,这一任务对人来说比较容易完成,但对计算机而言却是显得异常困难, 而这就导致了自动文摘的质量,尤其是摘要的逻辑连贯性还很难与人工摘要相比。 系统概述 主要的自动文摘技术 基于浅层分析的自动文摘技术 只涉及到对文档中所蕴含的一些浅层的特征进行统计与分析,然后将其中的某些特征按特定的量化模型结合起来作为文档信息的量化度量,并据此选择出文档的核心内容,对于文档的浅层分析往往不需要复杂的文档内部表示,而只需要能够划分出文摘提取时的基本单元就可以了。 基于实体分析的自动文摘技术 实现实体层的分析需要首先将文档转化成内部表示的形式,分化出文档的各个实体并建立起文档实体间的相互关系,通过对文档实体及其相互关系建模,将有助于确定个个实体对于表述文档内容的作用。 基于话语结构的自动文摘技术 主要是对全文的宏观结构进行建模,这些结构包括:文档格式 、用于区分文本主题的线索 、文体结构如议论文或者说明文的结构特征。 系统概述 系统目标 基于内容的网络信息压缩及摘要自动生成系统(以下简称“系统”)的目标是结合计算语言学与人工智能的技术,开发一个基于内容的信息压缩系统,使之能高效、准确、精练地抽取出网络中的各种文本信息的主要内容,生成摘要,从而极大地加快计算机或人工获取与处理信息的速度。系统通过将语义、结构、统计方法等多知识源与当前的汉语自然语言处理的研究成果进行融合,并采用这一方法来开发一个汉语文本信息压缩与摘要自动生成系统,以基本达到实用化的商业系统对摘要的质量要求。 主要研究内容 知识库建设 开发适合于文本信息压缩系统的语义词典,通过人工总结,从大规模语料库中建立起信息压缩用知识库,手工建立文摘语料库。 统计语言模型的建立 建立一个语义量化模型,用以快速确定文本段落或语句的信息量以及各语言单元之间的语义关联度,为信息压缩提供重要线索。 基于内容的压缩算法研究 获取文章中心语义,确定语言单元之间的逻辑关系, 确立统计语言模型为基本文本单元进行加权的方法, 综合分析所得的多个知识源来决定组成不同类型文档的摘要候选单元。 采用文档分类模块来识别文档所属类别。 信息提取 针对不同类型文章的文摘组成方式有可能不同的特征,从文档的摘要基本单元候选中进一步确定文摘句的组成,从而提高文摘句间的内在逻辑连贯性。 摘要生成技术 在信息提取算法获得的文摘句基础上,结合人名识别与指代消解技术以及一些人工总结的规则来生成文档摘要,以确保摘要良好的流畅性与连贯性。 系统优化 优化系统的主要参数 系统处理过程 知识库建设 建立了一个包含有11万词的通用词典,词典中包含了词性、词义和统计信息,其中除了我们原有的词条外,又增加了手工从网上抽取的约6万词 建立了一个层次结构分析用词典,该词典由通过对大规模网络文档的研究而总结出的可以反映网络文本的内容层次结构的特征词组成,该词典包含42项,每一项代表一种层次表示方法而不是一个词条。 建立了一个连接结构分析用词典,该词典同样通过手工构造,共包含190词条。 此外,还建立了人名识别词典用于人名识别模块 统计语言模型 构造过程 首先借助于语义词典来选择特征词。 建立一个基于词矢量的语义量化模型,通过对700M文本语料的统计来建立特征矩阵。 通过引入粗集技术来进行坐标词的选择以及特征矩阵的约简。 语义相似度计算: 文档压缩算法 结构分析 文本内容层次结构分析 隐式章节切分 语句连接结构分析 文档自动分类 多知识源融合 摘要抽取 文本层次结构分析 文本层次结构分析包括宏观结构分析和微观结构分析。文本宏观结构是指全文结构,研究组成全文的各自然段之间的依存关系。文本微观结构是指复句结构。研究的是各自然段内部各复句之间的依存关系。通过对文本结构依存树进行文本层次结构分析,我们建立一棵用于抽取文摘的层次结构依存树。 由于网上的文章来源众多,且无法统一格式,所以造成了网络文章格式各异的情况。要

文档评论(0)

138****7331 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档