面向自動文摘的主题划分方法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向自動文摘的主题划分方法

面向自动文摘的主题划分方法 童毅见 2012-11-4 主题的概念 1,主题的定义现状:鲜有确切的关于主题的定义。 2,几个关于“主题”的定义 Labadié认为主题是会话或讨论的主要问题 Chafe主题是正在讨论的命题 所谓“主题”,是介于篇章与段落之间的一个语言单位,一个主题表达或阐述一个相对独立的意义或话题 3,本文对主题的定义 主题是用来描述一个话语片段所表达内容的一种直观方式,该话语片段阐述了一个相对独立的意义或话题。主题不应是一个语言单位,但是可以通过篇章集、段落集或句子集的方式呈现。 主题划分 1,主题划分的概念 主题划分就是将一个含有多个主题的话语(在本文中以文本方式体现)切分成一系列单个主题。 Reynar认为,作者在写作前,会在脑海中收集一些没有连接的主题,在写作过程中为了保证文本的流畅,会有意无意的设置一些主题边界 2,主题划分的分类 主题划分可以分为层次划分(hierarchical segmentation)和线性划分(linear segmentation) 从划分结果来看,线性划分还可以进一步分为连续划分和非连续划分 主题划分对自动文摘的意义 1,有助于平衡摘要的结构,提高摘要的覆盖面 如果采用传统的基于句子重要度从高到低抽取的方法,很容易造成对次要主题的遗漏或忽略,并且容易导致主要主题的冗余。 2,主题特征对自动文摘的促进作用 Louis.et al.在比较话语结构特征、语义特征和非话语性特征(如主题词、句子位置等)在单文档自动文摘中的效果时发现,基于话语结构特征的方法在摘要内容上效果最好 常见主题划分方法 1,基于词汇衔接理论的方法 TextTiling、C99、dotplotting 2,融合特定语言现象和文本特征的方法 1)特定领域的提示短语。例如在广播新闻文本中,joining us 2)二元词组频率。避免单词频率引发的歧义问题; 3)命名实体的重复。 4)代词特征。 3,基于概率统计模型的方法 PLSA(概率潜在语义分析)、LDA(Latent Dirichlet Allocation)以及小世界模型 TSF算法 由Kern Granitzer提出,是一种基于滑动窗口技术的主题划分方法算法 该算法在很多方面与TextTiling算法相近,也是一种基于词汇衔接理论的方法?。 根据文章呈现的评价结果,TSF算法在切分效果上要远好于TextTiling算法,并且只有O(n)的计算复杂度。 TSF算法默认主题是由句子集组成 TSF算法描述 TSF算法描述 关于主题的呈现方式的讨论 1,句子集 or 段落集 2,主题的呈现方式与文本的特征、任务对主题颗粒度的要求有关 3,自动文摘对主题划分颗粒度的要求 4,句子集 and 段落集 以段落集为主题表征的TSF算法 面向自动文摘的主题划分策略 后期处理 引入代词特征 对于切分出来的主题如果首段是代词,则认为切分不正确,将前后两个主题合并 主题划分评价 1,传统的评价方法的不足 文本切分和主题划分的区别 召回率、准确率,F值等无法反应near miss现象 2,引入参考切分 3,引入切分合理度R 切分合理度R 主题划分评价结果 类型 主题表征 文本数量C 平均切分合理度 平均准确率 平均召回率 T1 句子集 30 0.58 78.6% 95.2% T2 段落集 50 0.67 83.8% 97.5% 文摘比 主题划分 传统方法 10% 0.534 0.488 20% 0.576 0.514 30% 0.607 0.492 1,内部评价:针对以句子集和段落集表征的TSF算法(无关比较) 2,外部评价:针对主题划分策略对自动文摘的影响(F值) 进一步改进 1,考虑参数对切分结果的影响 2,融合更多特定语言现象 3,对TSF算法的进一步改进,可以集中在句子相似度计算和词汇权重计算上 参数名称 Pt St 阈值q1(句子集切分) 阈值q2(段落集切分) 窗口大小W 参数值 9 8 0.45 0.8 3

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档