基于阈值自动发现的文章主题段划分.pdfVIP

基于阈值自动发现的文章主题段划分.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于阈值自动发现的文章主题段划分 索红光刘玉树聂坤明 摘要主题段划分是自动文摘系统中进行文章结构分析的重要环节。分析了当前主题段划分研究中存 在的问题。提出了段落的主题相似度概念及其计算公式,公式结合了词的重复特性和段落距离特征。介 绍了根据段落的主题相似度分布自动发现闺值的方法。实验结果表明,该方法对于文章主题段的划分准 确率优于固定阈值选取的方法。 关键词 自动文摘;向量空间模型;段落相似度;主题划分 BasedonAuto—SelectedThreshold Partition Topic SUO Yushu,NIE Hongguang,UUKunming isan text inautomatic important during abstractingsystem.The Abstract:Topicpartition procedure structuring its which in is on and similarity expressioncombining problemtopicpartitionstudydiscussed.Paragraphictopic thecharacteristicsofword’S and distanceate tothedistributionof repetitionparagraph’S presented.According on forautomaticthethresholdisintroduced.The paragraphicsimilaritytopic,analgorithm gaining experiment thatthe of for textisbetterthanfixedthreshold. shows precisiontopicpartitionmulti—topic Words:automaticabstraction;vector model;paragraphicsimilarity;topicsegmentation Key space 1.引言 自动文摘是利用计算机对文章内容进行分析,从中选出最能代表文章主旨的词句,经过重组修饰后 题、位置、提示词等信息对其进行了改进uj。 Edmundson方法对于单主题的文章所做的文摘性能良好,但是当文章篇幅较长,包含有多个主题时, 由于没有按主题比例分配文摘句,致使其文摘覆盖面下降,文摘质量不高。要解决这一问题需要首先对 文章进行结构分析,划分出主题段,然后在每个主题段中应用Edmundson方法计算权值并摘录句子。 主题段(或意义段【2】)是完整地反映同一中心内容的自然段的集合。主题段是介于篇章与自然段落 之间的一个语言单位,一个主题段表达或阐述一个相对独立的意义或话题,从形式上由文章的若干个相 邻的自然段组成。正确地划分主题段,可以对文章的各主题及其联系有所把握,确保摘录的文摘句能全 面地反映文章的各个主题,涵盖文章的最大信息量。文献【3】[4】[5][6]均对文章结构分析与主题划分进行 了研究。 目前文章主题划分的方法大致有三种【5】:(1)基于标题层次;(2)基于相邻段落相似度;(3)滑动窗口方 式。基于标题层次的方法是利用了文章的各级标题进行划分,但由于并非所有文章都带有这种标题的组 织结构,故这种方法适用的范围很小;基于相邻段落相似度的方

文档评论(0)

whl005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档