- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要摘要
摘要
摘要
随着互联网的发展,人们在获得有效信息的同时,也被越来越多的冗余信 息所困扰。因此迫切需要一个帮助人们快速浏览工具,该工具通过对相似文档 集合的加工整理,将这些文档的重要的、全面的信息直接提供给用户,从而提 高了人们获取信息的效率。因此多文档文摘的研究逐渐成为研究的热点。
多文档文摘是一种文本压缩技术,它将同一主题的文档进行汇总和整理, 将多文档集合中的多次重复信息以一次出现在文摘中,其他与主题相关的信息 根据重要性及压缩比依次进行抽取。
本论文通过对多文档集合的分析,打破由同一主题独立文本组成多文档集 合的物理结构,通过将意义相同的句子组合在一起,建立多文档集合的子主题 结构,在此基础上进行文摘句的抽取和排序工作。与传统的方法相比,具有以 下优点:多文档集合以孑主题的形式表示,使文摘内容具有更好的平衡性;对 子主题进行比较和排序,按压缩比进行文摘句的优化抽取,将重要信息抽取出 来,使得到的多文档文摘包含的信息简洁全面;多文档集合子主题形式的提出 为多文档文摘的深入研究奠定基础。本论文着重对以下问题进行了研究:
l、对句子相似度计算进行深入研究,提出了多特征融合的句子相似度计算 方法。句子相似度计算是多文档文摘的基础,本文首先根据句子不同特征分别 计算句子的相似度,在此基础上,将这些特征进行融合,可以更准确的刻画句 子之间相似度,为下一步工作奠定基础。
2、提出了根据阈值自动确定多文档集合子主题的方法。在句子相似度计算 的基础上,将相似的句子合并为一个类,每类代表一个子主题。在阈值的训练 以及聚类的方法上,分别对基于半偏相关系数为阈值的层次聚类和基于类问最 小距离闽值的层次聚类进行研究,同时根据多文档集合相似度分布曲线,提出 了描述多文档集合的泊松分布模型。
3、提出了句予的优化选择方法。为了保证文摘在有限的空间要求下,尽可 能覆盖重要全面的信息,将文摘句的抽取过程分解为子主题的排序以及子主题 内的句子的优化选择两个阶段。文中给出了子主题打分和排序方法,展后以信 息覆盖率为优化目标,对子主题内句子优化选择。
4、提出了多文档文摘中文摘旬的排序策略及流利度评价方法。为了使用户 正确理解原文的内容,使生成的文摘具有较好的可读性,需要对文摘句排序方
哈尔滨工业人学工学博士学位论文法进行研究。本论文提出了几种文摘句的排序方法,同时给出了流利度自动评
哈尔滨工业人学工学博士学位论文
法进行研究。本论文提出了几种文摘句的排序方法,同时给出了流利度自动评 价方法,并将该方法与人工评价方法进行比较,最终确定合适的排序方法。
本论文提出了针对同一主题相同时问不同网源的文本集合的多文档文摘方 法,是对多文档自动文摘初步探索,取得了一定的研究成果。多文档文摘无论 作为独立的系统还是作为搜索引擎的一部分都将有广泛的应用前景,随着互联 网的发展和时代的进步会有更多地发展空间。
关键词:多文档文摘:子主题;句子优化选择;文摘句排序
摘要Abstract
摘要
Abstract
Wjm the development of Intemet,people are acquiring more and more redundant information at the time of getting effective information.Therefore,a browsing tool is needed to help people get the information\quickly.This tool provides US a text which include the most important and gemal information of these
similar documents,thus carl help US to increase the efficiency of getting information.
Based on this,multi-document summarization becomes a hotspot of nowadays
research.
Multi—document summarization is a compression technique ofsets ofdocuments, which gathers the documents of the same topic together,removes the redundant information,then selects the relevant information of the topic,according to some
given compression ratio,and at las
您可能关注的文档
- 基于作业成本思想的供应链战略采购研究-管理科学与工程专业论文.docx
- 基于作业成本法的Y公司成本管理方案设计研究-会计专业论文.docx
- 基于作业成本法的XE项目产品成本管理研究-工商管理专业论文.docx
- 基于作业成本法的JD水泥丰润有限公司预算管理体系设计-工商管理硕士专业论文.docx
- 基于作业成本法的W高校生均培养成本研究-会计专业论文.docx
- 基于作业成本法的乘用车铁路运输经济性分析-交通运输规划与管理专业论文.docx
- 基于作业成本法的YL公司成本管理研究-会计专业论文.docx
- 基于作业成本法的企业物流成本控制系统分析-工商管理专业论文.docx
- 基于作业成本法的产品定价决策研究-工商管理专业论文.docx
- 基于作业成本法的 M 公司 AA 蜂窝原纸项目成本管理研究-项目管理专业论文.docx
- 基于子图模式的流量分类方法研究-通信与信息系统专业论文.docx
- 基于子公司二元行为的报酬契约模型设计与分析-工商管理专业论文.docx
- 基于子图泛化的社会网络隐私保护-计算机软件与理论专业论文.docx
- 基于子图搜索的应用研究-计算机应用技术专业论文.docx
- 基于子带分解的信道均衡研究-通信与信息系统专业论文.docx
- 基于子图同构的XFA压缩算法设计-计算机科学与技术专业论文.docx
- 基于子序列匹配的压缩XML查询-计算机科学与技术专业论文.docx
- 基于子带的语音增强方法研究与实现-信号与信息处理专业论文.docx
- 基于子带分解的分数傅里叶变换语音增强算法研究-通信与信息系统专业论文.docx
- 基于子带能量法的发动机振动信号分析研究-动力机械及工程专业论文.docx
原创力文档


文档评论(0)