- 26
- 0
- 约2.63千字
- 约 7页
- 2018-08-28 发布于福建
- 举报
基于Web技术文本自动摘要方法
基于Web技术文本自动摘要方法
摘要:随着互联网技术的推广和普及,从海量信息中快速的获得想要的文章显得越来越重要。本文从句子重要性及自动摘要算法两个方面对自动摘要方法进行了阐述与改进。
关键词:自动摘要 主题词 LUHN算法 LSA 算法
自动文摘是利用计算机自动地从原始文献中提取文摘。文摘是准确全面的反映某一文献中心内容的简洁连贯的短文。本文从句子重要性的评价及摘要算法两方面讨论自动摘要技术。
1.句子重要性的评价
1.1段落中句子权重评价
美国的P.E.Baxendale的研究结果显示:人工摘要中的句子为段首句的比例为85%,是段尾句的比例为7%。美国康奈尔大学G.Salton提出了寻找文章的中心段落为文摘核心的思想。我们观察表明:除了论题句、段首、段尾等句子之外,段落的第二句常常表示段落的主题[53]。而Mead数据中心的自动摘要系统Searchable Lead,只是简单的摘录文件中的前60、150或250个英文词汇,便达到了90%以上的可接受度(Brandow, et al.,1995)。故在本研究中分别考虑了段落位置,和句子在段落重的位置对句子重要性的影响分别按照如下规则赋予权重。
第一段和文件的最后一段权重为1.2,在一个段落中第一句给予权重1.1,第二句给予权重1.2,尾句给予权重1.1,文章中句子的权重为段落权重和段落重句子权重的乘积。
经过第一个步骤的分析计算后,句子的得分可以由句子中重要词汇权重的加总在乘以句子的权重而来。句子得分计算公式如下:
上述PWSij表示第Sij个子句的位置权重Sij表示文件中第i个句子的第j个子句,TPk代表句子中第k个主题词汇的重要性分数,n是指Sij子句中重要词汇的总数,最后SCORESij即为Sij子句的总得分
1.2 主题词评价
针对WEB文档的结构化特征,在进行主题词选取时根据文档中词频的出现位置出现的频繁程度来评价词的重要性,并以此给出词的权重,赋予重要词汇权重,下面是具体的主题词选取和评价过程:
能够指示文章主题的所谓有效词(或称实词)往往是中频词。根据句子中实词的个数来计算句子的权值,这是Luhn首先提出的。V.A.Oswald主张句子的权值应按其所含代表性的“词串”的数量来计算;而Doyle则重视共现频度最高的“词对”;1995年Lisa.F.Rau采用相对词频的方法实现ANES(Autormatic News Extraction System)系统。本论文中,我们将文档中除去助动词等虚词后剩余的名词与动词以及形容词等作为候选主题词。这些词是能够表达一个句子内容的核心部分,被视为重要词汇部分,对其重要程度的评价根据web结构以及该词及该词在句中出现的频率多少而定,高频词往往与主题相关。
通过对所有超文本标记的分析,以下标记对表明文本的重要性具有很大的作用:标题、一级标题、二级标题、三级标题、四级标题、强壮、强调,黑体、标签。
我们分别将其按结构所能体现词的重要性进行排序,顺序为:、,,,,,,,,并将其按照降序赋予权重到w9, 其中1w13(1i9)。
所以词的权重系数可以用下面公式表达:
Ti是具有w1权重的标签中出现该词的次数。
2. 自动摘要算法
2.1 luhn 算法
Luhn[55]在1965年提出了一种基于文章表面级特征的经典的摘要算法,如图4-1所示。这种算法的核心思想是为文章中的每一个句子赋予一个意义值,那些具有最大意义值的句子将会被抽取出来作为摘要,其中句子的意义值是通过句中意义词的个数计算得到的。Luhn 认为意义词应该是文章中的“中”频词集。高频词区域中的词多是一些过于普通的词,没有什么区分能力,这些无用词可以通过停用词表的构造得以消除。
在本文中,我们对根据主题词的概念以及权重评价,并结合段落和子句位置权重分析,改进luhn工作过程如下:
改进LUHN算法描述
1.输入Web文档,对Web文档进行预处理:对HTML格式网页文件进行格式转换,将其转化为文本格式。针对HTML的格式特征,去除其无用标志、属性和属性值。从中提取文本信息、位置信息等;
2.进行分词处理并消除停用词;
3.提取主题词并评价;
4.根据公式2计算句子得分;
5.根据阀值确定输出摘要句子。
2.2 LSA 摘要算法
LSA是建立在奇异值分解(Singlue value decomposition,SVD)之上。SVD是一个矩阵分解技术,已经被人们大量应用到文本集上。给定一个m*n 的矩阵,A = [A1,A2,…An],每一列Ai 表示目标文档中一个句子的词频向量,SVD可以表示为 :
其中U
原创力文档

文档评论(0)