基于Nutch的搜索引擎网页摘要改进.docxVIP

  • 1
  • 0
  • 约2.12千字
  • 约 5页
  • 2020-02-04 发布于贵州
  • 举报
基于Nutch的搜索引擎网页摘要改进   一、引言   随着计算机相关技术和网络应用领域的逐渐扩展,互联网信息呈爆炸式增长,相继出现的搜索引擎为网络用户获取有效信息提供了很大方便。最早现代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家熟知的Lycos 。同年4月,斯坦福大学的两名博士生,DavidFilo和美籍华人杨致远共同创办了超级目录索引Yahoo,使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期[1]。   现有搜索引擎采用的是一种静态网页摘要方法,该方法是选取网页中首段的头、尾句或者含有搜索关键词的句子,然后结合标题,编稿时间,作者等信息作为网页的摘要。该方法实现简单,摘要结构性好,易于阅读,但不能突出体现网页内容主题思想,不利于用户判断搜索结果是否正确。   在百度中搜索“美利坚合众国”二字的时候,结果页面显示如图1:   在谷歌中搜索“美利坚合众国”的时候,结果列表中网页摘要和百度相似,都是采取的静态网页摘要。通过此法,用户很难知道网页的主题思想。本文的工作就是运用自动文摘技术生成网页摘要,让用户获取网页的主题思想,快速确定搜索结果是否准确。   二、研究基础:   Nutch工作原理   Nutch是一个开源代码、建立在Lucence基础上的完整的Web搜索引擎系统,可以每个月抓取几十亿网页,并为这些网页维护索引,对索引文件进行每天上千次的搜索[2]。图2为Nutch的工作流程图:   总体上,Nutch工作分两个流程,爬虫Crawl和查询Searcher。Crawl主要用于从网页上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引。   自动文摘   本文介绍一种称为自动摘录的自动文摘技术。   自动摘录将文本视为句子的线性序列,将句子视为词的线性序列。它通常分为五步进行:1.将文本分句分词。2.计算词联盟的权值;3.计算句子的权值;4.对原文中的所有句子按权值降序排列,权值最高的若干句子被确定为文摘句;5.将所有文摘局按照它们在原文中的出现顺序输出[3]。   在自动摘录中,计算词权、句权、选择文摘句的依据是文本的5种形式特征:   1.词频。衡量一个词的重要性莫过于该文本中该词出现的频率,词的频率越高,其权重相应也就越大。   2.标题。标题和附属于该标题下的内容有紧密的联系。   3.位置。研究表明,文章中85%的重要语句存在于段首,而只有5%的重要语句存在于段末。故衡量一个句子的重要性,句子的位置不可忽略。   4.句法结构。句法结构是指除陈述句外的疑问句、感叹句等都不宜出现在文摘中。   5.指示性短语。指示性短语,包括关联词、过渡词、顺序词、类别词等。如:“综上所述”、“因此”、“诚然”、“此外”等相关词。   三、基于Nutch的网页摘要方法介绍   在上一节谈到的Nutch的Searcher部分,研究其查询返回结果部分,我们会看到如下源码:   根据分析,搜索过程中会产生一个Hits类型的对象,此对象封装了命中结果集的相关属性。通过此结果集,我们可以获取命中网页去除标签后的文本内容。实现代码如下:   其中summary就是一篇网页中的文本内容。接下来对此文本内容进行处理,运用上节提到的自动文摘生成技术,生成网页摘要。   我们定义以下概念和公式:   Com[i][j]表示句子i,j共同出现的词语的个数,通过扫描文本的线性序列计算出来;1[i]表示句子i的非停用词的个数,即句子长度;sim[i][j]表示句子i,j的相似度,wEight[i]表示句子 的权重。下面介绍几个公式:   句子相似度计算:(1)   句子权重计算之前,这里我们先进行归一化处理:      计算句子权重:      摘要生成算法如下:   1.将网页解析后的文本内容进行句子切分,保存为句子的线性序列;   2.将句子进行词语切分,保留有用词,去掉停用词,保存为词的线性序列;   3.计算句子之间相似度,如公式,所示;   4.计算句子的权重,并求句子的平均权重,如公式所示;   5.将句子权重大于平均权重的句子抽取出来,作为文章的主要内容。   四、实验结果分析   为了验证此方法的有效性,在本机环境下启动Nutch中Crawl模块,爬取了60M的网页数据,约XX0个WEB页面。虽然量小,但这些数据足以证明此方法的有效性。我们依旧搜索“美利坚合众国”:   网页摘要改进前效果如图3所示:   网页摘要改进后效果如图4所示:   对比上述结果,改进后的方案直接将网页主题思想显示出来。   五、结束语   本文运用自动文摘技术生成搜索引擎的网页摘要,加快用户的

文档评论(0)

1亿VIP精品文档

相关文档