- 1
- 0
- 约2.12千字
- 约 5页
- 2020-02-04 发布于贵州
- 举报
基于Nutch的搜索引擎网页摘要改进
一、引言 随着计算机相关技术和网络应用领域的逐渐扩展,互联网信息呈爆炸式增长,相继出现的搜索引擎为网络用户获取有效信息提供了很大方便。最早现代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家熟知的Lycos 。同年4月,斯坦福大学的两名博士生,DavidFilo和美籍华人杨致远共同创办了超级目录索引Yahoo,使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期[1]。 现有搜索引擎采用的是一种静态网页摘要方法,该方法是选取网页中首段的头、尾句或者含有搜索关键词的句子,然后结合标题,编稿时间,作者等信息作为网页的摘要。该方法实现简单,摘要结构性好,易于阅读,但不能突出体现网页内容主题思想,不利于用户判断搜索结果是否正确。 在百度中搜索“美利坚合众国”二字的时候,结果页面显示如图1: 在谷歌中搜索“美利坚合众国”的时候,结果列表中网页摘要和百度相似,都是采取的静态网页摘要。通过此法,用户很难知道网页的主题思想。本文的工作就是运用自动文摘技术生成网页摘要,让用户获取网页的主题思想,快速确定搜索结果是否准确。 二、研究基础: Nutch工作原理 Nutch是一个开源代码、建立在Lucence基础上的完整的Web搜索引擎系统,可以每个月抓取几十亿网页,并为这些网页维护索引,对索引文件进行每天上千次的搜索[2]。图2为Nutch的工作流程图: 总体上,Nutch工作分两个流程,爬虫Crawl和查询Searcher。Crawl主要用于从网页上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引。 自动文摘 本文介绍一种称为自动摘录的自动文摘技术。 自动摘录将文本视为句子的线性序列,将句子视为词的线性序列。它通常分为五步进行:1.将文本分句分词。2.计算词联盟的权值;3.计算句子的权值;4.对原文中的所有句子按权值降序排列,权值最高的若干句子被确定为文摘句;5.将所有文摘局按照它们在原文中的出现顺序输出[3]。 在自动摘录中,计算词权、句权、选择文摘句的依据是文本的5种形式特征: 1.词频。衡量一个词的重要性莫过于该文本中该词出现的频率,词的频率越高,其权重相应也就越大。 2.标题。标题和附属于该标题下的内容有紧密的联系。 3.位置。研究表明,文章中85%的重要语句存在于段首,而只有5%的重要语句存在于段末。故衡量一个句子的重要性,句子的位置不可忽略。 4.句法结构。句法结构是指除陈述句外的疑问句、感叹句等都不宜出现在文摘中。 5.指示性短语。指示性短语,包括关联词、过渡词、顺序词、类别词等。如:“综上所述”、“因此”、“诚然”、“此外”等相关词。 三、基于Nutch的网页摘要方法介绍 在上一节谈到的Nutch的Searcher部分,研究其查询返回结果部分,我们会看到如下源码: 根据分析,搜索过程中会产生一个Hits类型的对象,此对象封装了命中结果集的相关属性。通过此结果集,我们可以获取命中网页去除标签后的文本内容。实现代码如下: 其中summary就是一篇网页中的文本内容。接下来对此文本内容进行处理,运用上节提到的自动文摘生成技术,生成网页摘要。 我们定义以下概念和公式: Com[i][j]表示句子i,j共同出现的词语的个数,通过扫描文本的线性序列计算出来;1[i]表示句子i的非停用词的个数,即句子长度;sim[i][j]表示句子i,j的相似度,wEight[i]表示句子 的权重。下面介绍几个公式: 句子相似度计算:(1) 句子权重计算之前,这里我们先进行归一化处理: 计算句子权重: 摘要生成算法如下: 1.将网页解析后的文本内容进行句子切分,保存为句子的线性序列; 2.将句子进行词语切分,保留有用词,去掉停用词,保存为词的线性序列; 3.计算句子之间相似度,如公式,所示; 4.计算句子的权重,并求句子的平均权重,如公式所示; 5.将句子权重大于平均权重的句子抽取出来,作为文章的主要内容。 四、实验结果分析 为了验证此方法的有效性,在本机环境下启动Nutch中Crawl模块,爬取了60M的网页数据,约XX0个WEB页面。虽然量小,但这些数据足以证明此方法的有效性。我们依旧搜索“美利坚合众国”: 网页摘要改进前效果如图3所示: 网页摘要改进后效果如图4所示: 对比上述结果,改进后的方案直接将网页主题思想显示出来。 五、结束语 本文运用自动文摘技术生成搜索引擎的网页摘要,加快用户的
您可能关注的文档
- 国有企事业单位行政管理问题及创新措施.docx
- 国有企业经营管理问题及策略分析.docx
- 国画写意山水的历史传承与时代发展分析.docx
- 国画山水中的意境表现研究.docx
- 国省干线沥青混凝土路面病害的分析.docx
- 国际油价与石油公司业绩分析.docx
- 国际物流信息化发展趋势及策略分析.docx
- 国际经济与贸易专业个性化实践教学模式改革探索.docx
- 国际财务报告准则与首次运用准则的影响.docx
- 国际经济最具发展潜力的新兴国家分析.docx
- 深度解析(2026)《GBT 34478-2017钢板栓接面抗滑移系数的测定》.pptx
- 福州教育学院附属第二小学2025-2026学年六年级下学期语文第四单元复习试卷.docx
- 学生个人勤俭节约倡议书6.docx
- 深度解析(2026)《GBT 34481-2017低位错密度锗单晶片腐蚀坑密度(EPD)的测量方法》.pptx
- 学生个人卫生常规要求.docx
- 学生安全自护计划.docx
- 深度解析(2026)《GBT 34452-2017可移式通用LED灯具性能要求》.pptx
- 2026年乡镇光伏安装安全检查调研.pptx
- 深度解析(2026)《GBT 34453-2017 扭扭车通用技术要求》.pptx
- 2026年直播带货运营客服差评处理调研.pptx
最近下载
- 支部党员大会会议记录(支委会选举范例).docx VIP
- 深圳市宝安区2025-2026学年第一学期五年级语文期末学业质量评估卷(原卷+答案)统编版.docx VIP
- 山桐子种植加工、旅游项目可行性研究报告商业计划书.docx VIP
- 山桐子种植及种苗培育种植加工可行性研究报告申请备案.doc VIP
- 和田地区2026年度地直机关公开遴选公务员、事业单位公开选聘工作人员备考题库及完整答案详解1套.docx VIP
- 山桐子合作种植协议合同.docx VIP
- 2025年香氛未来趋势报告-英敏特.docx VIP
- 报告正文2014年太阳绿宝.pdf VIP
- 2025年高考:云南物理--试题及答案.pdf VIP
- 广东省深圳市宝安区2025-2026学年五年级上学期期末学业质量评估语文试卷.docx VIP
原创力文档

文档评论(0)