人工智能大作业-主题爬虫-浙工大交换生-姜楠.docx

下载文档 降价啦

23
0
约7.38千字
约 13页
2016-11-29 发布于重庆
举报
版权申诉
保障服务

人工智能大作业-主题爬虫-浙工大交换生-姜楠.docx

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能大作业-主题爬虫-浙工大交换生-姜楠

成绩北京航空航天大学人工智能实验报告主题爬虫设计与实现学院浙江工业大学交换生专业方向计算机科学与技术学生姓名姜楠指导教师巢老师北京航空航天大学计算机学院2014 年6月主题爬虫的设计与实现引言互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具，但是这些通用性搜索引擎存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果，包含大量用户不关心的网页。所以需要一个能基于主题搜索的，满足特定需求的网络爬虫。为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，提供满足特定搜索需求的网络爬虫。实验设计实验要求可以进行多线程进行抓取；可以进行面向主题进行抓取；可以分辨重复的的网页内容；可以计算主题相关性；可以处理网络延时等待的处理；实验环境配置系统硬件环境：LENOVO-G470 Intel Core(TM) i3-2330M@2.20GHz操作系统环境：Windows 8.1 专业版实验配置环境：Java SE Development Kit 7 Update 45；Eclipse Kepler ；MySQL Server 5.6；实验方案设计广度优先搜索策略广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于主题爬虫中，基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。深度优先搜索策略深度优先搜索策略是一种在开发网络爬虫早期使用得较多的方法，是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。当不再有其他超链可选择时，说明搜索已经结束。最佳优先搜索策略最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。研究表明，这样的闭环调整可以将无关网页数量降低30% ~ 90% 。主题相关度建模 – 向量空间模型向量空间模型是由Salton等人于20世纪60年代末提出，是一种简便、高效的文本表示模型，其理论基础是代数学[1]。向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点，通过计算向量之间的距离来判定文档和查询之间的相似程度。然后，根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。对于任一文档，我们可以把它表示为如下t维向量的形式：其中，向量分量代表第i个标引词在文档中所具有的权重，t为系统中标引词的总数。在布尔模型中，的取值范围是；在向量空间模型中，由于采用“部分匹配”策略，的取值范围是一个连续的实数区间[0，1]。在检索的前处理中，一篇文档中会标引出多个不同的标引词，而这些标引词对表达该篇文档主题的能力往往是不同的。也就是说，每个标引词应该具有不同的权值。如何计算文档向量中每个标引词的权值，不仅关系到文档向量的形成，也关系到后续的检索匹配结果。　标引词权重的大小主要依赖其在不同环境中的出现频率统计信息，相应的权重就分成局部权重和全局权重。　局部权重(Local Weight) 是按第i个标引词在第j篇文档中的出现频率计算的权重。它以提高查全率为目的，对在文档中频繁出现的标引项给予较大的权重。全局权重(Global Weight) 则是按第i个标引词在整个系统文档集合中的分布确定的权重。它以提高查准率为目的，对在许多文档中都出现的标引项给予较低的权重，而对仅在特定文档中出现频次较高的标引项给予较大的权重。计算全局权重的典型方法就是逆文档频率IDF(Inverse Document Frequency)加权法：其中，N为系统文档总数，为系统中含有标引词的文档数。向量间相似程度的度量方法有内积法(Inner Product)、Dice法(Dice Coefficient)、Jaccard法(Jaccard Coefficient)和余弦法(Cosine Coefficient)。　较常用的度量方法是提问向量和文档向量间的内积