- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能大作业 - 主题爬虫 - 浙工大交换生 - 姜楠精要
成绩北京航空航天大学人工智能实验报告主题爬虫设计与实现学院浙江工业大学交换生专业方向计算机科学与技术学生姓名姜楠指导教师巢老师北京航空航天大学计算机学院2014 年6月主题爬虫的设计与实现引言互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具,但是这些通用性搜索引擎存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果,包含大量用户不关心的网页。所以需要一个能基于主题搜索的,满足特定需求的网络爬虫。为了解决上述问题,参照成功的网络爬虫模式,对网络爬虫进行研究,提供满足特定搜索需求的网络爬虫。实验设计实验要求可以进行多线程进行抓取;可以进行面向主题进行抓取;可以分辨重复的的网页内容;可以计算主题相关性;可以处理网络延时等待的处理;实验环境配置系统硬件环境:LENOVO-G470 Intel Core(TM) i3-2330M@2.20GHz操作系统环境:Windows 8.1 专业版实验配置环境:Java SE Development Kit 7 Update 45;Eclipse Kepler ;MySQL Server 5.6;实验方案设计广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于主题爬虫中,基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。深度优先搜索策略深度优先搜索策略是一种在开发网络爬虫早期使用得较多的方法,是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。当不再有其他超链可选择时,说明搜索已经结束。最佳优先搜索策略最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进,以跳出局部最优点。研究表明,这样的闭环调整可以将无关网页数量降低30% ~ 90% 。主题相关度建模 – 向量空间模型向量空间模型是由Salton等人于20世纪60年代末提出,是一种简便、高效的文本表示模型,其理论基础是代数学[1]。向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点,通过计算向量之间的距离来判定文档和查询之间的相似程度。然后,根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。对于任一文档,我们可以把它表示为如下t维向量的形式:其中,向量分量代表第i个标引词在文档中所具有的权重,t为系统中标引词的总数。在布尔模型中,的取值范围是;在向量空间模型中,由于采用“部分匹配”策略,的取值范围是一个连续的实数区间[0,1]。在检索的前处理中,一篇文档中会标引出多个不同的标引词,而这些标引词对表达该篇文档主题的能力往往是不同的。也就是说,每个标引词应该具有不同的权值。如何计算文档向量中每个标引词的权值,不仅关系到文档向量的形成,也关系到后续的检索匹配结果。 标引词权重的大小主要依赖其在不同环境中的出现频率统计信息,相应的权重就分成局部权重和全局权重。 局部权重(Local Weight)是按第i个标引词在第j篇文档中的出现频率计算的权重。它以提高查全率为目的,对在文档中频繁出现的标引项给予较大的权重。全局权重(Global Weight)则是按第i个标引词在整个系统文档集合中的分布确定的权重。它以提高查准率为目的,对在许多文档中都出现的标引项给予较低的权重,而对仅在特定文档中出现频次较高的标引项给予较大的权重。计算全局权重的典型方法就是逆文档频率IDF(Inverse Document Frequency)加权法:其中,N为系统文档总数,为系统中含有标引词的文档数。向量间相似程度的度量方法有内积法(Inner Product)、Dice法(Dice Coefficient)、Jaccard法(Jaccard Coefficient)和余弦法(Cosine Coefficient)。 较常用的度量方法是提问向量和文档向量间的内积法,其计算公式如下: 其中,是检索
您可能关注的文档
- 化学实验室安全培训讲述.ppt
- 化学式与化合价课件讲述.ppt
- 化学实验规范及安全讲述.pptx
- 2015届高三哲学唯物论主观题设问角度及要点归纳(公开课)讲解.ppt
- 化学必修2全册课时练及导学案讲述.doc
- 人工关节置换治疗高龄髋部骨折精要.ppt
- 化学性食物中毒的快速检验2016-10-26讲述.ppt
- 化学平衡图像题型与处理讲述.ppt
- 人工全髋关节置换术-精要.ppt
- 化学技术监督管理制度讲述.doc
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
最近下载
- 基于UML的大学图书馆图书信息管理系统设计实验.docx VIP
- 推土机安全作业操作规程技术交底培训.pptx VIP
- BYK技术手册_润湿分散剂.pdf
- 最新GBT20647.9物业服务管理体系一整套文件(手册+程序文件+管理制度+表单).pdf
- 关于续签2017年度物业管理服务项目合同的请示1-12月-.doc VIP
- 一例二型糖尿病患者个案护理.pptx
- 幼儿教育课题申报书:《幼儿劳动养成教育的培养研究》.docx
- 2022年道德与法治新课标《义务教育道德与法治课程标准(2022年版)》解读PPT课件.pptx VIP
- 五年级上册平行四边形的面积说课之课件.ppt
- 房屋装修监管难痛点与策略.doc
文档评论(0)