- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
互联网搜索引擎信息抓取系统开题报告
互联网搜索引擎信息抓取系统开题报告
互联网搜索引擎信息抓取系统开题报告
互联网搜索引擎信息抓取系统开题报告
编辑整理:
尊敬的读者朋友们:
这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(互联网搜索引擎信息抓取系统开题报告)的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为互联网搜索引擎信息抓取系统开题报告的全部内容。
毕业设计开题报告
附表二
设计题目
选题方向
学生姓名
专业
年级、班级
一、选题的来源、目的、意义和基本内容
课题来源:随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为信息检索的工具,现已成为用户访问互联网的入口和指南并受到广大用户的青睐。然而,传统的搜索引擎正面临着网页索引规模、更新速度、个性化需求和查询结果精度低等多方面的严峻挑战。如何有效的针对搜索引擎抓取信息成为了研究的热点。
研究目的:本文的研究目的是研究如何设计一个机遇搜索引擎的信息抓取系统,使得系统能够尽可能多地抓取与特定主题内容相关的网页,同时最大限度地避免无关网页的抓取。
研究意义:随着网络信息的迅速膨胀,WEB的信息量越来越大,现在有的搜索引擎如Google、百度等,都是面向所有的用户,力争在返回结果上做到面面俱到,不是专门为搜索特定领域资料而设计的,然而人们往往需要借助搜索引擎来帮助他们在大量信息中寻找特定领域的资料,比如求职者在百度中搜索“招聘数学教师”,会有部分的数学教师职位,但是结果中很多职位都已经过期,有的甚至是一年前甚至更久的职位信息,对于招聘这样的时效性非常高的信息,百度这样的搜索引擎明显不能满足用户需求。本系统的研究将针对上述的问题开展,并期望对互联网信息抓取研究提供一定的思路。
研究内容:本文对搜索引擎的发展历史及现代搜索引擎的功能结构进行了介绍,并讨论了搜索引擎技术中网页爬行和更新存在的问题,在分析了现有实现技术优劣势的基础上设计了具有高度系统灵活性和扩展性的基于搜索引擎的信息抓取系统,实现了搜索引擎信息的快速抓取。
二、国内外研究综述
赵喜乐,陈光在垂直搜索引擎的抓取系统-基于网络蜘蛛技术一文中提出了基于网络蜘蛛技术的垂直搜索引擎的抓取系统;HYPERLINK”/kcms/detail/search.aspx?dbcode=CMFDsfield=au&skey=%e8%b0%a2%e6%b2%bb%e5%86%9bcode”\thttp:///KCMS/detail/_blank谢治军在垂直搜索引擎的主题网页抓取策略研究中提出了一种改进的主题网页抓取策略.为了使特征词权重更能代表网页的真实内容,改进了网页预处理后的特征词权重的计算方式,对网页中不同位置的特征词赋予不同的权重。为了提高主题网页抓取的准确率,改进了待爬行队列中URL优先权值的计算方法,综合考虑了隐马尔科夫模型方法和网页内容相关度方法。HYPERLINK”http:///kcms/detail/search。aspx?dbcode=CMFD&sfield=auskey=%e5%bc%a0%e6%99%93%e5%b3%b0code\t/KCMS/detail/_blank张晓峰在并行网页抓取系统设计中提出了基于网页链接重要性和路径重要性的启发式搜索算法。上述的研究为网页信息的抓取作出了贡献。
三、参考文献
[1]MurrayBH,MooreA.SizingtheInternet[M].AWhitePaper:Cyveillance,Inc,2000。[2]肖冬梅。垂直搜索引擎研究[J].图书馆学研究,2003(2):87.
[4]FitzsimmonsJA,FitzsimmonsMJ。服务管理:运作、战略与信息技术:operations,strategyandinformationtechnology1[M].张金成,范秀成,译.北京:机械工业出版社,2003。
[5]陈新颜.垂直搜索引擎辨析[J]。现代情报,2004(9):133.
[6]黄建莲。中国搜索引擎服务市场的现状及发展[J].华北科技学院学报,2005(9):115
四、毕业设计所使用的方法
http:///_blank调查法
是http:///_blank”科学研究中最常用的方法之一。它是有目的、有计划、有系统地搜集有关研究对
您可能关注的文档
- 员工着装规范要求.doc
- 初三英语特殊疑问句常考点.pdf
- 2022届高中生物第一章走进细胞基本知识过关训练.pdf
- 【精品推荐】商品过度包装的问题有哪些.doc
- 人教版初中生八年级上册第五单元生物圈中的其他生物知识点归纳总结(精华版).docx
- 吊带使用及报废标准.doc
- 2023人教版带答案高中历史上第四单元明清中国版图的奠定与面临的挑战知识点总结(超全).pdf
- (文末附答案)2022届九年级第二十章电与磁考点专题训练.pdf
- 学生会外联部2021工作总结.doc
- 2023年人教版高中数学第七章复数知识总结例题.pdf
- 第7单元 第3章 第3节 生物进化的原因2023-2024学年八年级上下册生物课时作业教学设计(人教版).docx
- 部编版八年级历史下册第三单元第10课建设中国特色社会主义教案.docx
- 华东师大版八年级体育与健康 第二章 双手头上掷实心球 教案.docx
- 第2.4节综合训练2023-2024学年新教材高中数学选择性必修第二册同步教学设计 (湘教版2019).docx
- 第7课 辽、西夏与北宋的并立 参考教案.docx
- 中图版地理七年级下册 6.docx
- 上外版(2020)高中英语选择性必修第四册Unit 3 Reading (Vocabulary focus) 教学设计.docx
- 【核心素养目标】人教版九下第二单元第1课时《夫妻双双把家还》教案.docx
- 冀美版七上美术 9色彩的感受与联想 教案.docx
- 苏教版八年级上册 第一节 生命的诞生 教学设计.docx
文档评论(0)