- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE \* MERGEFORMAT 2
PAGE \* MERGEFORMAT 1
毕业设计开题报告
计算机科学与技术
基于关键词的网页检索和排序
选题的背景与意义
随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。
在最近几年里,WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于这个数,但要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚无边、拥有着各种各样信息的因特网上冲浪。大大缓解了这个矛盾,它为人们大大缩短了浪费无用功的时间,让人们尽快地得到了自己所需要的信息和服务。
研究的基本内容与拟解决的主要问题
目标是要用智能的方式查找网页,只要给出想要用户输入的关键词,就能够从可获得的网页中选择优先服务满足用户的要求。
预定想解决的问题:
1.如何确定网页优先权。
2.如何衡量用户输入的关键词与网页的相关度。
3.如何计算用户输入的关键词与网页的相关度。
4.如何得到网页的的排序。
网页的优先权通过用户输入的关键词与网页的相关度来体现
假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高。
(2)如何得到网页的排序
网页的排序通过相关度的的计算,按相关度从高到低进行排序输出。
研究的方法与技术路线:
一.抓取网页
1.用HtmlParser抓取所需网页并保存为文本。
二.分词
1.对网页文本进行分词并保存到对应的分词文本。
2对输入的请求进行分词。
三.相关度的计算
1.对网页文件构造向量空间模型,将输入汉字串向量中的每一项作为网页向
量中的项,然后对输入汉字串向量中的每一项,查找网页的二元分词表根
据每一项在分此表中出现的次数,来构造网页的向量。
2. 对输入向量和网页向量进行相关度匹配采用夹角余弦计算方法作为相关
性的计算。
夹角余弦计算法:
向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在
VSM中,将文档看作是由相互独立的词条组(T1,T2,…Tn)构成,对于
每一词条Ti都根据其再文档中的重要程度赋予一定权值Wi,并将T1.T2…
Tn看成一个n维坐标系中的坐标轴,W1,W2….Wn为对应的坐标值。这样由
(T1,T2,….Tn)分解而得到的正交词条矢量组就构成一个文档向量空间,文
档则映射成为空间中的一个点。对于所有文档和用户查询都可映射到此文
档向量空间,用词条矢量(T1,W1,T2,W2….Tn,Wn)来表示,从而将文档信
息的匹配问题转化为向量空间中的矢量匹配问题.
假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来
度量,夹角越小,说明相关度越高,相关度计算公式如下
四.按相关度的高低进行排序输出
相关度计算的得出结果在(0,1)。越接近1说明相关度越高,则排在前面。
程序开发: Myeclipse
研究的总体安排与进度:
截止时间
要求完成的工作
2010-11-20~2010-11-26
在老师指导下进行毕业设计选题
2010-11-27~2010-11-28
明确课题的目标和内容及做好相应技术准备
2010-11-29~2010-12-6
下发毕业设计课题任务书
2010-12-13~2010-12-19
学生撰写开题报告
2010-12-20~2010-12-26
完成开题答辩
2010-12-27~2011-1-31
查找文献,完成文献综述和翻译
2011-2-1~2011-4-30
完成课题主要内容并进行实验验证
2011-5-1~2011-5-20
撰写毕业设计论文,整理材料,毕业设计论文完善,修改及定稿
2011-5-21~2011-5-31
完成毕业论文答辩
五、主要参考文献:
Papazoglou M P, Traverso P,
您可能关注的文档
- 简易等效采样数字示波器的设计与实现【毕业论文】.doc
- 人工温湿度环境模拟室构建研究【毕业论文】.doc
- 深度视频预处理方法的设计和实现【毕业论文】.doc
- 双费率数字电度表设计【毕业论文】.doc
- 透明导电薄膜用Sb掺杂SnO2光电特性研究【毕业论文】.doc
- 微型代步工具概念设计【毕业论文】.doc
- 小波分析及在轴承故障诊断中的应用【毕业论文】.doc
- 多媒体音箱设计【开题报告+文献综述+毕业设计】.Doc
- 基于PLC的模糊PID温度控制系统的应用研究【开题报告+文献综述+毕业设计】.Doc
- 太阳电池用玻璃衬底上多晶硅薄膜的结构及电学特性研究【开题报告+文献综述+毕业设计】.Doc
- 基于计算机网络的信号误差处理演示系统研制【开题报告+文献综述+毕业设计】.Doc
- 基于离散运算的自适应鲁棒数字图像水印算法研究【开题报告+文献综述+毕业设计】.Doc
- 基于免疫遗传的机器人路径规划【开题报告+文献综述+毕业设计】.Doc
- 基于嵌入式系统的网站设计【开题报告+文献综述+毕业设计】.Doc
- 基于热蒸发方法的硫系薄膜制备与光学性能研究【开题报告+文献综述+毕业设计】.Doc
- 基于人工生命模型的虚拟植物生长动画初探【开题报告+文献综述+毕业设计】.Doc
- 基于双树轮廓波的图像降噪研究【开题报告+文献综述+毕业设计】.Doc
- 基于特征点匹配的多视点图像颜色校正方法研究【开题报告+文献综述+毕业设计】.Doc
- 基于颜色变化曲线的多视点视频颜色校正方法研究【开题报告+文献综述+毕业设计】.Doc
- 基于以太网的智能家居通信模块设计【开题报告+文献综述+毕业设计】.Doc
原创力文档


文档评论(0)