基于内容关联链接有效性评价系统设计与实现-开题报告修改1.doc

基于内容关联链接有效性评价系统设计与实现-开题报告修改1.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于内容关联链接有效性评价系统设计与实现-开题报告修改1

合肥学院 2016 届 毕 业 论 文(设 计) 开 题 报 告 论文(设计)题目 基于内容关联的链接有效性评价 系统的设计与实现 院系名称 计算机科学与技术系 专业(班级) 计算机科学与技术 2012级软件工程 姓名(学号) 陈勇(1204091044) 指导教师 徐 静 系负责人 王 晓 峰 毕业论文(设计)题目: 基于内容关联的链接有效性评价系统的设计与实现 课题的背景: 互联网时代的到来使得人们的学习,工作都越来越越离不开网络,而人们在网络上获取资料和信息时通常又是通过超链接。例如通过网络看新闻,查阅资料书籍等等。在网站中,超级链接以网页为基本信息处理单元, 通过从一个语义单元链接到另一个来实现信息的互换,并将网络上各式各样的资源联系起来。这些元素之间存在着一定的语义关系。这种关系可以从两方面来理解,即结构语义(超链接在结构上的关系)和内容语义(超链接在内容上的关系)。由此,我们将网站链接准确性作为基于内容语义评估一个网站性能的重要指标。 但是在信息纷繁复杂的今天,各网站会想出一切办法来提高点击率,同时,由于网页内容的复杂度,经常会出现这样两种情况: 1.由于信息量过大,导致相似信息的混淆,或因为操作失误导致的超级链接链源链接词与链宿正文文本不匹配的现象。 2.由于一些劣质网站为了吸引点击率,故意使用一些不切实际的链源链接词,而链宿文本其实使一些不匹配的内容。 基于以上考虑,我们将连接准确性定义为一个网站中超级链接链源链接词与链宿正文内容的匹配精确程度。链接准确性越高,证明网站内容结构联系越紧密。相应的信息查准率也就越高。 虽然通过网络连接获取信息是一种十分高效,快捷的知识获取方式,但是当用户在浏览网页,一些错误的,或无效的甚至是违法的链接的标题与用户想要获取的信息相似时,用户在点开这些链接的时候不单会影响用户的情绪,更是耽误用户的宝贵时间。本系统侧可以提取出链接的标题并与正文内容进行相似度计算,将结果反馈给用户,能够有效的保证用户在浏览网络的获取链接的准确度,提高访问效率。 本系统就是为实现这些用户的需求而产生的,系统主要流程是:对于一个页面上的全部链接,我们利用Htmlparser等工具进行批处理,将链源链接词,以及链宿文本内容抽取出来,通过关系数据库存储并建立联系。同时,利用改进的TF-IDF算法对于链源链接词和链宿文本内容分别进行关键词抽取。用链源链接词和链宿文本内容中提取出的若干关键词分别代替二者。通过计算链源及链宿两端关键词相似度,确定它们之间的相关程度,设定阈值,对于该超级链接基于内容语义的准确程度做出判断。然后将相关程度按照顺序排列显示给用户,以便用户可以直观的得到结果。 三、系统组成和关键问题: 系统组成:系统大致分为5个模块:用户登录模块;网页信息提取模块;分词和关键词提取模块,相似度计算模块,页面显示模块 (1)用户注册登陆模块:为用户提供注册登录功能,方便使用系统的人员管理。 (2)网页提取模块:使用HtmlParser技术编写规则,获得所有符合链接,过滤掉一些无法使用的链接,收集大量的网络连接。并存储到本地数据库。 (3)分词和关键词提取模块:对收集的链接初步处理获取关键信息,如标题、正文、发布时间等,并进行分词及关键词提取操作。分别使用ICTCLAS和TF-IDF算法。 (5)相似度计算模块:从词语入手来计算其相似度,进行加权平均,得到链源链接词与链宿正文文本的相似度数值。 (6)页面显示模块:根据最终相似度计算结果,统计出链接与正文的匹配结果并按照顺序显示给用户。 关键问题: (1)怎么得到每个链接的标题、正文内容、发生时间? (2)怎样进行分词操作 (3)怎样进行关键词的匹配以及相似度的计算 (4)怎样将相似度结果直观的显示给用户,方便用户取舍。 四、毕业论文(设计)完成进度及预测进展 (遵照学校校历按周计算) 第1周至第2周:对毕业论文背景调查及资料收集,并撰写开题报告; 第3周至第4周:学习相关开发工具,同时查阅本次设计相关论文资料,并对本次设计进行需求分析; 第5周至第10周:根据分析阶段所获得的相关文档进行软件设计,并编写各个模块的相关代码; 第11周:完成毕业设计和论文初稿;第12周至第13周:完善毕业设计和论文;第14周:毕业设计答辩。 ? ?? B、修订后重审

文档评论(0)

skvdnd51 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档