SRTP初审答辩 徐建豪.pptVIP

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SRTP初审答辩 徐建豪

学院:计算机工程学院网络工程 姓名:徐建豪 一:立项依据。 二:研究内容、目标、拟解决的关键问题。 三:特色与创新之处。 四:研究计划 五:研究方案及可行性分析。 六:预期结果。 随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来源。人们很难准确地从因特网上海量信息中筛选出对用户有用的信息。Web信息的滥用也成为互联网领域的一大难题。 网购也成了人们当下比较流行的购物方式,钓鱼网站也越来越多,人们很容易在不经意间点开网站导致财产损失。 暴力,色情,反动网站也是在无时无刻困扰着人们。 1,我们致力于研究与开发一个基于Java web的一个集网页信息识别、挖掘以及分析于一体的分析软件 2,对网页进行批量分析,识别出网页内容的文字,超链接,时间,信息来源等,进行数据分析,得出网页的分类、用途,并进行判断分析是否含有或者是反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪网站并将信息反馈给用户方便用户识别。 3,本次首先从普通Web网页的特点开始分析,然后过渡到复杂网页的特点分析。 1,实现对网页内容的提取。 2,分析提取的内容进行内容分类。 3,对分类的信息进行分析,判断,提取网页内容中的关 键字,完成大数据时代的网页识别分析。 4,对识别的信息对用户进行反馈处理。 拟解决的关键问题 1:如何实现对网页内容的采集,如何分析网页中的每个模块的内容,提取关键词。 2:如何实现对所采集的网页进行过滤处理。 3:如何对处理后的信息进行抽取。 研究方案: 用java编写一个网络爬虫,对网页进行网页爬取。通过web页面之间的连接关系自动获取网页,并不断向所需要的web页面扩展。 在网页净化和消重的过程中把抓取的网页净化掉里面与网站主题无关的内容比如网页中的广告,css样式,javascript等脚本内容 信息抽取的任务是编写抽取规则并利用这些规则从具有类似结构的网页中将目标数据项提取出来后存储在结构化数据库中。 实现方法:1、抓取一般内容2、抓取网页内容-图片3、抓取网页内容-Post 数据4、抓取网页内容-防止重定向5、抓取网页内容-如何更改来源 Referer(伪造来源) 和UserAgent(用户代理)。 然后采用链接过滤技术,可以采用布隆过滤器来实现对链接的过滤。 该项目的可行性: 该项目具有较强的可操作性。文献资料查找方便,能够满足我们项目的科研需要。 明确对Web信息采集的三个过程:网页爬取,页面净化和信息抽取。并针对性的进行解决。 课题新颖且具有较强的时代意义。 我们可以通过多种方式对网页进行抓取:(1)抓取原网页数据;(2)抓取网页Javascript返回的数据。 采用网络爬虫技术,能对网页进行更充分的抓取。 项目研究中使用的主要参考文献 1,李钝,曹元大,万月亮: 基于关联规则的安全特色关键词提取研究[J]. 计算机工程与应用. 2006(S1); 2,潘统芬.??浅析计算机网络有害信息及其监管对策[J]. 兰州学刊. 2003(05) 3,刘丽珍,宋瀚涛.??文本分类中的特征选取[J]. 计算机工程. 2004(04)

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档