- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
学院:计算机工程学院网络工程
姓名:徐建豪
;一:立项依据。
二:研究内容、目标、拟解决的关键问题。
三:特色与创新之处。
四:研究计划
五:研究方案及可行性分析。
六:预期结果。;随着Internet的迅速发展,Web信息已经成为人们生活和工作中重要的信息来源。人们很难准确地从因特网上海量信息中筛选出对用户有用的信息。Web信息的滥用也成为互联网领域的一大难题。
网购也成了人们当下比较流行的购物方式,钓鱼网站也越来越多,人们很容易在不经意间点开网站导致财产损失。
暴力,色情,反动网站也是在无时无刻困扰着人们。;1,我们致力于研究与开发一个基于Java web的一个集网页信息识别、挖掘以及分析于一体的分析软件
2,对网页进行批量分析,识别出网页内容的文字,超链接,时间,信息来源等,进行数据分析,得出网页的分类、用途,并进行判断分析???否含有或者是反动宣传、诈骗、恐怖威胁、传播色情、病毒等网络犯罪网站并将信息反馈给用户方便用户识别。
3,本次首先从普通Web网页的特点开始分析,然后过渡到复杂网页的特点分析。;1,实现对网页内容的提取。
2,分析提取的内容进行内容分类。
3,对分类的信息进行分析,判断,提取网页内容中的关 键字,完成大数据时代的网页识别分析。
4,对识别的信息对用户进行反馈处理。;拟解决的关键问题;研究方案:;该项目的可行性:;我们可以通过多种方式对网页进行抓取:(1)抓取原网页数据;(2)抓取网页Javascript返回的数据。
采用网络爬虫技术,能对网页进行更充分的抓取。;项目研究中使用的主要参考文献;研究计划;用java写出网络爬虫,并能对大部分网页进行有效的抓取、分析、归类处理。
您可能关注的文档
- 科学与工程学导论—第四章—功能概述.ppt
- SL632_混凝土工程_2012年水利水电工程单元工程施工质量验收评定标准预案.ppt
- 科学与工程专业《金属热处理原理及工艺》-第二章__金属固态相变基础概述.ppt
- SLD-i系列立式电动数控刀架说明书(A4版)预案.docx
- SM01-introductiontostrategicmgmt-2015预案.ppt
- 房颤治疗新进展---左心耳封堵术浅析.ppt
- 房地产标杆企业成本管理流程精解浅析.ppt
- 科学与人类文明-第5章概述.ppt
- 房地产财务(第2x版)浅析.ppt
- 力学(I)第八章概述.ppt
- 2025年商业银行数字化转型,用户服务体验优化策略与实践.docx
- 2025年事业单位招聘考试综合类专业能力测试试卷(审计类)备考资料精选.docx
- 2025年数据要素市场交易规则在金融科技领域的应用与挑战.docx
- 2025年塑料行业智能制造设备采购风险评估及供应商原材料供应报告.docx
- 2025年在线教育家长付费决策与市场细分及品牌传播策略研究报告.docx
- 2025年四川省宜宾市中考数学试题【含答案】.pdf
- 2025年事业单位招聘考试综合类专业能力测试试卷(审计类)备考重点.docx
- 刚架结构系统可靠性的深度剖析与提升策略研究.docx
- 2025年事业单位招聘考试综合类专业能力测试试卷(审计类)备考资料精选集.docx
- 2025年事业单位招聘考试综合类专业能力测试试卷(审计类)备考重点大全.docx
文档评论(0)