开题报告-10-机电工程学院-WEB舆情分析-魏阳.docVIP

开题报告-10-机电工程学院-WEB舆情分析-魏阳.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
开题报告-10-机电工程学院-WEB舆情分析-魏阳

西安电子科技大学 国家大学生创新性实验计划项目 开 题 报 告 项目名称:面向Web的舆情分析监测系统 项目负责人: 魏 阳 项目组成员:沈婷婷 李欢丽 指导教师: 闫允一 所在院系: 机电工程学院 填报日期: 2010年6月1日 西安电子科技大学教务处制 项目名称 面向Web的舆情分析监测系统 项目类型 (划“√”) 基础研究 应用研究 开发研究 其它 √ 项目来源及选题依据 我们的项目来源为教师科研项目。 互联网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。网络成为反映社会舆情的主要载体之一。网络舆情表达快捷、信息多元方式互动具备传统媒体无法比拟的优势。 2、选题过程中已经阅读的文献资料,以及各项准备工作(如计算、实验等) 学习了Java编程,数据库技术,HTML语言等技术。 老师已做过一些前期性工作,且已经有现成的算法可以利用。 查阅了该项目的国内外文献资料。 3、国内外同类课题研究现状 北京杰诺在线提供的舆情监控系统通过对热点问题和重点领域比较集中的网站信息,如:网页、论坛、BBS等,进行24小时监控,随时下载最新的消息和意见新联财通以最先进的论坛/博客监测技术,每天监测社区各大论坛/博客用户对特定产品、品牌、人物或事件的反馈,追踪热点和敏感信息,帮助企业、组织和个人全面、深入、及时、准确地了解互联网舆论 4、详细阐述所选课题的目的和意义 项目研究的主要目标为:设计一个舆情分析监控系统,该系统是处于网站所有者和页面访问者之外的“第三方”,可以为政府监管或网络运营商提供监管工具。该系统可自动抓取网页,提取其中文本信息,用舆情分析算法对其进行关键字检索和语意判断,并根据网页中的内容相关性,生成相应的报告,最终达到净化网络环境的目的。 该平台可自动完成Web文本信息抓取、监测和拦截,具有友好的界面和定制性,语义级的舆情判决,并自动生成报告和采取拦截措施,实现“无人值守”的自动监测。 项目的研究意义通过对网页的实时监控,可以实现对网页信息的过滤与筛选,从而净化网络环境,该软件可以成为学校监管或网络运营商的监管工具。 5、根据选题所要完成的工作和预期成果及成果形式 主要工作: 1、使用网络爬虫技术抓取网页,使用模拟访问技术获得wap网页。 2、使用算法来对网页的文本内容进行分析,并且实现智能化检测和语义级的分析。 3、使用JDBC技术里的java.sql包实现对数据库的访问,并且使用连接池技术以节省系统的资源,从而实现软件的高速运行。 4、使用Java对抓取到的网页进行分析,并根据网页内容生成与网页内容相关的报告,以提供给管理者供作为参考。 预期成果 1、舆情分析监测系统一套。 2、研究论文一篇。 3、申请专利或软件著作权一项。 6、拟采用的研究方案和要解决的关键技术问题 研究方案: 1、软件的设计,使用Java编写主程序,从而实现信息拦截和抓取和检测。 2、数据库的逻辑化设计,建立管理平台,为语义级的分析及智能化的检测奠定 基础。 3、算法实现及优化,实现智能化分析。 完成主要内容: 1、设计Web页面/网站文本的获取引擎。 利用该平台采用网络爬虫和模拟访问技术抓取网站上的Web内的信息。 2、设计核心文本舆情监测算法。 综合运用语义网、神经网络、模式识别等技术建立适合于进行Web舆情分析的核心算法。利用Java实现,该算法可对目标信息进行语意判断的智能化分析,使得监测系统能够做到智能化检测和分析信息大意,从而提高信息的筛选准确度。 3、数据库和后台管理人机接口。 对数据库进行逻辑化管理,并处理网络链接(如网站间的相互链接问题),提高信息分析处理的准确性,并实现信息的完整性分析。对信息分析和判断后,重新呈现页面,作为证据保留在数据库中。后台管理为管理者和监管人提供友好的人机对话界面,并在智能化分析后自动生成详细的结果报告,便于人工的事后评估分析即人工干预。 4、报文拦截和跳转提示程序。 对在通信干路上检测用户的报文,使用Java中的数据抓包工具对用户的数据包进行监听,如果此数据包中包含色情、暴力、邪教等不良信息或用户要访问的地址为非法网站,则自动丢弃该数据包,阻断用户的访问,或进行网页跳转同时提示用户“网页包含非法内容拒绝访问”,从而从源头上杜绝访问非法网站的目的。 关键技术问题: 1、数据库的逻辑性问题,由于数据库的逻辑性直接关系到软件在检索时的准确性问题,及能实现语义级的检索问题。 2、算法的优化问题。 3、系统平台的搭建问题。由于软件系统涉及到很多方面的影响,所以在设计软件时必须考虑到诸多因素的影响。 系统实现目标: 1、设计出一个软件

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档