- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕设中期报告ppt
在前期完成了以下工作 (1) 查阅了许多相关文献资料,已经完成需求分析; (2) 完成数据的采集分析,功能概述的详细设计; (3) 完成大部分数据搜集、分析; (4) 对HTML、CSS与PHP数据库开发进行了一定的学习通过对这些知识的重新温故和学习,对后面所要完成的任务更加清晰。 (5)对层次分析法的理解和学习 本系统的具体模块 先介绍一下两个大模块:网络微博获取模块和数据处理分析模块 在网络微博获取中,主要要实现的对网络微博信息的获取,类似网络爬虫 在数据分析模块中,主要实现对获取的数据进行各个关键词分类、分析,同时通过对其热度计算进行排序。 文本数据挖掘处理 网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。网络信息挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时以知识库技术为基础,综合运用人工智能、模式识别、神经网络领域的各种技术。应用网络信息挖掘技术的智能搜索引擎系统能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。 对于微博的文本数据挖掘,包括数据获取、预处理、数据转换。 文本数据挖掘处理结构(微博数据挖掘处理) 当前进展 2.2解决措施 (1) 进一步理解望楼爬虫工作原理结合自己所需内容设计爬虫; (2) 多参阅一些有关书籍、文献,多运用有关方面的知识,进一步完善数据的分析处理得到公式模型。 网络热点信息的监测与发现研究 专业:数字媒体 班级:0305100103 姓名:丁云翔 导师:吴 锋 1.毕设进展状况 自2014年2月完成开题报告以来,按照开题报告中的计划展开研究。在导师的指导下,毕设的研究工作进展比较顺利,先将这一段时间的情况做一个介绍。自开题报告以来我学习了一些算法及有关知识,具体内容如下: 通过对采集的数据(2013.01.01——2014.04.01)进行分析得到对于是 否为微博热点信息的主要特征指标。包括认证信息、粉丝、评论、转发,四个指标属性。 对各个指标的确立分类、分析。V的分类,微博信息采集(转发、评论)拟定一个微博热度公式模型、对此微博的态度,对此微博的情绪 对V认证信息的分类 对对此微博态度的分类 对此微博情绪的分类 上述各项内容在数据采集以及分析上已基本完成,同时对于数据采集后的数据处理正在进行。 2.1存在问题 (1) 目前数据的采集依靠的是人工采集和网络爬虫(来自网络)并非自己的程序系统,目前参照网络爬虫正在设计设和自己的网络爬虫以便更快速方便的获得数据。 (2)数据挖掘后续工作的遇到阻碍,进展较慢。 (3)需要更多的数据来拟定公式,目前对于拟定 公式数据量不够容易出现错误
文档评论(0)