- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
招生信息网的Web日志挖掘技术研究的中期报告
一、研究目的
招生信息网作为一个重要的招生渠道,其中包含大量的招生信息。而用户在招生信息网上的行为,其实反映了用户在选择学校时所重视的方面,例如用户常去浏览的招生信息类型、用户评论的词语等等。
因此,我们希望通过对招生信息网的Web日志进行挖掘,分析用户的行为,了解用户的需求,从而找出用户最为关注的信息,并为学校提供更好的招生服务。
二、研究方法
1.数据获取
通过招生信息网的服务器日志,获得了用户在该网站上的访问记录。其中包含了用户的IP地址、访问日期和时间、访问页面及其内容、访问方式等信息。我们基于这些数据展开研究。
2.数据处理
我们首先对数据进行预处理。即按照访问日期和时间进行排序,去除非法的访问记录和特殊字符,以及对蜘蛛等爬虫进行剔除。
接着,我们对数据进行划分,分别针对不同类型的用户行为进行挖掘。如用户浏览招生信息的页面、用户提交留言、评论的内容等。
3.数据分析
我们采用文本挖掘技术对数据进行分析,主要包括以下几个方面:
(1)文本预处理:对收集到的数据进行清洗和处理,去掉噪声、停用词、标点符号等。
(2)特征提取:采用TF-IDF算法对文本数据抽取关键词信息,提取出用户在招生信息网上的最常见搜索关键词和常用词组。
(3)分类算法:通过分类算法对收集到的数据进行分类,识别用户浏览的关键字信息和用户留言、评论的情感极性(积极/消极)。我们从而可以分析用户对不同信息的兴趣和需求。
(4)可视化展示:通过构建图表和表格的方式,将分析结果以直观的形式展现,从而方便学校更好地理解用户的需求,优化招生服务的提供、吸引更多的优质学生。
三、研究进展
我们已经完成了对数据的预处理,包括数据清洗、去重、数据格式规范化等内容。接下来,我们将基于Spark与Hadoop等大数据处理工具,进行处理。我们可以通过多机并行运算处理大量日志数据,从而大大提升运算效率和数据处理时间。
我们同时采用了自然语言处理技术,对用户留言和评论等非结构化数据进行分析。我们已经实现了基于SVM算法的情感极性分类模型,能够识别用户留言和评论的情感。
我们还在完善数据可视化功能。略显折叠的功能可以更好地展现我们的分析结果,让学校了解用户的需求,以此来改进和完善招生服务。
四、研究结论
我们已经初步分析了用户访问招生信息网的行为,并对用户提交的留言和评论进行了情感分析。我们所发现的一些结果如下:
(1)用户最关注的招生信息类型主要是高水平学科、双一流学科相关的信息。
(2)用户提交的留言和评论中,情感极性积极的占据绝大多数,说明学生对招生信息网上发布的信息和服务有着良好的评价。
(3)虽然大部分的用户留言与评论意见偏向积极,但也有一些的负面意见,如部分招生信息过于枯燥或者不够全面,说明学生对招生信息网还有所期待与改进。
通过分析,我们可以了解用户需求,进而调整招生信息网的结构和数据信息,以期更好地为学生提供服务,为学校提供有力的招生帮助。
您可能关注的文档
- 基于嵌入式Liunx电脑绣花机系统的应用研究的中期报告.docx
- 基于HBF Sagnac环的微波光子滤波器的研究的开题报告.docx
- 中小企业自营仓库规划布局研究——以X公司为例的中期报告.docx
- 大学生思想政治教育活动载体的运用现状及建设研究的综述报告.docx
- 基于Web Services网络教学平台的研究与实现的综述报告.docx
- 论文化冲突与犯罪的综述报告.docx
- 基于位移的地震易损性概率评估方法研究的开题报告.docx
- 小学信息技术开展动画制作教学的可行性研究和实践探索的中期报告.docx
- 中等职业学校专业设置与区域产业结构适应性研究——以河北省为例的综述报告.docx
- 现代汉语新兴“被X”格式研究的综述报告.docx
原创力文档


文档评论(0)