招生信息网的Web日志挖掘技术研究的中期报告.docxVIP

招生信息网的Web日志挖掘技术研究的中期报告.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

招生信息网的Web日志挖掘技术研究的中期报告

一、研究目的

招生信息网作为一个重要的招生渠道,其中包含大量的招生信息。而用户在招生信息网上的行为,其实反映了用户在选择学校时所重视的方面,例如用户常去浏览的招生信息类型、用户评论的词语等等。

因此,我们希望通过对招生信息网的Web日志进行挖掘,分析用户的行为,了解用户的需求,从而找出用户最为关注的信息,并为学校提供更好的招生服务。

二、研究方法

1.数据获取

通过招生信息网的服务器日志,获得了用户在该网站上的访问记录。其中包含了用户的IP地址、访问日期和时间、访问页面及其内容、访问方式等信息。我们基于这些数据展开研究。

2.数据处理

我们首先对数据进行预处理。即按照访问日期和时间进行排序,去除非法的访问记录和特殊字符,以及对蜘蛛等爬虫进行剔除。

接着,我们对数据进行划分,分别针对不同类型的用户行为进行挖掘。如用户浏览招生信息的页面、用户提交留言、评论的内容等。

3.数据分析

我们采用文本挖掘技术对数据进行分析,主要包括以下几个方面:

(1)文本预处理:对收集到的数据进行清洗和处理,去掉噪声、停用词、标点符号等。

(2)特征提取:采用TF-IDF算法对文本数据抽取关键词信息,提取出用户在招生信息网上的最常见搜索关键词和常用词组。

(3)分类算法:通过分类算法对收集到的数据进行分类,识别用户浏览的关键字信息和用户留言、评论的情感极性(积极/消极)。我们从而可以分析用户对不同信息的兴趣和需求。

(4)可视化展示:通过构建图表和表格的方式,将分析结果以直观的形式展现,从而方便学校更好地理解用户的需求,优化招生服务的提供、吸引更多的优质学生。

三、研究进展

我们已经完成了对数据的预处理,包括数据清洗、去重、数据格式规范化等内容。接下来,我们将基于Spark与Hadoop等大数据处理工具,进行处理。我们可以通过多机并行运算处理大量日志数据,从而大大提升运算效率和数据处理时间。

我们同时采用了自然语言处理技术,对用户留言和评论等非结构化数据进行分析。我们已经实现了基于SVM算法的情感极性分类模型,能够识别用户留言和评论的情感。

我们还在完善数据可视化功能。略显折叠的功能可以更好地展现我们的分析结果,让学校了解用户的需求,以此来改进和完善招生服务。

四、研究结论

我们已经初步分析了用户访问招生信息网的行为,并对用户提交的留言和评论进行了情感分析。我们所发现的一些结果如下:

(1)用户最关注的招生信息类型主要是高水平学科、双一流学科相关的信息。

(2)用户提交的留言和评论中,情感极性积极的占据绝大多数,说明学生对招生信息网上发布的信息和服务有着良好的评价。

(3)虽然大部分的用户留言与评论意见偏向积极,但也有一些的负面意见,如部分招生信息过于枯燥或者不够全面,说明学生对招生信息网还有所期待与改进。

通过分析,我们可以了解用户需求,进而调整招生信息网的结构和数据信息,以期更好地为学生提供服务,为学校提供有力的招生帮助。

您可能关注的文档

文档评论(0)

kuailelaifenxian + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档