- 2
- 0
- 约5.93千字
- 约 10页
- 2017-05-07 发布于天津
- 举报
技术报告-基于LDA模型的高校论坛热点提取系统.ppt
* * 论坛热点提取的流程分为数据抓取,文本预处理以及主题提取三个模块。数据抓取模块从网络上批量抓取数据形成语料库。随后通过文本预处理模块对抓取的数据进行数据清洗获得符合标准的文本语料。之后通过论坛文本主题提取模块从文本语料中提取主题,输出结果。 * * 数据抓取模块: 北邮人(BYR)论坛成立于2003年9月26日。经过几年的发展,已经成为北邮校内最大的信息交流平台,在北邮及周边学校中拥有较为固定的使用人群,在高校里十分火爆,人气颇高。 由于在BYR论坛中,关于时事舆情的话题讨论通常在论坛的谈天说地版块出现,因此本研究通过论坛爬虫从北邮人论坛的谈天说地版块抓取文档共计30000余篇,文档包括发帖正文以及每个帖子中的回复内容。 文本预处理: 从爬虫中通过数据清洗获得的文本数据通常为完整的文档内容,因此为了提供LDA模型机器学习所须的语料格式,须对原始文本数据进行中文分词,以及关键词提取。 本文使用python的Jieba分词模块来对中文语料进行预处理,最终挑选谈天说地版块从2015年12月到2016年3月的所有文本内容以月份为单位作为样例进行分析及处理。 在本文中对于从论坛抓取的语料, 将同一帖子中正文主题单独作为一个文档,评论部分每五条评论合并为同一个文档。按照上述规则对文本进行划分从而缩小热门帖与冷门帖之间的篇幅差异。热门帖因为回帖量大会分为更多的文档
您可能关注的文档
- 建设项目环境影响报告表 - 宁乡县人民政府公众信息网.doc
- 建设项目环境影响报告表 - 江苏滨海经济开发区沿海工业园.doc
- 建设项目选址意见书核发台帐(2011年度).doc
- 开化县城区截污纳管工程(永吉二路段)招标文件.doc.doc
- 引 言 - layout.doc
- 引 言 - 武汉金思路科技发展有限公司.doc
- 引入“研究”,推动“教研” --- 杭州高中课程标准实验中 ….ppt
- 张家界市城市环境卫生专业规划文本.doc
- 强化。肺系。课件.ppt
- 归因分数: 因果概率解释的基本区别.ppt
- 2024-2025学年湖南省邵阳市新宁县回龙寺镇人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市平原县王杲铺中小、王凤楼中小、腰站镇中小青岛版一年级下册3月月考数学试卷.docx
- 第四单元 课题3 物质组成的表示-初中化学新教材预习学案(人教版2024九年级上册).docx
- 2024-2025学年山东省济宁市梁山县人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市德州经济技术开发区长河小学等校青岛版一年级下册期中考试数学试卷.docx
- 2026《基于国产开源单片机GD32VF103的输变电设备物联网传感器设计》8300字.docx
- 2024年中考道德与法治真题完全解读(北京卷).docx
- 2026《基于机器视觉识别的工件边缘曲线重构方法分析》9000字.docx
- 课时9.4 物体的浮与沉【一大题型】八年级全一册物理(沪科版2024).docx
- 2024-2025学年广东省江门市开平市人教版一年级下册期中综合素养评价数学试卷.docx
原创力文档

文档评论(0)