B003-D-邓碧霞面向网络舆情的关联度分析.pdfVIP

  • 4
  • 0
  • 约1.7万字
  • 约 17页
  • 2019-10-26 发布于湖北
  • 举报

B003-D-邓碧霞面向网络舆情的关联度分析.pdf

泰迪华南杯数据挖掘竞赛论文报告 面向网络舆情的关联度分析 摘 要:网络舆情事件处理不当,会引发用户的过激行为。因此通过事件找出有关用户就可以 起到一定的监督作用。本文先对用户提供的数据(用户信息和事件)进行预处理,对于用户信 息,处理身份证号,还原成:性别,发证地,出生年月日,然后重复事件去除,用replace pioneer 软件对html 文件查找含QQ,手机,作者等关键字,然后手动添加进excel 里。对txt 文件中 的事件标题进行中文分词处理。接着抽取含有用户信息各属性的事件,转化为“用户-事件-用 户”的形式,运用clementine 软件,分析表的置信度和网络图直观性,得出余晓明和丁羽心和 马小龙是关联的等类似结果。但是发现模型的不足,对于属性没有权重,同时也发现html 文件 中没有MSN 信息,而且QQ 信息没有能和事件信息匹配上,因此将用户信息分为:姓名,地址, 性别(用户的地址是将原来的地址加身份证地址,姓名是加上关键字)3 个属性,将整个事件 转换成3 个指标,地址,姓名,性别。其中姓名是由2 部分组成:html 中提取的作者,爆料人 等,和题分词后的人名;性别由html 中提取的性别,所以有大量缺失值;地址由两部分组成: 根据网源得到的地方网址和事件标题分词后的地址,将处理后的用户和事件匹配相同的字数, 利用C++软件,求出结果,一个三维向量,通过欧氏距离,将结果排序。取出每个人距离最短 的事件,发现钟建国和胡万林等人事存在关系的。通过这一算法,找到了用户和事件的关系, 从而通过事件连接2 个用户,找出用户之间的关系。再次对模型修改,距离标准化,计算用户 与用户之间的关系,得出更清晰的效果。对于网络舆情来说,就可以从事件中找到相关人物以 及和人物相关的其他人,那么这样就起到监督作用。 关键词:网络舆情 replace pioneer 中文分词 Clementine 关联度 欧氏距离 第1 页,共17 页 泰迪华南杯数据挖掘竞赛论文报告 Correlation analysis of network - oriented public opinion Abstract: Importantly handled network public opinion events will cause bad users behaviors. Therefore, it is important to find out the concerned users. Firstly, we clarify data(user information and events):for the ID card information of the users ’, we convert it into gender, certification released department, and date of birth and then remove the repeated events and users. Secondly fill the missing values: search for keywords such as QQ, mobile phone, authors in HTML files with software Replace pioneer. Divide the titles in form of txt into words of different characteristics. Then we analyze the relativity: take out the valid data and then transform it into “users-events-users ’form. Use Clementine SPSS to analyze the validity and diagram visualizability. One of the results indicates a strong relevance among Yu Xiaoming, Di

文档评论(0)

1亿VIP精品文档

相关文档