关于数据挖掘的BBS用户评价系统研究.pdfVIP

  • 17
  • 0
  • 约4.87万字
  • 约 53页
  • 2015-10-02 发布于安徽
  • 举报

关于数据挖掘的BBS用户评价系统研究.pdf

摘 要 随着网络的日益发展和普及,信息量爆炸性地增长,每一秒都会产生大量的 新的数据并传播于网络。BBS应运而生并逐步发展渐成为人们发表言论、表达思 想的重要平台。如何通过对BBS中海量的文本内容进行挖掘,来对BBS用户进行 评价从而有效地指导BBS的管理活动、促进BBS发展,己日渐成为一个重要的命 题。本文中选取了近年来兴起诗词论坛作为研究对象,引入自然语言处理的方法, 通过对历史数据挖掘建立用户的评价模型。本文的主要工作有: (一)在网页的信息采集和信息抽取之后提出了三重词语匹配方法通过计算 文本相关度来去除噪声。 (二)诗词专业领域极性词典的构建。本文引进了How№t,对其词条进行了汰 选,得到极性词典一,作为情感极性分析依据。在对100多部诗话进行分词的基 础上,采用人工选取和相似度计算扩展得到了极性词典二,作为专业评价的极性 依据。 (三)话题热度与文本极性分析。在文本极性分析方面,对白话、文言文本进 行分开处理。基于现代语义,在句法分析的基础上综合考量了副词对极性表达的 影响来对文本进行极性分析。首次提出了一种基于文言语义的文本极性分析的方 法。 (四)在话题热度分析和情感分析的基础上,本文最终选取了主题平均热度, 主题平均支持率,参与讨论的话题数,主题总量,回复总量作为影响因子,采用 了决策树方法建立了BBS用户评价分类模型并提取了规则。 关键词:朗S自然语言处理话题热度极性分析Web数据挖掘 ABSTRACT WithⅡle arld is n翩rk,iⅢ.omation growingdeVelopmentpopulad哆of也e aIlddisseminatedonthene帆ork.BBS beingproducedexplosiVely gra小lally becomesa for and ideas.Howto1lse platfom tllemaLssive com删catingexpressing iI哟硼ationontllene咖rktorateand ofBBS11aSbecomeaIl classi母users inlpo删 Wbjchwould meBBSandmakeitbe仕er.In proposition help池iIlistratorsmaIlage tbjs forumsareselectedtoberesearch p印er,ttle rising recentlypoem object.The maincontIentof isaS paperfollo、硼: BaSedon、Ⅳeb i珂’omationcollectionand amethodto page extraCtion,propose remoVenoisetext relation oftext a bycalculatingdegree usingtriple、Ⅳordmatching algoritIlms. firsttllat usedto emotion is

文档评论(0)

1亿VIP精品文档

相关文档