- 17
- 0
- 约4.87万字
- 约 53页
- 2015-10-02 发布于安徽
- 举报
摘 要
随着网络的日益发展和普及,信息量爆炸性地增长,每一秒都会产生大量的
新的数据并传播于网络。BBS应运而生并逐步发展渐成为人们发表言论、表达思
想的重要平台。如何通过对BBS中海量的文本内容进行挖掘,来对BBS用户进行
评价从而有效地指导BBS的管理活动、促进BBS发展,己日渐成为一个重要的命
题。本文中选取了近年来兴起诗词论坛作为研究对象,引入自然语言处理的方法,
通过对历史数据挖掘建立用户的评价模型。本文的主要工作有:
(一)在网页的信息采集和信息抽取之后提出了三重词语匹配方法通过计算
文本相关度来去除噪声。
(二)诗词专业领域极性词典的构建。本文引进了How№t,对其词条进行了汰
选,得到极性词典一,作为情感极性分析依据。在对100多部诗话进行分词的基
础上,采用人工选取和相似度计算扩展得到了极性词典二,作为专业评价的极性
依据。
(三)话题热度与文本极性分析。在文本极性分析方面,对白话、文言文本进
行分开处理。基于现代语义,在句法分析的基础上综合考量了副词对极性表达的
影响来对文本进行极性分析。首次提出了一种基于文言语义的文本极性分析的方
法。
(四)在话题热度分析和情感分析的基础上,本文最终选取了主题平均热度,
主题平均支持率,参与讨论的话题数,主题总量,回复总量作为影响因子,采用
了决策树方法建立了BBS用户评价分类模型并提取了规则。
关键词:朗S自然语言处理话题热度极性分析Web数据挖掘
ABSTRACT
WithⅡle arld is
n翩rk,iⅢ.omation
growingdeVelopmentpopulad哆of也e
aIlddisseminatedonthene帆ork.BBS
beingproducedexplosiVely gra小lally
becomesa for and ideas.Howto1lse
platfom tllemaLssive
com删catingexpressing
iI哟硼ationontllene咖rktorateand ofBBS11aSbecomeaIl
classi母users inlpo删
Wbjchwould meBBSandmakeitbe仕er.In
proposition help池iIlistratorsmaIlage
tbjs forumsareselectedtoberesearch
p印er,ttle rising
recentlypoem object.The
maincontIentof isaS
paperfollo、硼:
BaSedon、Ⅳeb i珂’omationcollectionand amethodto
page extraCtion,propose
remoVenoisetext relation oftext a
bycalculatingdegree usingtriple、Ⅳordmatching
algoritIlms.
firsttllat
usedto emotion is
您可能关注的文档
最近下载
- 2025年山东医学高等专科学校单招(数学)历年真题考点含答案解析.docx
- 《QSH0038-2007-钻井液用羧甲基纤维素钠盐技术要求》.pdf VIP
- 《桂海虞衡志》中少数民族风俗研究.doc VIP
- QSH 0048-2007 钻井液用聚丙烯酰胺钾盐技术要求.pdf VIP
- 医疗护理员培训大纲(试行).docx VIP
- 一汽大众ERP-SAP_原创文档.pdf VIP
- Haier海尔洗衣机10公斤超薄嵌入洗烘一体机 EG100HPRO51说明书用户手册.pdf
- 一汽大众ERP-SAP一汽大众ERP-SAP.docx VIP
- 新中国60年统计汇编.pdf VIP
- 自贸区对地区经济的影响研究以我国中西部自贸区为例.docx VIP
原创力文档

文档评论(0)