web文本情感分类中关键问题的研究信号与信息处理专业论文.docxVIP

下载本文档

1
0
约11.99万字
约 121页
2019-01-24 发布于上海
举报
版权申诉

web文本情感分类中关键问题的研究信号与信息处理专业论文.docx

1、本文档共121页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

web文本情感分类中关键问题的研究信号与信息处理专业论文

北京邮电人学博士学位论文北京邮电人学博士学位论文摘要 WEB文本情感分类中关键问题的研究摘要随着计算机技术和互联网的迅猛发展，网络在线的文档成为现代主要的信息载体，是人们生活中不可或缺的主要信息来源。而随着互联网进入web2．0时代，人们从被动的接受门户网站发布信息，转变为主动的获取、发布、共享、传播信息。同时，由于用户参与到信息的产生，网络信息的内容形式也变得多样化，越来越多的具有个人观点性的内容充斥着网络。这些观点性内容对于网络电子商务、网络社区发掘、网络信息安全、网络信息检索等多方面都具有重要的意义和实用价值。对网络文本观点性内容的自动情感分析成为近期web信息处理的一个研究热点，而其中的核心技术就是文本情感分类。在这样一个背景下，本文对面向web文本的中文分词、文本情感分类以及Weblog观点检索问题进行了下述创新性研究工作：首先，研究了面向web文本的中文分词问题。根据web文本环境的特点，研究重点在于中文分词中的未登录词识别问题，同时兼顾切分歧义消解、整体切分准确率和高效处理海量文本的能力。在未登录词识别方面，提出了POC．NLW字符标记模板，从字符级别的粒度来表征中文词汇的构成机制，并结合隐马尔可夫模型，实现了基于字符序列标注的中文分词方法。此外，分别使用了基于规则匹配的预处理、基于词典匹配的初级全切分、基于词语级别的N．Gram统计切分模型，并通过级联方式将上述各模块有效组合，构成了多模型混合的层叠系统。实验结果表明，本文提出的基于POC．NLW模板标注的切分方法具有较强的未登录词识别能力；而多模型混合的层叠系统在整体切分精度和未登录词识别方面都达到了较高的实用水平。另外，本文提出的系统还具有高效的建模和切分处理速度，具有面向海量web文本切分的实用性能。第二，研究了web文本情感分类问题，主要包括文本的主客观分类和正负面极性分类两个子问题。在语言特征表示方面，对比研究了基于北京邮电人学博上学位论文北京邮电人学博上学位论文摘要多种N．Gram语言特征模板的文本特征表示方式；在文本特征加权方面，对比r布尔、绝对词频、归一化词频以及基于TFIDF的特征加权方式；在特征选择方面，提出了全局TFIDF显著指数，引入“全局过滤．局部加权”的特征抽取方式；在情感分类模型方面，以朴素贝叶斯模型做对比，详细研究了最大熵模型的最大似然估计问题，采用高斯先验和指数型先验，对传统的最大熵模型进行改进。通过在真实网络电影评论数据集上的详细对比试验，以及对语料样本的分析，证实了采用高阶语言特征模板、基于TFIDF的特征选择和过滤方法、加入指数型先验的最大熵模型较好的适用于文本情感分类问题。第三，研究了Weblog观点检索问题，以TREC Blog Track评测为主线，主要研究了面向blog文档的主题检索和文本情感分类技术在观点检索中的应用。首先，针对Weblog文档的特点以及观点检索的特殊性，在 Weblog文档的HTML解析、噪声标签过滤、文本内容提取、词形还原等预处理方面作了技术改进；之后，以Indri检索系统为研究平台，利用结构化查询语言和web搜索引擎进行查询扩展和结构化查询主题构造，并采用基于文档标题字段的域查询，有效的提高了基本的ad．hoc主题检索的性能；在Weblog观点检索方面，使用基于最大熵的主观性内容判别模型，并提出了分类器自学习的策略，实现不同数据集之间的知识传递，在Weblog数据集上有效建模；同时，分别构建了句子级别和文档级别的最大熵模型，并将两者组合构成层叠式的Weblog文档观点性内容判别模型。在Blog Track数据集上的评测指标表明，本文构造的Weblog观点检索系统达到了较高的性能水平。关键词：中文分词POC．NLW模板情感分类最大熵观点检索 lI 北京邮电人学博：I：学位论文北京邮电人学博：I：学位论文 ABSTRACT RESEARCH ON KEY PROBLEMS IN WEB TEXT SENTIMENT CLASSIFICATION ABSTRA(玎 As the rapid