- 7
- 0
- 约5.59万字
- 约 52页
- 2019-05-11 发布于上海
- 举报
I
I
面向情感分类的领域适应方法研究
摘 要
随着博 客,商 品评 论 等信息 在网络 上的 涌 现,情 感分类 日益 成 为一个 重要 且富有 挑战性 的课 题 。情感 分类试 图根 据 文本信 息,自 动评 判 用户所 表达的情 感极性(如 正面或 负 面),在电 子商务 和舆 情分析等 领域展 现出 越来越重 要的作 用。
然而, 在情感 分类 领 域中, 用户表 达情 感 方式多 种多样 ,领 域 间数据 分布 也存在 明显差 异, 情 感分类 的准确 率极 易 受到数 据所在 领域 的 限制和 影响。对 于新领 域的情 感分 类 问题, 传统的 机器 学 习方法 只能通 过重 新 标记训 练数据完 成学习 建模, 这通 常 需要消 耗大量 的人 力 物力。 为此, 我们 分 别从构 建领域间 统一的特 征空间 和集 成分类两 个方面 ,展 开面向 情 感分类 的领 域适应方 法研究 , 提出了基 于对数 似然 比的特征 选择算法 LTF 和基于 置信概 率的 协同学习 集成决 策算法 CEC。 主要工 作如下:
(1) 本 文 提 出 的 面 向 多 领 域 的 情 感 分 类 特 征 选 择 方 法 LTF(log-likelihood ratio term frequency),综 合利用 了原始 领域和目 标领域 数据 ,使用词 频和对
数似然 比的统 计信 息 ,选取 在原始 领域 富 有极性 ,且在 目标 领 域有较 大影响的 特征, 构建原 始领 域 和目标 领域公 共特 征 空间, 消减了 原始 领 域和目 标领域的
数据分布 差异, 促进 了知识的 跨领域 迁移 。
(2) 在 集 成 分 类 器 方 面 , 本 文 提 出 了 一 种 基 于 置 信 概 率 的 多 领 域 集 成 算 法 CEC(Confident Ensemble Classifier)。该方 面借鉴自 学习和 协同 学习的思 想,利 用置信 概率, 进行 数 据的预 标记的 同时 , 完成各 个基分 类器 的 集成, 从而有效 提升目标 领域的 分类 精度。通过在 情感数 据集上的 大量实 验表 明 CEC 算法 确实 提高了目 标领域 的分 类准确率 。
关键词: 数据挖掘; 机器学习 ; 情感 分类 ;领域适 应
II
II
Domain Adaptation of Sentiment Classification ABSTRACT
As the blogs, product reviews spring up, sentiment classification has become a challenging problem. Sentiment classification, which aims to identify ones ’ sentimental polarities, is playing an increasing important role i n E-commerce and public opinion analysis.
However, the way of expressing sentiment varies a lot and the data distributions differ in multiple domains. So sentiment classification tends to be influenced by different domains. To solve a sentiment classification problem of a new domain, traditional machine learning methods need to label new training data, which costs a lot of manpower and material resource. Thus, we propose two methods, LLR based feature selection method and confidence probability based ensemble method, to implement sentiment domain adaptation from aspects of feature space and ensemble strategy.
A novel feature selection method, named LTF, is proposed. This method creates a common feature space for both source do
您可能关注的文档
- 脉冲振荡肺功能(IOS)与常规肺功能(PFT)在哮喘患儿诊治中的相关性研究-儿科学专业毕业论文.docx
- 煤质检验管理信息系统的研究与开发-矿业工程专业毕业论文.docx
- 黄葵胶囊对大鼠肾小管间质纤维化及PTEN的影响-免疫学专业毕业论文.docx
- 面向人机交互的强化学习与意图推理-控制科学与工程专业毕业论文.docx
- 面向报废汽车回收再利用的评价研究-载运工具运用工程专业毕业论文.docx
- 煤的氧化升温和热释放速率研究-防灾减灾工程及防护工程专业毕业论文.docx
- 面向脑神经结构重建的图像处理方法研究-机械制造及其自动化专业毕业论文.docx
- 考虑Hansbo渗流的二维Biot固结分析-道路与铁道工程专业毕业论文.docx
- 螺杆结构对马来酸酐接枝聚丙烯及其复合材料性能影响-材料工程专业毕业论文.docx
- 慢性阻塞性肺疾病大鼠模型细胞因子水平变化的分析-内科学(呼吸系病)专业毕业论文.docx
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
原创力文档

文档评论(0)