面向情感分类的领域适应方法研究-计算机应用技术专业毕业论文.docxVIP

  • 7
  • 0
  • 约5.59万字
  • 约 52页
  • 2019-05-11 发布于上海
  • 举报

面向情感分类的领域适应方法研究-计算机应用技术专业毕业论文.docx

I I 面向情感分类的领域适应方法研究 摘 要 随着博 客,商 品评 论 等信息 在网络 上的 涌 现,情 感分类 日益 成 为一个 重要 且富有 挑战性 的课 题 。情感 分类试 图根 据 文本信 息,自 动评 判 用户所 表达的情 感极性(如 正面或 负 面),在电 子商务 和舆 情分析等 领域展 现出 越来越重 要的作 用。 然而, 在情感 分类 领 域中, 用户表 达情 感 方式多 种多样 ,领 域 间数据 分布 也存在 明显差 异, 情 感分类 的准确 率极 易 受到数 据所在 领域 的 限制和 影响。对 于新领 域的情 感分 类 问题, 传统的 机器 学 习方法 只能通 过重 新 标记训 练数据完 成学习 建模, 这通 常 需要消 耗大量 的人 力 物力。 为此, 我们 分 别从构 建领域间 统一的特 征空间 和集 成分类两 个方面 ,展 开面向 情 感分类 的领 域适应方 法研究 , 提出了基 于对数 似然 比的特征 选择算法 LTF 和基于 置信概 率的 协同学习 集成决 策算法 CEC。 主要工 作如下: (1) 本 文 提 出 的 面 向 多 领 域 的 情 感 分 类 特 征 选 择 方 法 LTF(log-likelihood ratio term frequency),综 合利用 了原始 领域和目 标领域 数据 ,使用词 频和对 数似然 比的统 计信 息 ,选取 在原始 领域 富 有极性 ,且在 目标 领 域有较 大影响的 特征, 构建原 始领 域 和目标 领域公 共特 征 空间, 消减了 原始 领 域和目 标领域的 数据分布 差异, 促进 了知识的 跨领域 迁移 。 (2) 在 集 成 分 类 器 方 面 , 本 文 提 出 了 一 种 基 于 置 信 概 率 的 多 领 域 集 成 算 法 CEC(Confident Ensemble Classifier)。该方 面借鉴自 学习和 协同 学习的思 想,利 用置信 概率, 进行 数 据的预 标记的 同时 , 完成各 个基分 类器 的 集成, 从而有效 提升目标 领域的 分类 精度。通过在 情感数 据集上的 大量实 验表 明 CEC 算法 确实 提高了目 标领域 的分 类准确率 。 关键词: 数据挖掘; 机器学习 ; 情感 分类 ;领域适 应 II II Domain Adaptation of Sentiment Classification ABSTRACT As the blogs, product reviews spring up, sentiment classification has become a challenging problem. Sentiment classification, which aims to identify ones ’ sentimental polarities, is playing an increasing important role i n E-commerce and public opinion analysis. However, the way of expressing sentiment varies a lot and the data distributions differ in multiple domains. So sentiment classification tends to be influenced by different domains. To solve a sentiment classification problem of a new domain, traditional machine learning methods need to label new training data, which costs a lot of manpower and material resource. Thus, we propose two methods, LLR based feature selection method and confidence probability based ensemble method, to implement sentiment domain adaptation from aspects of feature space and ensemble strategy. A novel feature selection method, named LTF, is proposed. This method creates a common feature space for both source do

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档