基于词义类簇的文本聚类-清华大学信息技术研究院语音和语言技术中心.pdfVIP

  • 25
  • 0
  • 约5.32万字
  • 约 7页
  • 2017-11-24 发布于天津
  • 举报

基于词义类簇的文本聚类-清华大学信息技术研究院语音和语言技术中心.pdf

基于词义类簇的文本聚类-清华大学信息技术研究院语音和语言技术中心

第 卷 第 期 中文信息学报 , 27 3 Vol.27 No.3   年 月 , 2013 5 Ma 2013 JOURNALOF CHINESEINFORMATIONPROCESSING y         文章编号: ( ) 10030077201303011307 - - - 基于词义类簇的文本聚类 1 1 2 1 , , , 唐国瑜 夏云庆 张民 郑方 ( 清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心, 1. 清华大学信息技术研究院语音和语言技术中心, , ; , ) 清华大学计算机科学与技术系 北京 资讯通信研究院 新加坡 1000842. 138632 : , 。 摘 要 文档表 示是 文本 聚 类的 重要组 成部分 该文 旨在 通 过 改进文 档表 示 改进文 本 聚 类 同义词和多义词现 象   。 ( , ), 是 文档表 示所 面 临的重要 挑战 为此该文提 出了词义类 簇模型 SenseClusterModel SCM 在词义类 簇空 间上表     。 , , 示 文档 SCM 首先构造 词义类 簇 空 间 然 后 将 文 档 表 示 在 词 义 类 簇 空 间 上 获 得 每 篇 文 档 在 每 个 词 义 类 簇 的 概 。 , , 率 在词义类 簇空 间构造 这 一步骤 中 首先利 用词义 归 纳 技 术 从 文 本 中 自 动 发 现词 义 接 着 采 用词 义 聚 类技 术 识 。 , , 别相同 或 者相似 的词义从 而获得 词义类 簇 词义类 簇 空 间构 造 后 该 文 首 先 进 行 词 义 消歧 然 后利 用词 义 消歧 的 结 果将文 档表 示在词义 空 间上 。实验表 明 , 在标 准 测试 集上的性 能优 于基 线 系统以及经典话题模型 。 SCM

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档