中文微博命名体识别.pdfVIP

  • 8
  • 0
  • 约1.48万字
  • 约 6页
  • 2015-10-14 发布于湖北
  • 举报
中文微博命名体识别.pdf

2015年 5月 四川大学学报(自然科学版) M ay. 2015 第 52卷 第3期 JournalofSichuanUniversity(NaturalScienceEdition) Vo1.52 No.3 doi:103969/j.issn.0490—6756.2015.03.011 中文微博命名体识别 韩春燕 ,刘玉娇 , 琚生根 ,李若晨 ,苏 种 (1.四川 民族学院计算机科学系,康定 626001;2.四川I大学计算机学院,成都 610065) 摘 要:近年来微博的快速发展为命名体识别提供 了新的载体,同时微博 的特点也为命名体 识别研 究带来了挑战.针对微博特点,本文提 出了基于拼音相似距 离以及文本相似距 离聚类 算法对微博文本进行规范化 ,消除了微博的语言表达不规范造成的干扰.同时,本文还提 出 了篇章级 、句子级以及词f1-级三级粒度的特征提取 ,使用条件 随机场模型进行训练数据 ,并 识别命名体,采用由微博文本相似聚类获得的实体关系类对命

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档