BBS中文新词语自动挖掘研究.pdfVIP

  • 1
  • 0
  • 约1.16万字
  • 约 7页
  • 2017-12-19 发布于未知
  • 举报
第二十届全国计算机信息管理学术研讨会 BBS中文新词语自动挖掘 北京信息科技大学中文信息处理研究中心吕学强黄河李渝勤施水才 (北京信息科技大学中文信息处理研究中心,北京,100101) 【摘要】本文提出了一种自动挖掘中文新词语的方法。首先把从BBS上采集的网页进行解析和文 本分词。通过分析统计建立起词语碎片和词语组块的集合,从中自动挖掘候选新词语。而后再根据 构词规则对自动挖掘的结果进一步过滤,最终抽取出采集语料中存在的新词语。根据该方法开发的 系统,可以寻找不限长度、不限领域、不限类别的与上下文无关的任意新词语,较人工查找新词语 大大减轻了负担并提高了效率。 【关键词】中文新词语,自动挖掘,统计,规则 ofChineseNewWordinBBS Auto--Mining LU He,Li ShiShuicai Xueqiang,HuangYuqin, InformationResearchCent

文档评论(0)

1亿VIP精品文档

相关文档