基于数据挖掘技术的汉语新词语的发现.pdfVIP

  • 8
  • 0
  • 约8.71千字
  • 约 7页
  • 2015-07-30 发布于安徽
  • 举报

基于数据挖掘技术的汉语新词语的发现.pdf

基于数据挖掘技术的汉语新词语的发现+ 王命琴张益民陈玉泉徐良贤陆汝占 (上海交通大学计算机兼 上海200030) 摘要本文在现有的结构化数据挖掘技术基础之上,提出一种适台于非结构化数据的数据挖掘 技术, 由此给出了从大规模现代汉语语料库中发现新词语的一种方法。 关键词数据挖掘汉语新词语发现 1 问题提出 由于经济发展和社会变革,语言使用者在现有的词汇中无法找到足以准确表达自己 思想和客观实际的词语。词语的有限性束缚了思想的表达.因此人们刻意突破现有语言 词汇的束缚,创造了新词新语。新词新语词典的编纂出版不仅反映了时代脉搏,而且反 映了国家的经济、文化和科技的综合水平。目前,编纂汉语新词新语词典的工作完全是 由人工完成的,瓶颈在于如何选定新词新语。编者阅读数千万字的语料,凭借个人语言 知识、语感和悟性来选定新词新语,由于人力、时间、知识水平参差不齐等方面的原因, 汉语新词新语词典的编纂出现明显落后丁’形势的局面。某大型出版社曾投资一百万元, 建立语料库供编纂新词新语词典用。但目前也因缺乏完善的理论和有效的计算机处理方 法而感到困难。因此,用计算机辅助新词新语的发现是众所期盼

文档评论(0)

1亿VIP精品文档

相关文档