网站大量收购独家精品文档,联系QQ:2885784924

BBS中文新词语自动挖掘.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BBS中文新词语自动挖掘.pdf

第二十届全国计算机信息管理学术研讨会 BBS中文新词语自动挖掘 北京信息科技大学中文信息处理研究中心吕学强黄河李渝勤施水才 (北京信息科技大学中文信息处理研究中心,北京,100101) 【摘要】本文提出了一种自动挖掘中文新词语的方法。首先把从BBS上采集的网页进行解析和文 本分词。通过分析统计建立起词语碎片和词语组块的集合,从中自动挖掘候选新词语。而后再根据 构词规则对自动挖掘的结果进一步过滤,最终抽取出采集语料中存在的新词语。根据该方法开发的 系统,可以寻找不限长度、不限领域、不限类别的与上下文无关的任意新词语,较人工查找新词语 大大减轻了负担并提高了效率。 【关键词】中文新词语,自动挖掘,统计,规则 ofChineseNewWordinBBS Auto--Mining LU He,Li ShiShuicai Xueqiang,HuangYuqin, InformationResearchCenter, Information (Chinese Processing Beijing 1 10 00 University,Beijing, 1) [Abstract]Amethodis for Chinesenewwords inthis presentedmining automaticallypaper.After the texts from word andchunksetisbuilt and BBS,a segmentingwebpagegrabbed fragment byanalyzing whichnewwordcandidatesareminedfrom rules.Atlastnewwordswhichexist smtisfics, andfiltered by inthe areextracted.The inthis Callfmdrandomcontext-insensitivenew webpages systemdevelopedway wordsin andin field,of kind.Itreducedhumanlaborandalso the length efficiency any any any improved alotin practice. newword, rule statistics, [Keywords]Chineseauto.mining, 1引言 1.1研究现状 随着经济、社会的飞速发展和对外交流的日渐频繁,特别是随着计算机和Internet的普及,新词 语产生的现象日益显著。新词语的产生引起语言学者的特别关注,白20世纪80年代以来,学者们 对汉语新词语进行了较多的研究,这种研究呈现出了多方位,多角度,多层次和立体化的趋势¨1。主 要包括:新词语的界定,新词语的产生与社会、文化的关系,新

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档