- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BBS中文新词语自动挖掘.pdf
第二十届全国计算机信息管理学术研讨会
BBS中文新词语自动挖掘
北京信息科技大学中文信息处理研究中心吕学强黄河李渝勤施水才
(北京信息科技大学中文信息处理研究中心,北京,100101)
【摘要】本文提出了一种自动挖掘中文新词语的方法。首先把从BBS上采集的网页进行解析和文
本分词。通过分析统计建立起词语碎片和词语组块的集合,从中自动挖掘候选新词语。而后再根据
构词规则对自动挖掘的结果进一步过滤,最终抽取出采集语料中存在的新词语。根据该方法开发的
系统,可以寻找不限长度、不限领域、不限类别的与上下文无关的任意新词语,较人工查找新词语
大大减轻了负担并提高了效率。
【关键词】中文新词语,自动挖掘,统计,规则
ofChineseNewWordinBBS
Auto--Mining
LU He,Li ShiShuicai
Xueqiang,HuangYuqin,
InformationResearchCenter, Information
(Chinese Processing Beijing
1 10
00
University,Beijing, 1)
[Abstract]Amethodis for Chinesenewwords inthis
presentedmining automaticallypaper.After
the texts from word andchunksetisbuilt and
BBS,a
segmentingwebpagegrabbed fragment byanalyzing
whichnewwordcandidatesareminedfrom rules.Atlastnewwordswhichexist
smtisfics, andfiltered
by
inthe areextracted.The inthis Callfmdrandomcontext-insensitivenew
webpages systemdevelopedway
wordsin andin field,of kind.Itreducedhumanlaborandalso the
length efficiency
any any any improved
alotin
practice.
newword, rule
statistics,
[Keywords]Chineseauto.mining,
1引言
1.1研究现状
随着经济、社会的飞速发展和对外交流的日渐频繁,特别是随着计算机和Internet的普及,新词
语产生的现象日益显著。新词语的产生引起语言学者的特别关注,白20世纪80年代以来,学者们
对汉语新词语进行了较多的研究,这种研究呈现出了多方位,多角度,多层次和立体化的趋势¨1。主
要包括:新词语的界定,新词语的产生与社会、文化的关系,新
您可能关注的文档
最近下载
- 县纪委监委关于开展纪检监察工作规范化法治化正规化建设年行动的工作汇报.docx VIP
- 辽宁农业职业技术学院2024年单招复习题库(中职毕业生)-畜禽智能化养殖、宠物养护与训导、宠物医疗技术、水族科学与技术 (判断题80道).docx
- 危重患者压疮的预防与护理完整版.pptx VIP
- 高一语文《哦-香雪》教学课件-课件.ppt VIP
- 4.5小数的近似数(拔高作业)2024-2025学年四年级下册数学 人教版.docx VIP
- 厂房智能化系统设计方案.docx VIP
- 20220308工程建设公司SAP PS整体解决方案.pptx VIP
- 4.5小数的近似数(中等作业)2024-2025学年四年级下册数学 人教版.docx VIP
- 浅谈现代初等教育改革的趋势和意义.doc
- 七年级历史下册期中测试卷(含答案).pdf VIP
文档评论(0)