- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文聊天语言的奇异性与动态性研究
黄锦辉1,夏云庆2
香港中文大学系统工程系:2清华大学信息科学与技术国家实验室
破l亿,达到1.002亿人,网民数仅次于美国居世界第二位。今天.每13个中国人就有一
个与它“亲密接触”,互联网正在成为各界人士获取信息的主要通道。社科院2005年互联
网报告[1]指出.我国网民平均每天上网的时间是2.73小时,单纯浏览网络论坛而不发言
网民只占38.6%。这个比例说明,网民的上网行为不仅仅是寻找信息,还包含了人际交流
活,网络聊天逐渐成为一种重要的沟通渠道。
网络聊天渠道的发展进一步方便利了交流,也给信息技术领域带来机遇。在商业应用
中,越来越多的客户服务/呼叫中心/网上教学[3,4]日渐被互联网聊天解决方案取代,聊
天室,BBS张贴.电子邮件和手机短信等方案逐渐被商家采用,甚至在某些应用中取代了
电话这个传统交流工具。聊天语言应运而生,并己发展成为一种重要的群体语言。这类语
言的出现带来了诸多挑战。例如,由于网络聊天渠道大多可以免费使用,信息杂乱无章,
因此被色情信息、犯罪信息和恐怖主义传播者所利用,成为他们要乱社会安定、制造反社
会活动的策划与讨论场所[5,6]。他们大量采用奇异的聊天语言(黑话),混淆安全监控
人员的眼睛。这就造成了安全监控任务的难题。再如,商业上提供基于聊天的客户服务已
经屡见不鲜,这些聊天纪录同传统的电话记录具有同样的价值,聊天语言的使用,阻碍了
分析研究人员获取重要信息。于是他们带着这些问题求助于自然语言处理工具,希望通过
语言分析处理以“解码”这些奇异词汇[7,8,9,lO]。我们先看下面三个聊天语言的例
子:
(1)有木有[c1]银[c2]请我7饭[c3](有没有[n1]人[n2]请我吃饭[n3])
(2)偶[c1]稀饭[c2]这样的GG[c3](我[n1]喜欢[n2]这样的哥哥[n3])
(3)隔3差5[c1]来看你(隔三差五[hi]来看你)
(4)细八细[c1]又要FB[e2]去(是不是[n1]又要腐败[n2]去啊)
这些例子中,括号里面给出的是每个聊天语言例子对应的标准语言。我们用[ci]代表
聊天语言词汇,[hi]代表对应的标准语言词汇。例如,“有木有”对应着标准语言的“有
没有”,“银”对应着标准语言的“人”。类似的聊天语言词汇很多,在网络聊天室、聊
一80—
天纪录和论坛(BBS)上随处可见。我们知道,传统语言处理工具的对象是标准语言,假定分
析对象(文本)符合常规语法。这样,面对聊天语言。它们就显得无能为力了。我们用
ICTCLAS[11]处理例(1)的网络聊天文本。分词结果如下:
有/v木/n有/v银/n请/v我/r7/m饭/n
强,而是因为IcTcLAs不包含聊天语言的任何信息(词条、规则和统计数据)。我们再看
ICTCLAS对例(2)进行词性标注的结果:
偶/b稀饭/n这样/r的/uGG/n
“偶”在这里用作“我”,应该为r(代词),“稀饭”代表“喜欢”,应为v(动词).
因之相对于标准词汇的“奇异”效果,我们定义聊天语言的该特性为“奇异性”。聊天语
言的“奇异性”给文本分析和处理带来了困难。对于处理“有木有”这样的奇异词汇,有
人建议将它添加到词典里就可以了.在处理“银”时,再将“人”这个义项添加到标准词
典里去。我们反对这样做,因为标准汉语基本不会使用“有木有”这个词汇,也不会用到
“银”的“人”这个义项,只有在网络聊天环境中才会这样用到。
有人建议将这些奇异的词汇放进一个“聊天语言词典”中,通过查询就能够找出对应
的标准词汇。这种建议并不能有效解决问题,原因有二:一。聊天语言在使用标准词汇时
导致歧义。例如在聊天语言文本中,“银”可以用作聊天语言,代表“人”,也可以用作
标准词汇,表示“银”这种物质。可见,仅仅通过这次词典,很难区别开来聊天语言还是
标准汉语词汇,更不用说去区分聊天语言的多种不同用法。二,通过仔细观察研究.我们
发现聊天语言变化很快,无法用静态的词典去覆盖。常见的情况是,去年使用的一些聊天
语言,今年就被淘汰了,同时又出现了更多新的聊天语言。这就是我们所提出的聊天语言
的“动态性”。虽然不断更新“聊天语言词典”是一个解决方法,但聊天语言变化快,要
做到及时更新非常费时费力,而且这些花费永无止境。要解决“奇异性”和“动态性”问
题,只依赖一个聊天语料库,似乎走到了死
您可能关注的文档
最近下载
- 胰岛素抵抗和代谢综合征课件.pptx VIP
- 胰岛素抵抗和代谢综合征.ppt VIP
- GB/T 17747.1-2011_天然气压缩因子的计算 第1部分:导论和指南.pdf
- 《基础护理学》第7章 休息与活动(含答案).docx
- 城市中心区综合性公园使用现状调查研究————以成都市人民公园为例.docx
- 产品档案管理制度及流程.pdf
- 中华民族一家亲,同心共筑中国梦.pptx VIP
- “社工+志愿者”联动模式的思考及对策研究--以惠州市河背社区志愿者项目为例.docx
- 国家开放大学,地域文化,人文武隆形考一 (3).pptx VIP
- (黑龙江省)新课标高中信息技术会考试题 学科整合 试题及答案..doc VIP
文档评论(0)