中文聊天语言的奇异性与动态性研讨.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文聊天语言的奇异性与动态性研究 黄锦辉1,夏云庆2 香港中文大学系统工程系:2清华大学信息科学与技术国家实验室 破l亿,达到1.002亿人,网民数仅次于美国居世界第二位。今天.每13个中国人就有一 个与它“亲密接触”,互联网正在成为各界人士获取信息的主要通道。社科院2005年互联 网报告[1]指出.我国网民平均每天上网的时间是2.73小时,单纯浏览网络论坛而不发言 网民只占38.6%。这个比例说明,网民的上网行为不仅仅是寻找信息,还包含了人际交流 活,网络聊天逐渐成为一种重要的沟通渠道。 网络聊天渠道的发展进一步方便利了交流,也给信息技术领域带来机遇。在商业应用 中,越来越多的客户服务/呼叫中心/网上教学[3,4]日渐被互联网聊天解决方案取代,聊 天室,BBS张贴.电子邮件和手机短信等方案逐渐被商家采用,甚至在某些应用中取代了 电话这个传统交流工具。聊天语言应运而生,并己发展成为一种重要的群体语言。这类语 言的出现带来了诸多挑战。例如,由于网络聊天渠道大多可以免费使用,信息杂乱无章, 因此被色情信息、犯罪信息和恐怖主义传播者所利用,成为他们要乱社会安定、制造反社 会活动的策划与讨论场所[5,6]。他们大量采用奇异的聊天语言(黑话),混淆安全监控 人员的眼睛。这就造成了安全监控任务的难题。再如,商业上提供基于聊天的客户服务已 经屡见不鲜,这些聊天纪录同传统的电话记录具有同样的价值,聊天语言的使用,阻碍了 分析研究人员获取重要信息。于是他们带着这些问题求助于自然语言处理工具,希望通过 语言分析处理以“解码”这些奇异词汇[7,8,9,lO]。我们先看下面三个聊天语言的例 子: (1)有木有[c1]银[c2]请我7饭[c3](有没有[n1]人[n2]请我吃饭[n3]) (2)偶[c1]稀饭[c2]这样的GG[c3](我[n1]喜欢[n2]这样的哥哥[n3]) (3)隔3差5[c1]来看你(隔三差五[hi]来看你) (4)细八细[c1]又要FB[e2]去(是不是[n1]又要腐败[n2]去啊) 这些例子中,括号里面给出的是每个聊天语言例子对应的标准语言。我们用[ci]代表 聊天语言词汇,[hi]代表对应的标准语言词汇。例如,“有木有”对应着标准语言的“有 没有”,“银”对应着标准语言的“人”。类似的聊天语言词汇很多,在网络聊天室、聊 一80— 天纪录和论坛(BBS)上随处可见。我们知道,传统语言处理工具的对象是标准语言,假定分 析对象(文本)符合常规语法。这样,面对聊天语言。它们就显得无能为力了。我们用 ICTCLAS[11]处理例(1)的网络聊天文本。分词结果如下: 有/v木/n有/v银/n请/v我/r7/m饭/n 强,而是因为IcTcLAs不包含聊天语言的任何信息(词条、规则和统计数据)。我们再看 ICTCLAS对例(2)进行词性标注的结果: 偶/b稀饭/n这样/r的/uGG/n “偶”在这里用作“我”,应该为r(代词),“稀饭”代表“喜欢”,应为v(动词). 因之相对于标准词汇的“奇异”效果,我们定义聊天语言的该特性为“奇异性”。聊天语 言的“奇异性”给文本分析和处理带来了困难。对于处理“有木有”这样的奇异词汇,有 人建议将它添加到词典里就可以了.在处理“银”时,再将“人”这个义项添加到标准词 典里去。我们反对这样做,因为标准汉语基本不会使用“有木有”这个词汇,也不会用到 “银”的“人”这个义项,只有在网络聊天环境中才会这样用到。 有人建议将这些奇异的词汇放进一个“聊天语言词典”中,通过查询就能够找出对应 的标准词汇。这种建议并不能有效解决问题,原因有二:一。聊天语言在使用标准词汇时 导致歧义。例如在聊天语言文本中,“银”可以用作聊天语言,代表“人”,也可以用作 标准词汇,表示“银”这种物质。可见,仅仅通过这次词典,很难区别开来聊天语言还是 标准汉语词汇,更不用说去区分聊天语言的多种不同用法。二,通过仔细观察研究.我们 发现聊天语言变化很快,无法用静态的词典去覆盖。常见的情况是,去年使用的一些聊天 语言,今年就被淘汰了,同时又出现了更多新的聊天语言。这就是我们所提出的聊天语言 的“动态性”。虽然不断更新“聊天语言词典”是一个解决方法,但聊天语言变化快,要 做到及时更新非常费时费力,而且这些花费永无止境。要解决“奇异性”和“动态性”问 题,只依赖一个聊天语料库,似乎走到了死

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档