- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新词发现找出组成新的字符串
Li Baoli, ICL, Peking University New Words Detection in Chinese Text Outlines Definition Difficulties Approaches Summary Definition 新词发现:找出组成新词的字符串;确定其句法、语义类别; 新词:在某(个、类)语汇中出现的、存在于某个时间段的、未被收录于现有词典的词语; 参照物:某一词典、一些词典或所有现有词典 ; 语汇:1991年——2000年十年的《人民日报》、1998年全年的《人民日报》、一篇文档;专业文献集合(如信息科学技术),专业术语也是一种新词; 时间段:出现在某一时间段内或自某一时间点以来所首次出现 Categories of New Words Syntactical Function Noun:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、九一一、北航空难、5.7空难 Verb:打的、埋单/买单 Adjective:酷、小资、爽 。。。。。。 Semantic 时间、地名、人名(拉丹)、组织机构名(基地)、 商标、公司名、电话号码、电子邮件地址等等 Domain or Subject 信息技术(话题识别与跟踪、信息抽取) 政治(三个代表、十六大) 经济(牛市、熊市) 。。。。。。 Definition Given by Chen Keh-Jiann A word is considered as an unknown word, if neither it is in the CKIP lexicon nor it is identified as foreign word (for instance English) or a number. [3] One question? 外来词(如英文单词、不同編碼的漢語詞語)是否也是一种新词?如,“让我look一下”、“我们都应当讲禮貌” Difficulties (1/2) 汉语文本中,词与词之间没有空格符分隔; 某些词语数量巨大,无法枚举,难以全部收录在词典中; 没有简单的规则能够覆盖各种类型的新词; 新词首次出现后往往采用缩写形式; Difficulties (2/2) 目前的自然语言处理技术往往以单句作为一个处理单位,不保留篇章信息; “而更令现代人自信的是对质量的有效控制,” 表达形式多样(全称与简称(IBM与国际商用机器公司),译词选择不同); “贝克汉姆——碧咸、拉登——拉丹——本?拉登” 在短的文本中进行的联机识别尤其困难,因为简单的统计方法很难识别出低频的新词; An Sample Text 一个11岁学生写的“字母+数字+汉字”的大杂烩日记: “昨晚,我的JJ(姐姐)带着他的青蛙(丑陋的)BF(男朋友)到我家来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈PMP(拍马屁),说她年轻的时候一定是个漂亮MM(美眉)。那酱紫(样子)真是好BT(变态),7456(气死我了)……” Evaluation Results 1995年、1998年863项目汉语文本自动切词评测: 中国人名:召回率68%、准确率91%(F-1指数=78%) 中国地名:召回率60%、准确率69%(F-1指数=64%) 外国译名:召回率78%、准确率82%(F-1指数=80%) AVERAGE: 74% MUC中关于中文命名实体的评测: MUC6(1995年9月)系统的F-1指数85% MUC7(1998年4月)系统的F-1指数91% Approaches 静态识别技术 确定词表、(特定类型的)搭配抽取,标准(),方法(频率、期望方差、假设检验(t-test、chi-square test)、互信息等); 动态识别技术 构词规则(关键词、词语构成、语素构词能力)、上下文信息(指界词语——指出、主席等)、局部统计信息(串频); 识别不同种类的新词,需要利用不同的知识,采用不同的处理策略; 中国人名、网络新词、串频统计和词形匹配 Recognition of Chinese Person Name (Liu KaiYing [1]) Knowledge Base 人名用字静态知识 人名用字动态知识 指界词语 规则 Recognizing Process 姓氏触发 Detecting New Words on WWW [1] 实验方法 实验语料选自搜狐网站,约10万字。手工抽取新词。 新词分析 词长:2(网站、网友 )、3(新经济、伊妹儿 )、4(上网资费 ) 构造规则:名词与名词、动词、形容词的结合力仍然很强;介词、量词、指示代词、方位词、语气助词等都具备了新的构词能力;实词具有较强的构词能力;
您可能关注的文档
最近下载
- GP-150中文说明书.pdf VIP
- 中文说明书-船舶自动识别系统(AIS)FA-150版.docx VIP
- FAR21X7_28X7雷达中文操作说明书.pdf VIP
- 2025届广东深圳市物理高一第一学期期末教学质量检测试题含解析.doc VIP
- 广东高一物理第一学期期末试题.doc VIP
- 水资源及其利用——人类拥有的水资源及其分布.pdf VIP
- FURUNO古野OZS56490D_NX700使用说明书.pdf VIP
- 青岛啤酒股份有限公司成本控制存在问题及对策研究.doc
- 生物安全柜使用与维护保养记录表.doc VIP
- 输变电工程施工质量验收统一表式(变电工程电气专业).docx VIP
文档评论(0)