非规范化文本处理.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非规范化文本处理.pptx

非规范化文本处理张奇复旦大学非规范文本处理非规范文本现象频繁出现向大妈学广场舞,跟土豪做朋友,已经成为全世界小伙伴的新潮流。李教授非常professional,我们很fan他。中国石油天然气有限公司?中石油。累觉不爱我们的工作利用动态特征对中英文混合文本进行联合分词和词性标注 (EMNLP 2012)利用一阶谓词模型识别命名实体简称 (IJCNLP 2013)中英语混合文本规范化 (WSDM 2014)中英文混合文本词性标注英文单词或者字母经常出现在中文文本中作为产品名、机构名、术语、缩略语、简称等,如“eBay”、“iPhone”、“GDP”、“Android”出现在日常的对话沟通中,包括电子邮件和即时通讯软件新浪微博抽样统计说明,14.8%微博含有至少一个英文单词例子提着行李在time square (NN) 的星巴克蹭网。于是整个场面被我hold (VV)住了。你微博忘记At (VV)他了。中英文混合文本词性标注难点如何确定词性标记集?英文还是中文?OOV如何处理?英文单词词性可以转换:我们出去Happy一下。基于动态特征的序列标注方法静态特征词性标注 ? 序列标注问题{B, I, E, S}{B-NN, I-NN, E-NN, S-NN, ...}. 动态特征使用词级别的特征,以帮助提高中文词性标注的准确率结合字符级别的特征和在解码阶段动态产生的动态的词级别特征,如词的内容、长度、词性等动态特征可在纯中文语料上训练!如果当前字是 “ Apple”, 则:POS?1=CCPOS?2=NRWORD?1=“和”LEN?2=2实验模型:序列标注模型标注算法:Viterbi训练算法:在线PA标记集:{B, I, E, S}识别命名实体简称命名实体简称示例北京大学 北大中国石油天然气集团公司 中石油中国国际航空公司 国航简称在文本中的比例新闻文本:20%的句子含有简称UGC:更多现有方法基于数据的方法:需要大量(平行)语料基于序列标注的方法:难以对长距离依赖关系建模利用一阶谓词模型识别实体简称Two constants: Anna (A) and Bob (B)Weight of formula iNo. of true groundings of formula i in xFriends(A,B)Friends(A,A)Smokes(A)Smokes(B)Friends(B,B)Cancer(A)Cancer(B)Friends(B,A)将简称的生成建模为字的删除和保留操作将语言特征和操作间关系用逻辑公式表示用MLN进行参数学习和预测构建一阶谓词公式局部特征词汇特征:字或词的上下文,如character(i,c+) ^ entityType(t+) ? drop(i)character(i,c+) ^ word(j,w+) ^ cwMap(i,j) ^ lastWord(j) ? drop(i)距离和位置特征,说明实体的哪个部分可以省略character(i,c) ^ lenWord(wn+) ^ cwPosition(i,wp+) ? drop(i)后缀特征,说明简称中可以没有后缀character(i,c+) ^ cwMap(i,j) ^ word(j-1,w+) ^ (sufSchool(j) or sufOrg(j) or sufGov(j)) ? drop(i)全局特征:表示可以同时删去若干个字character(i, c1) ^ cwMap(i, j) ^ drop(i) ^ character(i + 1, c2) ^ cwMap(i + 1, j) ? drop(i + 1)实验训练和测试数据利用正则表达式从百度百科抓取利用搜索引擎抓取输入 “复旦大学 简称”含有5万多简称/实体对工具中文分词:FudanNLPMLN:thebeast中英文混合文本规范化微博中英语单词分类统计采用分而治之策略加以处理In-vocabulary English words:翻译成中文Out-of-vocabulary English words :分类,如人名,机构名……词语翻译翻译模型:从训练数据中计算:GIZA++语言模型:神经语言模型未登录词分类假设1: 属于相同类别的词语有相近的上下文假设2: 词语及其属性描述倾向于共现采用Label propagation算法进行迭代实验结果测试数据1000条微博1200个英文词语词语翻译未登录词分类CIKM 2014Abstract Submission June 4, 2014 Paper Submission June 11, 2014 Acceptance Notification August 8, 2014会议地点:上海富豪环球东亚大酒店,中国上海市衡山路516号CIKM

文档评论(0)

189****0315 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档