UnsupervisedOverlappingFeatureSelectionfor.docxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
UnsupervisedOverlappingFeatureSelectionfor

  Unsupervised Overlapping Feature Selection for Conditional Random Fields Learning in Chinese Word Segmentation for Rocling 2011 Ting-hao Yang, Tian-jian Jiang, Chan-hung Kuo , Richard Tzong-han Tsai, Wen-lian Hsu Institute of Information Science, Academia Sinica Department of Computer Science Engineering, Yuan Ze University Term Contributed Boundary Feature using Conditional Random Fields in 2010 A unified view of several unsupervised feature selection based on frequent strings 2 Introduction 3 Flow chart 4 Flow chart SRILM YASA 5 Toolkit C++ libraries The toolkit supports N-gram statistics for language model 6 SRILM Automatically extract frequent strings from unlabeled corpus 7 YASA Pattern: 自然科學 Frequency Net Frequency (自然科學 ,4) (自然科,4) (自然,10) (自然科學 ,4) (自然科,0) (自然,6) 8 Flow chart Character Label 反 B1 而 E 會 S 欲 B1 速 B2 則 B3 不 M 達 E 9 6-Tag [0 -9 ] + [B1|B2|B3|M|E|S] 10 Extended Label N-Gram score Frequent string score Accessor variety score 11 Score Convert from term frequency and N-Gram frequency Logarithm ranking mechanism 12 Score Pattern Frequency Logarithm ranking mechanism Score 塑膠原料的 10 log2(10) =3 塑膠原料 5 log2(5) = 2 原料的 3 log2(3)=1 的生產 2 Log2(2)=1 塑膠 4 log2(4)=2 13 Score Consider the score of outer pattern Equation of AV 14 Score 15 Score AV(開發與法制) AV(的開發與法制), AV(是開發與法制), AV(有開發與法制), AV(開發與法制的), AV(開發與法制是), AV(開發與法制為) Pattern Logarithm ranking mechanism Score 6-Tag Label Label with score 塑膠原料的 log2(10) =3 塑 B1 膠 B2 原 B3 料 M 的 E 塑 3B1 膠 3B2 原 3B3 料 3M 的 3E 16 Score Scores are also used for filtering overlapping pattern 17 Overlapping and Non-overlapping Character TCB Feature 塑 B1 膠 B2 原 B3 料 M 的 E 生 -1 產 -1 18 Non-overlapping “塑膠原料的” score 3 conflicts with ”的生產” score 1 ”的生產” is labeled as unseen Term Label 反 5S3B14B1 而 6S3E4B2 會 6S4E 欲 4S 速 4S 則 6S3B1 不 7S3E 達 5S3E 19 Overlapping information? 20 Overlapping String Input Unsupervised Feature Selection 1 char 2 char 3 char 4 char 5 char 反 5S 3B1 4B1 0B1 0B1 而 6S 3E 4B2 0B2 0B2 會 6S 0E

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档