- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
浅层语言分析四大科学问题表示:语言的局部表示问题采用什么样的模型来表征某个单位(句子、篇章)的语言:n-gram,HMM,EM,CRF,VSM如何标注语言的各个元素:分词、词类标注、命名实体与未登录词识别。语言篇章的抽取与分析:元信息抽取:时间、地点、人物、主题、关键词(TAG);分析:态度分析、聚类关联:语言内在的关联问题语言元素之间潜在关联分析:同义、近义、某种潜在关联(拼音与词语;输入错误、共同的某个媒介等)、查询扩展;语言内容与其他元信息之间的关联:用户兴趣、发送时间、作者、链接、网页关联、搜索点击关联等;浅层语言分析四大科学问题变化:语言的宏观变化问题如何最快地反应语言的变化:有意义串(新词、新话题与新现象);语言在时间、空间、事件等多维度的动态变化规律如何表征语言话题的发展趋势分析与预测:计算:大规模计算问题如何解决不规范噪音问题:大规模萃取Tradeoffbetweendeepunderstandingandhighperformance语言计算往往精而不准、准而不精,如何满足大规模Web计算的要求?频率高的词未必是热门话题,回复最多的、转发最多的信息才是热门,辅助语言计算往往事半功倍。潜在的应用方向面向Web的浅层语言计算;IR:索引词分析、相关搜索;文本挖掘:特征分析、关键词抽取;态度分析:词语的感情色彩和上下文环境分析;舆论热点与流行分析:热点词语抽取、有意义串和新词趋势分析:发展趋势分析面向搜索和浏览日志的用户行为分析;用户兴趣建模:词语语义聚类与关联分析;定向精准营销:营销需求与用户兴趣关联。纲要常用汉语分词方法综述浅层语言分析的需求背景ICTCLAS2010:中文浅层语言分析集大成者互联网搜索对语言分析的新需求与挑战总结与展望ICTCLAS:HHMMArchitectureCorpusCharacterStringWordgraphClass-basedWSmodelRolemodelTrainingNSProughsegmentUnknownwordrecognitionOptimizedselectionLexicalresultAtomSegmentICTCLAS:WordSegmentationci=wiiffwiislistedinthesegmentationlexicon;PER,LOC,ORG,TIMEorNUMiffwiisanunknownnamedentity;STRiffwiisanunknownsymbolstring;BEGiffbeginningofasentenceENDiffendingofasentenceOTHERotherwise.WordclassdefinitionClass-basedsegmentationmodelICTCLAS:UnknownwordrecognitionInunknownwordrecognition,wemainlydealwithNamedEntities,suchaspersonnames,locationnames,organizationnames,andtransliterationsofforeignnamesWeusetwo-levelHMMforunknownwordrecognitionIn1stlevelHMM,werecognizepersonnames,simplelocationnames,transliterationsofforeignnamesandotherpropernamesIn2ndlevelHMM,werecognizecomplexlocationnamesandorganizationnames,usuallywithsomesimpleunknownwordsasitscomponents.ICTCLAS:Unknownwordrecognition(Cont.)WedividedtheroletagsetintoaninternaltagsetandanexternaltagsetTheroletagsintheinternaltagsetrepresentthecomponentoftheu
原创力文档


文档评论(0)