- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最大熵分类器.PDF
最大熵分类器
什么是分类器
• 将待分类实体归于某一类
• 比如句子情感分类,手写体识别,国籍分类
句子情感分类
• 对给定句子,分类器给出句子在所有类别上的概率分布
句子 情感分类 正向概率 负向概率
发动机比较平顺 正向
方向盘又大又重 负向
计算概率
= ( · )
• 示某个实体分类的概率分布
• 用 ()进行概率化(函数)
• 是模型参数(矩阵)
• 某个特定实体的特征(向量)
• · 表示矩阵乘法
= ( · )
• ( , , … , , … , , )
• ∑ = 1
• 有n种类别
• 表示该实体是第i种类别的概率
= ( · )
• () 进行概率化
• 令Y = · ,
• 这里的以理解为分类器对实体在每个类别上的打分,非概率。
• 维度和同
• = ∑
对于二分类来说若Y (a,b ),则 , )
= ( · )
• 实体的特征,通过特征进行分类
• 已知
• 表示成向量形式,为了计算方便
如何从实体中获得特征向量
一共有三步
• 使用特征模板(可能有多个)抽取训练集中所有实体的特征
• 去除重复的特征,形成训练特征表
• 所有实体的特征都根据训练集特征表进行向量化
特征模板和特征抽取(获得的第一步)
• 任务:国籍分类 • 任务:句子情感分类
• 实体:我 • 实体:方向盘|又|大|又|重
特征模板 特征 特征模板 特征
语言 语言=汉语;语言=英语 Unigram Uni=方向盘;
Uni=又;Uni=大;
发色 发色=黑色 Uni=又;Uni=重
瞳色 瞳色=黑色
用训练集做出特征表(获得的第二步)
训练集里所有实体:
这个|方向盘|又|大|又|重
发动机|比较|平顺
训练集特征表(不重不漏):
{ Uni=这个,Uni=方向盘,Uni=又,
Uni=大,Uni=重,Uni=发动机,
Uni= 比较,Uni=平顺}
特征向量化(获得的最后一步)
• 实体1:这个|方向盘|又|大|又|重
• 实体2:发动机|比较|平顺
• 实体3:发动机|又|大|又|重
实体 Uni=这个 Uni=方向 Uni=又 Uni=大 Uni=重 Uni=发动 Uni= 比较 Uni=平顺
盘
文档评论(0)