- 1、本文档共78页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北邮郭军web搜索chapter2研讨
* WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC 常用核函数 多项式核函数 径向基函数 Sigmoid函数 特征选择 文本聚类和文本分类都以词作为基本特征来描述文档 高维文档特征不仅带来高额的运算开销,而且会产生由训练样本不足所导致的模型不可靠或失效的问题 特征降维非常重要,特征选择是方法之一 两类特征选择算法 包含算法: 从空集开始选择越来越多好的特征,直到适当为止 排除算法: 从初始特征集开始逐步排除差的特征,直到适当为止 包含算法 算法 1) 对每个词,计算其类区分性测度 2) 按区分性测度对词进行降序排序 3) 保留最好的n个词作为特征用于表达文档 各个词的类区分性一般是独立计算的,因此这类算法具有贪心(greedy)的特点 区分性测度是关键 常用测度包括χ2、互信息、Fisher鉴别指数等 χ2 测度 以二类问题为例,设 k00, k01分别为不包含/包含词t的类0中文档数 k10 , k11分别为不包含/包含词t的类1中文档数 n = k00 + k01+ k10+ k11 P(C=0) = (k00+k01) / n … 定义 χ2越大,类与词之间的相关性也越大 互信息 通过互信息计算文档类与词之间的相关性 互信息通过P(x,y)对P(x)P(y)的偏离程度对随机变量之间的依赖程度进行测量 如果随机变量X和Y相互独立,则对于所有的取值x和y P(x,y)/P(x)P(y)=1 因此,定义互信息为 Fisher鉴别 以二类学习问题为例,令X和Y分别表示一类向量的集合。向量的元素可以是令向量长度归一的实数 Fisher鉴别在寻找一种映射α*,它使得X和Y两个数据集被映射到二者质心间的距离相对集合内数据的展开幅度达到最大的方向上,即 令S = (SX+SY)/2,当S-1存在时,α = S-1 (μX-μY) 是一个解 Fisher鉴别指数 Fisher鉴别是一种变换,具有破坏特征稀疏性的特点 将每个词t都看作为一个候选的方向,即令 αt = (0,…,1,…,0)T,即1只在词t的位置出现,定义t的Fisher鉴别指数为 由于αt的特殊形式,上式可简化为 对于多类问题 排除算法 排除算法从全部词特征集T开始逐步对“无用”特征进行排除,直至获得一个满意的特征子集F 排除算法的核心思想是尽量保持P(C?|T)与P(C|F)的相似性,因为分类与聚类可以基于类(C)的后验概率分布来设计算法 P(C?|T)与P(C|F)的相似性可用KL距离来度量 排除算法 如果P(P=p|Q=q,R=r) = P(P=p|R=r),则称P
您可能关注的文档
- 办公自动化软件在课程教学中的应用(精简版)研讨.ppt
- 办公自动化软件应用研讨.ppt
- 办公自动化设备的使用和维护陈国先(第二版)第12章数码摄像机研讨.ppt
- 办公软件研讨.ppt
- 办公软件基础知识培训二excel研讨.ppt
- 功率MOSFET的驱动电路和保护技术研讨.ppt
- 办公软件基础知识培训word研讨.ppt
- 功率器件接口研讨.ppt
- 功率器件新员工培训2006研讨.ppt
- 功率放大电路设计研讨.ppt
- 党支部(党总支)班子2024年度“四个带头”组织生活会对照检查材料.docx
- 国有企业政协委员学习2025年全国政协会议精神心得体会.docx
- 2025年3月党支部“三会一课”方案参考主题.docx
- 某某县委宣传部2025年意识形态工作计划.docx
- 区人民政府2024年度工作总结.docx
- 市司法局2025年机关法治建设工作要点.docx
- 党工委书记在2025年街道“作风转变年”活动推进会上的讲话.docx
- 党支部支委班子组织生活会对照检查发言材料.docx
- 市旧创中心副职发言提纲(案例分析、意识形态).docx
- 某某县文化和旅游局2025年3月“学雷锋做榜样见行动”主题党日活动方案.docx
文档评论(0)