- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
逻辑回归分析及其在文本片断聚类中的应用 徐永东 2004,6,12 内容简介 研究背景 逻辑回归分析 文本片断聚类 语言特征选择 特征自动融合 聚类 试验结果 结论 研究背景 多文档自动文摘技术的两个主要任务 关键信息抽取 内容重组 Majority ordering Chronological Ordering Augmented Chronological Ordering 关键信息抽取的几种方法 Text Surface Features Information Statistics method Discourse Structure Lexical Chains Information Extraction vs. Information Retrieval Information Fusion 文本片断聚类的特点:输入是面向同一主题的文档集,文本之间相似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处理; 研究背景 文本片断聚类——信息融合的关键任务 多文档自动文摘技术的特点 文本间的重复信息被认为是重要的文摘候选 生成的文摘不能有冗余内容 信息融合技术的特点——文本重组 文本片断聚类的特点: 输入是面向同一主题的文档集,文本之间相似度较高,因此文本片断之间的区别较小,难以实现进一步的聚类处理; 从长度上看,文本片断要远远小于文本,因此进行相似度识别时可利用的信息较少,因此尽可能地利用多特征是解决上述难题的很好的途径 逻辑回归分析 回归分析Regression analyze: 研究一个或一组变量的变动对另一个变量的变动的影响程度的方法 用来研究可以测量的变量之间的关系的一个数学工具 研究者遇到的问题 自变量和因变量是否有联系 这种联系是强是弱 能否根据自变量来预测因变量 如果能,如何预测,预测误差是多少,有效性如何? 逻辑回归分析 对上述关系进行定量描述的数学模型为回归模型 其中,Y为因变量,E(Y/X)为给定x的条件下Y的条件均值,ε为随机变量,且 E(ε)=0 相应的回归方程 逻辑回归分析 当 时,称之为线性回归方程,这里 回归分析的步骤: 收集这些变量在一组单元或案例中的每一个数据。对Y和X分别进行k次独立观测,得到一个训练样本集(Yi, Xi) 对回归参数进行估计:估计方法有很多种,对于线性回归分析主要采用最小二乘法,即选择参数估计量,使得随机误差项εi (因变量的观测至于模型估计值之间的差值)的平方和达到最小。 假设检验 用于检验拟合模型对被研究的关系是否合适、有用。 逻辑回归分析 大多数统计方法中,因变量是一个分类变量categorical variable而不是连续变量continuous variable 在分析分类变量时,通常采用的一种统计方法是对数线性模型(log-linear model),本文中,我采用它的一种特殊形式, logistic回归模型 Logistic模型: 其中 为一系列影响事件发生的概率的因素的线性函数 逻辑回归分析 逻辑函数的分布曲线 逻辑回归分析 Logistic回归的logit变换 也称自然对数转换,将非线性函数转变为线性函数 对于k个自变量的情况 相应的逻辑回归模型 逻辑回归分析 Logistic回归模型的估计 通常采用最大似然估计——统计分析中的另一常用的模型参数估计方法 假设由n个样本组成的样本空间Y, 其观测值为 各项观测值相互独立,他们的联合分布可以表示为各边际分布的乘积 其中 该公式也称为似然函数,估计的过程就是求出能够使这一似然函数的值最大的参数估计 逻辑回归分析 Logistic 回归系数的意义 Logistic回归中的常数项α表示,在自变量不起任何作用时(β=0时),因变量发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数β表示当自变量改变一个单位时,因变量发生与不发生事件的概率之比的对数变化值。例如,当β=0.693时, 则当自变量变化一个单位时,因变量事件发生与不发生的概率比为(0.667/0.333) 逻辑回归分析 Logistic 回归系数的统计推断,包含两个方面:显著性检验和参数估计 显著性检验:讨论在模型中自变量x对logit作用的显著性检验,一个自变量是否与因变量显著相关的统计假设。包括:wald检验、L.R.检验等等 回归参数的
文档评论(0)