- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
总体分析结论: 显然,通过条件、目标的理解我们可以得 到影响力评估的两个主要内容: 关注度和影响 力内涵的评估。 选择一两个重点领域和某个适 当的视角进行比对,形成评估方法。 具体分析: 目标的 “量化” 要求,对于 关注度 显然是统 计模型进行分析;而 影响力内涵的评估 模型是什 么呢? 必须建立文本的 理解与分析模型 ,基于文本分 类的模型。 理解与分析 : 理解基于分类,理解就是分类! Web 中的问题 : 在网上,每天有成千上万的多媒体文件在传输。 试建立数学模型,使得可以对这些文件进行自 动分类,以便人们阅读和使用。 如何建立文本分类的数学模型? 在线文本自动分析 原型的目标: 在线电子文本的计算机自动分类与辅 助理解。 两类“分类模型”的目标: 检索性分类 —— 国际图书分类法,目的是查询; 理解性分类 —— 基于语意、概念层、主题层的细分类, 目的是分析和理解。 1) 建立专业模型 原型的结构分析 文本 —— 章节 —— 段落 —— 语意团 —— 句或短语 —— 词 —— 字符 文本的结构: 原型有两层结构: 文本的结构, 文本集合的结构 。 分析:文本集合的结构依赖于文本的结构; 文本集合的结构是原型对于目的的主要结构; 因此 文本的结构的表示依赖文本集合的结构 。 原型的专业模型(源于关键词和摘要的作用的理解) 模型 1. 以词频为特征的分类模型 词 : 有语意的初级字符串单位 —— 语言的细胞; 词在文本中的频率与不同类文本间频率差别是分类 的基本特征和基本的结构性差别。 模型 2. 以语意团为特征,重在语意差别的分类。 模型 3. 混合模型 语言能力模型: 乔姆斯基的语法结构模型是另一 类语言模型,目的是一般语言的生成结构。 文本集的结构分析: 分类是在文本的集合中进行, 因此是原型的用于分类目标的主要结构。 联想到数学中的结构 ,例如代数结构,是在集合中 定义代数运算 —— 加法和数法:元素间的运算关系 两个文本的合并还是文本 —— 加法封闭; 一个文本的倍数仍然是文本 —— 数乘封闭! 分析文本集的结构,首先是 文本之间的相互关系 : 两个文本合并是什么?还是文本! 2) 同构分析 同构: 此时问题的原型的结构直接和数学结构联系起来! 建立原型结构的数学表示则建立了数学模型。 文本的集合 应该 有一个 “线性空间”的结构 ; 文本的分类是在线性空间中的 “向量的分类” ! 具有高等代数的知识,对于线性代数的结构 有清楚的理解和关注,则容易发现: 以上分析导至 文本向量的概念 : 每个文本对应地定义一个文本向量,用于分类,分量 如何定义? 显然,分量是“分类特征”的具体表示: 基于词频以及用于区分文本的量化的表示 — 分析! 模型 1 的数学模型: 向量空间的结构 + 词频特征 。 3) 同构表示与数学建模 根据专业模型,词频及具有分类的特征信息, 因此可以 仿照熵 的定义: 假设 TF(w (i) ,d j ) 是词 w (i) 在文本 d j 中出现的次数, |D| 是 D 中文本总数, DF(w (i) ) 是指在 D 中至少出现一次 w (i) 的文本数。则每一个文本 d j ∈ D ,和一个特征词 w (i ) 存在一量: ? ? ? ? ? ? ? ? ? ? ) ( log , , w d w d w i j i j i DF D TF TFIDF ? ? 这里熵的形式,一来用类似信息熵的定义,符合“分 类”的特征信息的概念:好的分类,信息增益;二来, 词频的作用大于词在文本集合中出现的作用。 记 d (i) j =TFIDF(w (i) ,d j ) ,则每一个文本 dj ∈ D ,存 在一个分量适当排序的文本向量 : ? ? ? ? ? ? 1 j i j k i j , , . 0 , 0 , , , d d d d d d N j j j N d d d ? ? ? ? ? ? ? ? ? 是 维实向量 对于任意实数 和任意的两
文档评论(0)