数学建模方法浅谈中国工业大学孟大志教授.ppt

下载文档 降价啦

0
0
约8.65千字
约 63页
2021-05-16 发布于天津
举报
版权申诉
保障服务

数学建模方法浅谈中国工业大学孟大志教授.ppt

1、本文档共63页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

总体分析结论：显然，通过条件、目标的理解我们可以得到影响力评估的两个主要内容：关注度和影响力内涵的评估。选择一两个重点领域和某个适当的视角进行比对，形成评估方法。具体分析：目标的 “量化” 要求，对于关注度显然是统计模型进行分析；而影响力内涵的评估模型是什么呢？必须建立文本的理解与分析模型，基于文本分类的模型。理解与分析 : 理解基于分类，理解就是分类！ Web 中的问题 : 在网上，每天有成千上万的多媒体文件在传输。试建立数学模型，使得可以对这些文件进行自动分类，以便人们阅读和使用。如何建立文本分类的数学模型？在线文本自动分析原型的目标：在线电子文本的计算机自动分类与辅助理解。两类“分类模型”的目标：检索性分类 —— 国际图书分类法，目的是查询；理解性分类 —— 基于语意、概念层、主题层的细分类，目的是分析和理解。１）建立专业模型原型的结构分析文本 —— 章节 —— 段落 —— 语意团 —— 句或短语 —— 词 —— 字符文本的结构：原型有两层结构：文本的结构，文本集合的结构。分析：文本集合的结构依赖于文本的结构；文本集合的结构是原型对于目的的主要结构；因此文本的结构的表示依赖文本集合的结构。原型的专业模型（源于关键词和摘要的作用的理解）模型 1. 以词频为特征的分类模型词 : 有语意的初级字符串单位 —— 语言的细胞；词在文本中的频率与不同类文本间频率差别是分类的基本特征和基本的结构性差别。模型 2. 以语意团为特征，重在语意差别的分类。模型 3. 混合模型语言能力模型：乔姆斯基的语法结构模型是另一类语言模型，目的是一般语言的生成结构。文本集的结构分析：分类是在文本的集合中进行，因此是原型的用于分类目标的主要结构。联想到数学中的结构，例如代数结构，是在集合中定义代数运算 —— 加法和数法：元素间的运算关系两个文本的合并还是文本 —— 加法封闭；一个文本的倍数仍然是文本 —— 数乘封闭！分析文本集的结构，首先是文本之间的相互关系：两个文本合并是什么？还是文本！２）同构分析同构：此时问题的原型的结构直接和数学结构联系起来！建立原型结构的数学表示则建立了数学模型。文本的集合应该有一个 “线性空间”的结构；文本的分类是在线性空间中的 “向量的分类” ！具有高等代数的知识，对于线性代数的结构有清楚的理解和关注，则容易发现：以上分析导至文本向量的概念：每个文本对应地定义一个文本向量，用于分类，分量如何定义？显然，分量是“分类特征”的具体表示：基于词频以及用于区分文本的量化的表示 — 分析！模型 1 的数学模型：向量空间的结构 + 词频特征。３）同构表示与数学建模根据专业模型，词频及具有分类的特征信息，因此可以仿照熵的定义：假设 TF(w (i) ,d j ) 是词 w (i) 在文本 d j 中出现的次数， |D| 是 D 中文本总数， DF(w (i) ) 是指在 D 中至少出现一次 w (i) 的文本数。则每一个文本 d j ∈ D ，和一个特征词 w (i ）存在一量： ? ? ? ? ? ? ? ? ? ? ) ( log , , w d w d w i j i j i DF D TF TFIDF ? ? 这里熵的形式，一来用类似信息熵的定义，符合“分类”的特征信息的概念：好的分类，信息增益；二来，词频的作用大于词在文本集合中出现的作用。记 d (i) j =TFIDF(w (i) ,d j ) ，则每一个文本 dj ∈ D ，存在一个分量适当排序的文本向量 : ? ? ? ? ? ? 1 j i j k i j , , . 0 , 0 , , , d d d d d d N j j j N d d d ? ? ? ? ? ? ? ? ? 是维实向量对于任意实数和任意的两