结构主义建模.pptVIP

  • 0
  • 0
  • 约4.83千字
  • 约 36页
  • 2017-06-10 发布于四川
  • 举报
根据专业知识,词频及具有分类的特征信息,——信息熵!因此可以仿照熵的定义: 某词W(i)在文本d 中出现的频数 × log( ) 集合中文本总数 词W(i)在文本中至少 出现一次的文本数 这里熵的形式,一来用类似信息熵的定义,符合“分类”的特征信息的概念;二来,词频的作用大于词在文本集合中出现的作用。 假设TF(w(i),dj)是词w(i)在文本dj中出现的次数,|D|是D中文本总数,DF(w(i))是指在D中至少出现一次w(i)的文本数。则每一个文本dj∈D,和一个特征词w(i)存在一量: 形式化: 记d(i)j =TFIDF(w(i),dj) ,则每一个文本dj∈D,存在一个分量适当排序的文本向量。    文本向量空间模型与文本向量:    问题的目标:文本集的分类 原型的结构分析: 文本集的结构(目标)+文本的结构(表示的关键) 同构分析: 数学结构和原型结构的联系 文本集的结构≌线性空间结构 数学模型表示:

文档评论(0)

1亿VIP精品文档

相关文档