- 0
- 0
- 约4.83千字
- 约 36页
- 2017-06-10 发布于四川
- 举报
根据专业知识,词频及具有分类的特征信息,——信息熵!因此可以仿照熵的定义: 某词W(i)在文本d 中出现的频数 × log( ) 集合中文本总数 词W(i)在文本中至少 出现一次的文本数 这里熵的形式,一来用类似信息熵的定义,符合“分类”的特征信息的概念;二来,词频的作用大于词在文本集合中出现的作用。 假设TF(w(i),dj)是词w(i)在文本dj中出现的次数,|D|是D中文本总数,DF(w(i))是指在D中至少出现一次w(i)的文本数。则每一个文本dj∈D,和一个特征词w(i)存在一量: 形式化: 记d(i)j =TFIDF(w(i),dj) ,则每一个文本dj∈D,存在一个分量适当排序的文本向量。 文本向量空间模型与文本向量: 问题的目标:文本集的分类 原型的结构分析: 文本集的结构(目标)+文本的结构(表示的关键) 同构分析: 数学结构和原型结构的联系 文本集的结构≌线性空间结构 数学模型表示:
您可能关注的文档
- 红楼梦又名石头记.ppt
- 红楼梦导读之宝玉挨打.ppt
- 红楼梦刘姥姥.ppt
- 红楼梦饮食文化.ppt
- 红海湾张静中学中考语文复习优秀课件14.ppt
- 红高粱赏析图文.ppt
- 纪录片之[1].环保.ppt
- 纪晓岚吟诗有一字诗的版本.ppt
- 纳兰容若生平简介唯美图片.ppt
- 纵向一体化与横向.ppt
- 2024-2025学年湖南省邵阳市新宁县回龙寺镇人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市平原县王杲铺中小、王凤楼中小、腰站镇中小青岛版一年级下册3月月考数学试卷.docx
- 第四单元 课题3 物质组成的表示-初中化学新教材预习学案(人教版2024九年级上册).docx
- 2024-2025学年山东省济宁市梁山县人教版一年级下册期中测试数学试卷.docx
- 2024-2025学年山东省德州市德州经济技术开发区长河小学等校青岛版一年级下册期中考试数学试卷.docx
- 2026《基于国产开源单片机GD32VF103的输变电设备物联网传感器设计》8300字.docx
- 2024年中考道德与法治真题完全解读(北京卷).docx
- 2026《基于机器视觉识别的工件边缘曲线重构方法分析》9000字.docx
- 课时9.4 物体的浮与沉【一大题型】八年级全一册物理(沪科版2024).docx
- 2024-2025学年广东省江门市开平市人教版一年级下册期中综合素养评价数学试卷.docx
原创力文档

文档评论(0)