- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习与数据挖掘样本准备(2)
样本准备2025/5/18MultimediaSearchEngineDatamining2对象在文档中可能只占很小比例用整个文档提取的特征含有大量噪声对象分割使用什么样的特征?如何计算?如何进行预处理?……特征与特征提取正负样本数可能严重失衡(1:10,1:100)样本可能包含噪声样本选择
特征何为特征?Inpatternrecognition,featuresaretheindividualmeasurableheuristicpropertiesofthephenomenabeingobserved.Incomputervisionandimageprocessingtheconceptoffeatureisusedtodenoteapieceofinformationwhichisrelevantforsolvingthecomputationaltaskrelatedtoacertainapplication.
特征2025/5/18MultimediaSearchEngineDatamining4何为特征?特征:实体(或事物、概念……)区别于其它实体(事物、概念……)的独特的属性特征=特+征性质独特的特殊的有比较,才有独特、特殊
特征特征的属性独特性目标实体和非目标实体有不同的取值范围?确定性特征,概率性特征可计算性以可接受的代价从目标实体采集数据并计算出来?特征的成本?特征的质量(噪声)
特征2025/5/18MultimediaSearchEngineDatamining6STEP4STEP3STEP2STEP1特征组的属性完备性可以完全区分目标实体和非目标实体必要性对区分目标实体和非目标实体是否必要独立性特征之间是否相关
特征2025/5/18MultimediaSearchEngineDatamining7特征的种类(应用意义上)多媒体特征(视觉、听觉特征)频率、节奏……文字/关键字特征颜色、纹理、形状……字频、词频……元数据特征目录名、链接、链接文字、日期……
特征提取2025/5/18MultimediaSearchEngineDatamining8何为特征提取?从原始数据计算出特征的数值(或模型)特征提取须考虑的问题可计算性特征提取时,数据采集往往已经完成,特征提取不具备采用不同数据采集手段的灵活性成本计算复杂度,吞吐率,延迟,人力开销……噪声很多多媒体特征提取准确率低
特征提取2025/5/18MultimediaSearchEngineDatamining9像素特征直接用像素的颜色值表示特征实现简单信息质量差仅包含单个像素的信息同时包含需要的信息和不需要的噪声难以表示全局信息后续分类和处理困难
特征提取2025/5/18MultimediaSearchEngineDatamining10颜色特征颜色是人眼非常敏感的特征如何提取和表示颜色特征?平均颜色把所有像素的颜色值当作矢量,计算所有像素的颜色矢量的算术平均
特征提取2025/5/18MultimediaSearchEngineDatamining11颜色特征一阶矩(均值):颜色矩如果把像素看成随机变量,则其分布特性可以由矩来描述二阶中心矩(标准差):三阶中心矩:维数低,易于计算信息量少,对噪声敏感
特征提取2025/5/18MultimediaSearchEngineDatamining12颜色特征颜色直方图直方图:概率密度函数颜色:三维?如何统计直方图?方法1:三维颜色直方图直方图的每个槽对应一组(R,G,B)矢量值RGB均0~255?直方图有256*256*256=16M个槽?图像像素数:704*576=405K,1920*1080=2M?统计直方图需要使用较粗的量化一般量化成16级?16*16*16=4096个槽维数仍然很高
特征提取2025/5/18MultimediaSearchEngineDatamining13颜色特征颜色直方图方法2:三个一维直方图对R、G、B三个颜色分别统计一个直方图不进一步量化:256+256+256=768维每种颜色量化成16级:16+16+16=48维优点:维数大大降低缺点:颜色之间的相关信息丢失在较独立的颜色空间统计(如:YUV,HSI)亮度统计一维直方图,色度统计二维直方图直方图的维数仍然较高
特征提取2025/5/18MultimediaSearchEngineDatamining14颜色特征聚类颜色直方图普通颜色直方图不管图像本身的颜色分布,整个颜色空间的所有颜色都是直方图的槽维数高必须覆盖整个颜色空间精度差对颜色空间
您可能关注的文档
最近下载
- 2025年天津市中考英语真题卷(含答案与解析).pdf VIP
- 工商银行swift代码大全.pdf VIP
- 文献检索与科技论文写作 课件全套 第1--9章 绪论、科技文献检索基础知识---科技论文的投稿.pdf VIP
- 《企业安全生产主要负责人和管理人员培训课件》.ppt VIP
- 宠物临床诊疗职业技能评价规范 宠物医师助理.pdf VIP
- 等离子体电极用碳化铪粉末、其制造方法、碳化铪烧结体和等离子体电极.pdf VIP
- 湖南师大附中2022-2023学年高一下学期期末数学试题含答案.pdf VIP
- 温室气体(GHG)管理手册.doc VIP
- SBS改性沥青防水卷材施工方案.docx VIP
- 多相流体的数值模拟及计算方法.pdf VIP
文档评论(0)