如何通过机器学习还原图像色彩.docxVIP

下载本文档

2
0
约2.96千字
约 12页
2018-05-10 发布于江西
举报
版权申诉

如何通过机器学习还原图像色彩.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

如何通过机器学习还原图像色彩.docx

如何通过机器学习还原图像色彩在本文中，作者提出了使用k-means算法来对图像进行色彩还原，介绍算法的步骤，同时应用在图像上，通过对比还原前后的图像，来证明k-means算法的有效性。k-means是机器学习中最著名、最广泛使用的算法之一。在这篇文章中，将使用k-means算法来减少图像上的颜色(但不减少像素)，从而也减少了图像的大小。在这个领域不需要任何基础知识，因为可执行应用程序文件（大小为150MB,这是由于长时间的Spark依赖）已经提供了友好的用户界面。所以你可以很容易地用不同的图像来做实验。在GitHub上有完整可用的执行代码。K-Means 算法k-mean算法是一种非监督型学习算法，将相似的数据分成不同的类别或集群。它是无监督型算法，因为数据没有被标记，而且算法不需要对相似数据进行分类的反馈（可能是预期类别的数量——稍后再讨论）。应用k- means算法的一些应用包括客户服务、集群计算、社交网络和天文数据分析。客户服务?假设有大量与客户相关的数据，并且希望更多地了解所拥有的客户类型，从而可以更好地为特定群体服务。也许你要生产牛仔裤和t恤，所以你需要在一个特定的国家将人以身材大小进行分组，这样你就能知道生产什么尺寸更合适。集群计算?从性能角度来看，将某些计算机分组在一起比较好;例如，从网络的角度来看，交换机适合聚集在一起工作，或者提供相似的计算服务。K-means算法可以将相似功能的计算机分在一组，这样就可以进行更好的布局和优化。社交网络?在社交网络中，你可以通过客户关系、偏好、相似性等来对他们进行分组，并从营销的角度更好地对客户进行定位。基于提供的数据的输入，k-means算法可以帮助我们从不同的角度对相同的数据进行分类。天文数据分析?k-means也用于了解星系的形成，以及在天文数据中寻找内聚性。它是如何工作的k-means算法有两个步骤。假设把数据分成四组，执行以下步骤。注意：在开始任何步骤之前，k-means算法会从数据中随机抽取三个样本，称为聚类中心。它检查每一个数据样本，会根据它们与开始随机选择的聚类中心的相似程度，来对它们进行分类。它使聚类中心与相似的同类点更接近(第1步的分组)。重复这些步骤，直到聚类中心没有显著的移动。下面使用简单数据进行算法执行。?步骤1?现在继续解释步骤1是如何实现的。如果你不熟悉多维特性数据。首先来介绍一些变量：k：集群的数量Xij：示例i的第j个特征值μij：示例i的第j个特征的聚类中心(类似于X，因为聚类中心是随机选择的)在这个步骤中，通过迭代，计算它们与聚类中心的相似度，并将它们放入合适的类别中。更确切地说，这是通过一个样本的欧几里得距离来计算的，并从最微小的距离中选取中心。由于中心点是随机选择的，因此将所有特征点与中心点的欧几里德距离相加。?或者，更简化，计算量更少:?步骤2?从图上看，这一步将中心点向步骤1中相似的分组进行移动。更准确地说，就是取所有与中心点相似或属于该分组的点的平均值(步骤1的分组)，来计算每个中心的新位置。例如，如果有4个集群和第1步骤之后的103个示例，那么有以下结果：μ1 = 20表示标号1-20示例的特征中心是20?μ2=10 表示标号21-31示例的特征中心是10?μ3=30表示标号32-62示例的特征中心是30?μ4=40 表示标号63-103示例的特征中心是40新的计算方法如下：??这是所有数据的平均值，类似于一个特定的中心。重复,重复,重复…何时停止?重复第1步和第2步，直到如图形上显示的，中心向数据集群移动的越来越近，才会得出新的中心。该算法会一直运行，直到对结果满意时，就需要明确地告诉它，这样它就可以停止了。一种方法是，当迭代时，中心体不会在图中移动，或者它的移动非常少。形式上说，可以计算成本函数，这基本上就是在步骤1中所计算的平均值：?μc是Xi的中心值。每个示例都可以是不同组或中心的一部分。每次迭代成本都会与之前的成本相比较，如果变化真的很低，就停止它。例如，如果改进(成本函数的差异)是0.00001(或者其他认为合适的值)，那就可以停止了，因为继续下去就没有意义了。算法会出错吗?通常不会出错，但众所周知，k-means算法仅能达到局部最优，而不是全局最优。在这种情况下，k-means算法无法发现更加明显的分组，如下图所示：幸运的是，解决方案相当简单——只要用k-means算法多运行几次，然后选择最好的结果就好了。这个解决方案很有帮助，因为在一开始，随机初始化k-means算法，比方说，运行10次，那么会得出局部最优解。当然，这增加了运行时间，因为它运行了很多次，却只需要一个结果。另一方面，完全可以在并行的甚至是不同的集群上运行算法，所以通常可以作为一个工作解决方案。当然，k-means算法比我所介绍的要多，所以强烈推荐这