(人工智能初步.docxVIP

下载本文档

22
0
约6.23千字
约 6页
2017-01-25 发布于北京
举报
版权申诉

(人工智能初步.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(人工智能初步

人工智能初步机器学习作为实现人工智能的基础需要极其广泛的知识技术体系：包括脑神经科学，生命科学，社会管理学，数学，计算机科学，心理学等等。文中对于人工智能功能及适用范围的预测极为准确简练，人工智能没有必要变得和人一样，至少处理大规模数据上相较于人类来说有过之而无不及。既然如此，机器学习的优势在哪里？回归作者首先便给出数据挖掘中大规模数据分析式的学习，在处理数据时将其抽象为数据组，通过比对数据组间的异同来生成各个参量间联系“紧密程度”的回归线方程进而达到给定部分参数预测剩余参数的概率或评估历史数据。但是这里涉及的问题无疑是数据量的多少，如果无法建立起庞大的数据库来支撑，那么预测精度可想而知。但是如果拥有海量的数据，那么学习的“应变”，“应用”能力则会急速下降。举个简单的例子，很多人批判中国教育体制刻板，是纯粹的灌输，学生没法应用到变式当中，因为变式中存在着干扰项，变量之间的关系没有那么显而易见。机器学习本身也是这样，他并不理解这组数据的意义（人类真的可以吗）只能通过大量的历史数据间的关系，不断修正自身与实际情况的差距，提高拟合度。但是问题出现了，事件间关系的复杂性难以想象，有很多干扰实际结果的噪声，如果机器对样本拟合度过高，那么实际上这些噪声的影响也被其计入了两个事件的内在关系中，那么预测结果的偏差就将很大程度上依赖于所给预测环境的噪声与历史噪声之间的拟合程度了。这样的学习功能显然不是我们需要的。书中给出数据挖掘的应用集中体现在医学上，比如妇产问题。因为孕妇各式各样的身体原因和胎儿的状态，妇产医生需要判断何时该用剖腹产或顺产等等手段来接生，而这些判断都基于人的估计不可避免的会出现因环境或记忆等原因产生的误差，甚至还有因此而产生的焦虑也会扰乱医生的判断。因此一份包含9714名早期孕妇的数据库被用于试验来预测不同手段的风险是多少。这份数据中每个个体都有215项的参数来关联各种解决方案，包括母子产前身体状况，所做检查，产后健康指标等等，从而得出一张关系表，用来预测之后的妇产问题该如何选取才能降低风险。但是以此来看，数据以早期历史数据为“学习资料”其对医疗水平发展如此迅猛的现今社会必然是靠不住的。那么如何令机器学习“跟得上时代”呢？旧数据和新数据之间的权重又该如何分配呢？这的确是个奇怪的问题，毕竟我们无法将人类的医疗水平进展“告诉”电脑。但是，如果我们把时间也当做一维数据添加进去呢？将时间的变化看做和其他n维变量一样，创建n+1维空间或许就能看到更多信息了，虽然机器并不懂得人类的医疗水平具体如何发展，但是他已经知道了医学水平产生的成果（医疗记录）的变化曲线，这样的数据对他做初步预测已经足够了。分类当然这时基于医生较为负责，完整的记录下了数据，并详细的分好了类，但是往往有时不是这样的。大量的数据被叠在一起，没有任何分类，想要从中找出应对危机的解决办法简直难上加难。所以，机器学习又要挺身而出了。这种对没有分类，没有指定类别的数据进行学习称为无监督学习，无监督学习关键点就在于如何进行类的划分。不同数据间存在存在相似性的划在一起，比如：这是一个简单的只有二维数据的类型，很明显我们可以将其分为3类，但是这对机器来说是一项庞大的计算工程（对人也一样。。。），分为同一组的点集成为聚类。首先机器需要确定划分几个分类，比如上述点集可以是3个，当然也可以是1个。这里简单说明一下k-均值算法。这里如果给定三个类，那么随机取三个点作为初始聚类中心，计算各数据点点距离各聚类中心的距离，取最近的归为其一类，这时可以计算这一类点的聚类中心然后将初始聚类中心转移至重新计算得到的聚类中心，然后重复计算各点到聚类中心的距离……不断重复上述过程直到误差平方和达到最小，这样一般简单的分类就可以做到了。当然，按我的理解一般情况我们是知道数据的大致规模结构的，那么我们也可以增加设定一组半径来减少运算量。看到这里可能有人会说，这这……我一秒钟就能把他们分出来啊，用得着计算机吗？但是是否想过如果给你的是一个一个坐标点而不是画在坐标系里，如果数据不止二维而是十几维甚至像医院病例那样两百多维的话就必须要借助计算机帮忙了（甚至有时候我们连其计算结果的准确性都无法做出直观判断）。混合数据处理好吧，说到这里不免有些疑问，以上算法全都以点为基础，建立向量场，计算距离。但是现实中很多数据并不是数据，比如产妇的人种，产妇的饮食等等，各种类型数据混合在一起输入电脑，如何分类呢？这的确是一项很复杂的问题，但是正如我们的人一样--任何的信息输入包括视觉听觉等等都被转变成脉冲信号传到大脑，机器学习时同样是将各种不同的数据都转化为数字信息进而计算距离实现的。比如简单来说，19岁离20岁比10岁离20岁近，衣服和裤子的距离比衣服和书的距离近。当然这里的近不是指实际上的相近，而是根据某些特定情况（依照所研究问题）