大语言模型通识 课件 第4章 人工数据标注.pptx

大语言模型通识 课件 第4章 人工数据标注.pptx

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;2022年底,ChatGPT引爆大语言模型,科技巨头纷纷入局,将文生文、文生图、文生音频、文生视频、图生视频等多模态技术“玩”出了新高度。作为大模型数据能力链条上的重要一环,数据标注受到前所未有的关注。数据是人工智能的基础,更是大模型源源不断的养分来源,数据标注这个环节做得如何,直接决定了大模型有多聪明。;大模型领域的领跑者OpenAI在数据标注上有一套自己的方法,他们的数据标注方式是先做出预训练模型,再用强化学习加上人工反馈来调优,也就是RLHF(ReinforcementLearningfromHumanFeedback,从人类反馈中强化学习)。他们找了很多家数据公司来共同完成数据标注,自己组建了一个由几十名哲学博士组成的质检团队,对标注好的数据进行检查。;数据标注不是以对错来评估,而是给每个问题选出多个匹配的结果,再经过多人多轮的结果排序,直至模型数据符合常人思维,甚至某些专业领域的结果要达到特定要求的知识水平。OpenAI成立的8年间,花费了10亿美元用于模型训练,可见其对数据的重视程度。;;PART01;知识是信息接受者通过对信息的提炼和推理而获得的正确结论,是人对自然世界、人类社会以及思维方式与运动规律的认识与掌握,是人的大脑通过思维重新组合和系统化的信息集合。知识与知识表示是人工智能中的一项重要的基本技术,它决定着人工智能如何进行知识学习。;在信息时代,有许多可以处理和存储大量信息的计算机系统。信息包括数据和事实。数据、事实、信息和知识之间存在着层次关系。最简单的信息片是数据,从数据中,我们可以建立事实,进而获得信息。人们将知识定义为“处理信息以实现智能决策”,这个时代的挑战是将信息转换成知识,使之可以用于智能决策。;从便于表示和运用的角度出发,可将知识分为4种类型。

(1)对象(事实):物理对象和物理概念,反映某一对象或一类对象的属性,例如,桌子结构=高度、宽度、深度。

(2)事件和事件序列(关于过程的知识):时间元素和因果关系。不光有当前状态和行为的描述,还有对其发展的变化及其相关条件、因果关系等描述的知识。;(3)执行(办事、操作行为):不仅包括如何完成(步骤)事情的信息,也包括主导执行的逻辑或算法的信息。如下棋、证明定理、医疗诊断等。

(4)元知识:即知识的知识,关于各种事实的知识,可靠性和相对重要性的知识,关于如何表示知识和运用知识的知识。例如,如果你在考试前一天晚上死记硬背,那么关于这个主题的知识的记忆就不会持续太久。以规则形式表示的元知识称为元规则,用来指导规则的选用。运用元知识进行的推理称为元推理。;这里的知识涵义和我们的一般认识有所区别,它是指以某种结构化方式表示的概念、事件和过程。因此,并不是日常生活中的所有知识都能够得以体现的,只有限定了范围和结构,经过编码改造的知识才能成为人工智能知识表示中的知识。;从数据、事实、信息到知识的层次频谱如图4-1所示。数据可以是没有附加任何意义或单位的数字,事实是具有单位的数字,信息则是将事实转化为意义。最终,知识是高阶的信息表示和处理,方便做出复杂的决策和理解。

图4-1数据、事实、信息和知识的分层关系;表4-1中的3个例子显示了数据、事实、信息和知识如何在日常生活中协同工作。

表4-1知识层次结构的示例;举例1:你尝试确定是否适合在户外游泳。所拥有的数据是整数21。在数据中添加一个单位时,你就拥有了事实:温度是21℃。为了将这一事实转化为信息,需赋予事实意义:室外温度为21℃。应用条件到这条信息中,就得到了知识:如果温度超过21℃,就可以去游泳。;举例2:你想解释谁有资格服兵役。数据:整数18,事实:18岁,信息:18岁是资格年龄,知识:如果你的年龄大于或等于18岁,那么就符合服兵役条件。根据对条件真实性的测试,做出决定(或动作)就是我们所知的规则(或If-Then规则)。

可以将举例2声明为规则:如果征募依旧在进行中,你年满18岁或大于18岁且没有任何严重的慢性疾病,就有资格服兵役。;举例3:你想去校园拜访张小明教授。只知道他是数学教授,大学网站可能提供了原始数据:232室,即张小明教授在综合楼232室。你了解到综合楼坐落在校园的西南侧。最终,你了解很多信息,获得了知识:从西大门进入校园;假设你向东走,则综合楼是第二座建筑。进入主入口后,张小明教授的办公室在二楼、你的右手边。很明显,仅凭数据“232室”不足以找到教授的办公室。知道办公室在综合楼的232室,这也没有太大帮助。;如果校园中有许多建筑物,或者你不确定从校园的哪一边(东、南、西或北)进入,那么从提供的信息中也不足以找到综合楼。但是,如果信息能够得到仔细处理(设计),创建一个有逻辑、可理解的解决方案,那么你就可以很轻松地找到教授办公室。;“知识表示”

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档