跨平台跨浏览器数据标注界面设计与实现.docVIP

下载本文档

29
0
约4.72千字
约 9页
2021-01-15 发布于北京
举报
版权申诉

跨平台跨浏览器数据标注界面设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

跨平台跨浏览器数据标注界面设计与实现摘要：众所周知，自然语言处理是机器学习中的重要环节，而自然语言处理需要大量数据作为分析基础。一方面，机器学习算法需要高质量的标注数据，句法分析、图像识别等算法的深入研究对各类标注数据的需求加大;另一方面，不同的研究方向对数据的标注要求各不相同，因此数据标注就具有了非常广泛的应用价值。数据标注就是对原始的数据，包括语音、文本、图片、视频等进行加工处理，转换为机器可识别信息的过程。数据标注系统是指一个针对某一个特定任务，人工标注其正确答案。以中文分词为例，首先数据标注系统中会显示一个汉语句子，如我是一个中国人;然后标注者通过鼠标点击动作，将句子切分为一个词语序列我/是/一个/中国/人。这样的人工标注数据对于统计机器模型和算法很重要。本课题基于一个现有的数据标注系统进行改进，利用jQuery框架改写网页前端，使它在不同浏览器、不同平台正常工作，并基于动态依存弧画图对原有的界面进行优化，使其有更好的视觉效果。关键词：数据标注;句法标注;jQuery;前端优化前言随着互联网的高速发展，人工智能越来越贴近我们的生活，而作为实现人工智能的一种有效方法，机器学习也成为了研究的热点。机器学习是通过算法来分析数据，并通过这些数据进行学习，然后来解决现实问题。与传统软件程序相比，机器学习不再是单纯编写程序解决问题，而是用大量的具有某种特定规范的数据来进行训练机器，通过算法从数据中学习如何完成任务。这种具有特定规范的数据就是人们通过数据标注平台进行人工标注得来的。本文的标注系统是一个句法的标注系统，对句子中的词与词之间的关系进行标注，进而有助于后续的算法研究。本文分析了各主流浏览器之间的差异，更好的完善前端架构，优化界面风格，提高系统的有效利用率。本文完成的主要工作： (1) 分析浏览器兼容性问题产生原因，了解浏览器在渲染和解析脚本时的差异。 (1) 利用jQuery框架改写前端，改进标注平台浏览器兼容性。 (2) 基于动态依存弧画图对原有的界面进行优化，使标注时更为舒适。第一章绪论本章首先介绍了数据标注平台的研究背景和重要意义，其次简单介绍了本系统的各个组成部分及其作用，并概述了本文所做的主要工作和贡献，最后一节简单介绍了本篇论文的组织结构。 1.1 研究背景及意义随着机器学习的不断发展，计算机可以做越来越多的事，机器翻译，语音识别，图像识别，情感分析等一系列的研究越来越热门。在这些机器学习的算法背后，是基于大规模的人工标注数据。比如情感分析，首先需要一定量已经人工标注好的数据集，包括其情感对象，情感极性等重要信息，然后基于人工的标注信息，进而通过神经网络等工具训练机器算法，使得机器能够自己识别句子的情感要素。而数据标注系统是进行人工数据标注的重要平台，是机器学习算法研究的重要环节。人工标注的正确率直接决定了训练出来的算法模型的质量。随着互联网的快速普及，数据标注平台基本都已经做成了网页模式，这样既可以方便管理员实时查询进度和准确率，又不需要专门的平台或软件。而作为一个网页平台，浏览器的兼容性和呈现效果是体现质量的重要标准。 1.2 数据标注系统概述随着人工智能和机器学习的大规模发展，数据标注也成为一个新兴的行业，百度阿里腾讯作为整个互联网行业的领头人，也早已加入其中。但是机器学习的研究方向有很多，如图像、分词、句法等，每一个研究方向都需要不一样的数据，因此针对自己所需要的数据研究相对应的数据标注平台很有必要。本系统是一个句法标注平台，即在一句话中标注内部词语之间的修饰或搭配关系，从而刻画句子的句法结构。其中，root表示伪节点。我们将root指向的词称为句子的根节点，即句子中最重要的词。我们所画的修饰或搭配关系称为依存弧，一条依存弧由三个元素构成，其中称为核心词(父亲节点，head，father)，为修饰词(儿子节点，modifier，dependent，child)，r为关系(relation)类型，表示以何种句法角色修饰。图1.1给出的是一个部分标注的例句，红框标记的就是所需要标注的修饰词。图1.2给出了这个例句的标注结果。本系统中规定了以下四个条件： (1) 唯一根节点(single root)：一个句子只有一个根节点，，即root只有一个儿子。 (2) 唯一父亲节点(single head)：每个修饰词必须有且仅有一个核心词。 (3) 无环(acyclic)：多个依存弧不能构成环(不考虑弧的方向)。 (4) 单向(unidirectional)：依存弧的箭头方向由核心词指向修饰词。