Bert主要包括有两个步骤.PDFVIP

下载本文档

124
0
约2.99千字
约 3页
2019-01-15 发布于山东
举报
版权申诉

Bert主要包括有两个步骤.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Bert主要包括有两个步骤.PDF

Bert 主要包括有两个步骤： 1、Pre-trainning ：训练开销非常的大，因为模型包括一个12-24 层的Transformer ，数据涵盖了整个维基百科和书的数据，以及 1M 次的更新迭代。需要4~16 个云端 TPUs 花费4 天的时间。不过好在对于每种语言来说，这样的训练都是一劳永逸的，因为这是一个相当通用而且效果极佳的模型。 2、fine-tuning ：训练起来则方便的多，在GPU 上大概只需要数个小时即可。这主要是在一些特定任务上对Bert 参数的微调。 Github 地址：/google-research/bert 已经发布的代码介绍：  BERT-Base, Uncased: 12-layer, 768-hidden, 12-heads, 110M parameters  BERT-Large, Uncased: 24-layer, 1024-hidden, 16-heads, 340M parameters  BERT-Base, Cased: 12-layer, 768-hidden, 12-heads , 110M parameters  BERT-Large, Cased: 24-layer, 1024-hidden, 16-heads, 340M parameters  BERT-Base, Multilingual Cased (New, recommended): 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters  BERT-Base, Multilingual Uncased (Orig, not recommended) (Not recommended, use Multilingual Cased instead): 102 languages, 12-layer, 768-hidden, 12- heads, 110M parameters  BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768- hidden, 12-heads, 110M parameters 注释：uncased 表示将数据里面的所有字母都变成了小写，例如John Smith 变成了john smith ，同时还去掉了例如德语法语里面的音调符号。Cased 则保留了语言的以上信息。 Multilingual 表示覆盖多语种，layer 表示Transformer 层每一个文件包**.zip 里都包含以下三个部分： 1、一个TensorFlow checkpoint (bert_model.ckpt)里面有预训练的所有权重，一共3 个文件； 2、一个vocab.txt 文件，是wordpiece 到word id 的对应关系。 3、一个bert_config.jason 文件，它指定了模型的超参数。 Fine-tuning 因为模型较大，即使是BERT-Base 也需要12GB 的RAM 的GPU 来运行默认的超参数。否则很容易溢出。案例：1 Sentence (and sentence-pair) 语义判别分类任务：两个句子，各有一个ID ，label 是1/0 分别代表两个句子的语义是否一致。训练脚本编写： export BERT_BASE_DIR=/work4/caiyq/bert/model/uncased_L-12_H-768_A-12 export GLUE_DIR=/work4/caiyq/data/glue_data python run_classifier.py \ --task_name=MRPC \ --do_train=true \ --do_eval=true \ --data_dir=$GLUE_DIR/MRPC \ --vocab_file=$BERT_BASE_DIR/vocab.txt \ --bert_config_file=$BERT_BASE_DIR/bert_config.json \ --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \ --max_seq_length=128 \ --tr