Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

bwin6099亚洲必赢 > 会员园地 > >Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改
会员园地

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

时间:2019-01-09 15:28作者:admin打印字号:

  然语言处理取得了令人印象深刻的进步尽管深度学习的最新进展已经推动自,所周知但众,非常多的数据这些技术需要,实用场景下的应用限制了其在许多。无标注数据上学习通用语言表征一种日益流行的解决方法是先在,定任务的下游系统中然后将其整合到特。过词嵌入流行起来的这种方法最初是通,级别的表征所取代但最近已经被句子。是但,语言学习一个单独的模型所有这些研究都是为每种,同语言之间的信息因此无法利用不,低资源语言上的性能这大大限制了它们在。

  入语言和 NLP 任务)通用的句子向量表征——感兴趣本研究对通用的语言无关句子嵌入——即对两个维度(输。有限的语言可以从多种语言联合训练中受益该研究的动机是多方面的:(1)希望资源;到另一种语言的 zero-shot 迁移(2)渴望实现 NLP 模型从一种语言;现语码转换(3)实。此为,多种语言的单个编码器研究者使用了可以处理,子在最终嵌入空间中会很相近这样不同语言中语义相似的句。

  究主要聚焦于资源丰富的语言关于多语言 NLP 的研,及主流的欧洲语言如汉语、阿拉伯语,(大多是两种)语言通常只局限于几种。之下相比,不同语言的联合句子表征本研究学习了 93 种,语言(见表 1 和表 2)包括资源不足和少数民族的。开可用的平行文本上进行训练且本研究提出的系统仅在公。贡献如下本研究的:

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

  研究提出的系统架构图 1 展示了本,enk (2018a)该架构基于 Schw。可以看到从上图,应用最大池化操作来得到句子嵌入对 BiLSTM 编码器的输出,嵌入进行线性变换然后对这些句子,器 LSTM以初始化解码,时间步与其输入嵌入连接起来同时这些句子嵌入还在每个。意注,之间没有其他连接编码器和解码器,捕获的输入序列的所有相关信息因为本研究想得到被句子嵌入。

  个编码器和解码器该系统中只有一,共享它们所有语言。r encoding (BPE) 词汇表研究者构建了一个联合 byte-pai,练语料库学得它基于所有训。样这,号指出输入语言的类型编码器没有给出明确信,与语种无关的表征促使编码器学习。则相反解码器,言 ID 嵌入来生成它使用指定语种的语,输入嵌入和句子嵌入且在每个时间步级联。

  系统和语言概念迥异)自然需要具备足够容量的编码器扩展到大约 100 种语言(这些语言的句法、书写。TM 限制在 1-5 层本研究将堆叠 BiLS,在 512 维每层的维度限制。子表征是 1024 维的(双向级联后)得到的句。2048 维的层解码器有一个 。被设置为 320输入嵌入的大小,入是 32 维的语言 ID 嵌。

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

  的 18 种资源匮乏的语言表 2:模型训练期间使用,rity error rate 和 Tatoeba 测试集句子数量及其语族、书写系统、在 Tatoeba 测试集上的 simila。少于 100 个横杠表示测试句子。

  :统一标点符号、删除非打印字符、分词所有预处理使用 Moses 工具完成。文本是例外中文和日文, 和 Mecab 进行分割它们分别使用 Jieba。持原始脚本所有语言保,希腊语转换为拉丁字母)希腊语除外(研究者将。

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

  然语言推断任务测试集上的准确率表 3:在 XNLI 跨语言自。所有结果均对应 BiLSTM-max(最大池化)Conneau et al. (2018c) 的,于 BiLSTM-last其在所有任务中的表现均优。果用黑体字表示整体最好的结,结果加下划线每一组最好的。itHub READMEBERT 结果来自其 G。T 模型来自 泰语 BER。

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

  t 跨语言文档分类任务(测试集)上的准确率表 4:在 MLDoc zero-sho。

  e 和其他权重进行多任务训练的结果对比表 7:使用 NLI objectiv。

Facebook新研究:一个编码器hold住93种语言!跨语言迁移无需修改

  仅在 18 种评估语言上的训练结果对比表 8:在 93 种语言上的训练结果与。

上一篇:全球完全依赖于移动网络人群比重是否会继续上升?
下一篇:网络小兵的创新大计记中国移动“网络安全专家”郭荣烈、林煜豪