当前位置:首页 >> 中医保健 >> NLP预训练范式大一统,不再纠结下游任务各种类型!

NLP预训练范式大一统,不再纠结下游任务各种类型!

发布时间:2023-03-14

斗任务来进行了评估。流出测试的结果暗示,UL2 在所有 9 个战斗任务上都胜过 T5 和 GPT 类较宽。最少而言,UL2 比 T5 较宽略低 +43.6%,比一个自然语言基本术语略低 +76.1%。在其他竞争较宽里,UL2 是唯一在所有战斗任务上都胜过 T5 和 GPT 类基本术语的作法。

科学家进一步将 UL2 适配到大概 20B(精准地说是 19.5 B)匹配的里等规模,并在举例来说 50 多个 NLP 战斗任务的多样化的复合里来进行测试,这些战斗任务还包括自然语言分解(有着自动和人工评估)、自然语言同上述出来、译文分类、问答、常识推理、稍短译文推理、结构化基本知识基本和电子邮件检索。测试结果暗示,UL2 在绝大多数战斗任务和周边环境下都达到了 SOTA。

最后,科学家可用 UL2 来进行了零 / 少抽样测试,并暗示 UL2 在零抽样 SuperGLUE 上的机动性胜过 GPT-3 175B。与 GLaM (Du et al., 2021)、PaLM (Chowdhery et al., 2022) 和 ST-MoE (Zoph et al., 2022) 等较另行的 SOTA 基本术语相比,UL2 尽管只能在 C4 重构上来进行了专业训练,但在计算匹配周边环境下的机动性依然极具整体实力。

科学家深入分析了零抽样与变更机动性相互间的折中,暗示 UL2 在两种自学实例上都是帕累托理论上的。UL2 的机动性是一个 LM adapted T5 XXL 基本术语的三倍,在相同的计算成本下可与 PaLM 和 LaMDA 堪比。

这篇篇文章的(并列)第一所写是腾讯 AI 高级研究成果科学家 Yi Tay 和腾讯大脑研究成果科学家 Mostafa Dehghani。

Yi Tay 2019 年在另行加坡南洋工业大学获得普林斯顿大学哈佛大学。他是一位高产的篇文章所写,曾在 2018 年一年之内以第一所写身份发同上了 14 篇各个领域内顶会篇文章。此外,他的篇文章也获得过多个奖项,如 ICLR 2021 年同上扬篇文章奖、WSDM 2021 年最佳篇文章奖(亚军)和 WSDM 2020 年最佳篇文章奖(亚军)。此外,他还曾所受聘 EMNLP 和 NAACL 等顶级 NLP 内阁会议的区域主席。

Mostafa Dehghani 在阿姆斯特丹大学获得的哈佛大学,获得过 ACM SIGIR ICTIR 2016 年最佳篇文章奖不够以。他在腾讯主要研究成果基于察觉到力的影像和自然语言基本术语,是颇所受欢迎篇文章《 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 》的所写之一。

以下是篇文章先前。

UL2 包罗万象

用实质上视角看亦同专业训练战斗任务

许多亦同专业训练战斗任务可以被直观地同上述为「读取到最大限度(input-to-target)」型战斗任务,其里读取所称的是基本术语所相反的任何形式的失忆或句子,而最大限度是基本术语的亦同期输出。自然语言基本术语可用所有以前的时间步作为读取来亦同测下一个 token,即最大限度。在 span corruption 里,基本术语为了让来自无论如何和未有来的所有未有损坏的 token 作为亦同测 corrupted span(最大限度)的读取。Prefix-LM 是可用无论如何的 token 作为读取的自然语言基本术语,但它双向可用读取:这比普通自然语言基本术语里读取的单向解码提供了不够强的相结合灵活性。

从这个角度来看,我们可以将一个亦同专业训练最大限度简化为另一个最大限度。例如,在 span corruption 最大限度里,当 corrupted span(最大限度)等同于整个多肽时,该原因实际上就转成了一个自然语言相结合原因。受限于于这一点,可用 span corruption,通过将 span 间距所设得很大,我们可以在局部区域里理论上地模拟自然语言相结合最大限度。

科学家们假定了一个符号,它涵括了本文里可用的所有有所不同的去则否战斗任务。去则否战斗任务的读取和最大限度由 SPANCORRUPT 匹配分解,该匹配由三个值 (µ, r, n) 来匹配化,其里 µ 是最少 span 间距,r 是 corruption rate,n 是 corrupted span 的数量。察觉到,n 或许是读取间距 L 和 span 间距 µ 的匹配,如 L/µ,但在某些情况下,科学家可用 n 的通常值。给定读取译文,SPANCORRUPT 将 corruption 引入从有着 u 均值的(正态或光滑)分布里合成的间距的 span。在 corruption 不久,读取译文被馈送到去则否战斗任务,corrupted span 被做为要恢复的最大限度。

举个例证,用这个关系式来相结合一个典型因果自然语言相结合的最大限度,只才可所设 (µ = L, r = 1.0, n = 1) ,即单个 span 的间距等同于多肽的间距。要同上述一个典型 Prefix LM 的最大限度,可以所设 (µ = L − P, r = 1.0 − P/L, n = 1) ,其里 P 是 prefix 的间距,附加的也就是说是单个 corrupted span 总是到达多肽的开篇。

科学家察觉到到,这种 inputs-to-target 的关系式既可以应用于解码器 - 解码基本术语,也可以应用于单栈 Transformer 基本术语(如解码基本术语)。他们考虑了亦同测下一个最大限度 token 的基本术语,而不是就地亦同测的基本术语(例如 BERT 里的亦同测现阶段掩蔽 token),因为下一个最大限度关系式不够CE,并且可以举例来说不够多的战斗任务,而不是可用特殊的「CLS」token 和特定于战斗任务的 projection head。

Mixture of Denoisers

科学家普遍性认为,在亦同专业训练在此期间,一个强盛的CE基本术语必需去面对、化解有所不同的原因集。假设亦同专业训练是可用自行政官员完成的,科学家普遍性认为这种多样性不应被流进到基本术语的最大限度里,否则基本术语或许会缺乏某种灵活性,比如融为一体稍短译文分解灵活性。

基于此,以及现阶段的最大限度匹配类型,他们假定了亦同专业训练在此期间可用的三种主要实例:

R-Denoiser,regular denoising 是 Raffel et al. (2019) 引入的规格 span corruption,它可用 2 到 5 个 token 作为 span length,直射了大概 15% 的读取 token。这些 span 不够为稍短,或许更容易基本知识获取(而非自学分解生动的译文)。 S-Denoiser,去则否的一种具体,在相结合 inputs-to-targets 战斗任务时遵守严格的顺序,即 prefix 自然语言相结合。为此,科学家只才可将读取多肽分界为两个 token 子多肽,分别作为句子和最大限度,这样最大限度就不相反于未有来的电子邮件。这与规格 span corruption 有所不同,在规格 span corruption 里,或许普遍存在一段距离比句子 token 不够早的最大限度 token。察觉到,与 Prefix-LM 所设类似,句子(prefix)保持一致了一个双向感所受野。科学家察觉到到,有着不够为稍短的失忆或没有人失忆的 S-Denoising 与规格的因果自然语言相结合的精神是相似的。 X-Denoiser,去则否的一种 extreme 版本,基本术语必需恢复读取的绝大部分。这模拟了基本术语只能为了让有限电子邮件失忆分解稍短最大限度的情况。为此,科学家考虑了举例来说积极去则否的例证,其里大概 50% 的读取多肽被直射。这是通过增大 span 间距和 / 或 corruption 率来发挥作用的。如果亦同专业训练战斗任务 span 稍短(如≥ 12 个 token)或 corruption 率高(如≥ 30%),就普遍性认为该战斗任务是 extreme 的。X-denoising 的想法是作为常规 span corruption 和类似最大限度的自然语言基本术语相互间的平方根而普遍存在。

这组 denoiser 与先前可用的最大限度匹配有很强的直接联系:R-Denoising 是 T5 span corruption 最大限度,S-Denoising 与类 GPT 的因果自然语言基本术语之外,而 X-Denoising 可以将基本术语暴露给来自 T5 和因果 LM 的最大限度的复合。值得察觉到的是,X-denoiser 也被相互连接以提高抽样效率,因为在每个抽样里可以自学到不够多的 token 来亦同测,这与 LM 的理念类似。科学家明确提出以实质上的形式混所有这些战斗任务,并有一个混的自行政官员的最大限度。最终最大限度是混 7 个去则否器,系统设计如下:

对于 X - 和 R-Denoiser,span 间距从均值为 µ 的正态分布里采样。对于 S-denoiser,他们可用光滑分布,将 corrupted span 的数量通常为 1,并且有着额外的也就是说,即 corrupted span 不应在原始读取译文的开篇就此结束,在 corrupted 部分不久不不应出现未有被布料的 token。这大致相当于 seq2seq 去则否或 Prefix LM 亦同专业训练最大限度。

由于 LM 是 Prefix-LM 的一种特殊情况,科学家普遍性认为没有人必要在混里举例来说一个偶然的 LM 战斗任务。所有战斗任务在混里有着大致相同的关注度。科学家还探索了一种替代方案,他们将混系统设计里 S-denoiser 的分量增大到 50%,其余份额由其他 denoiser 提供者。

最后,「混」这一动作使得 Mixture-of-Denoisers 有着不够为强的CE性。单独来看,一些 denoiser 类型展现出不佳。例如,最初的 T5 篇文章探索了一个有着 50% corruption rate 的选项(X-denoising),但发现效果不佳。

UL2 的 Mixture-of-Denoisers 的发挥作用特别之处,可用 seqio3 之类的库很容易发挥作用。

形式而亦同设

科学家引入了通过形式而亦同设来进行实例匹配的术语。在亦同专业训练在此期间,他们为基本术语提供了一个额外的实例 token,即 {[R],[S],[X]},这更容易基本术语亦同设到不够适合给定战斗任务的形式而。对于变更和北岸 few-shot 自学,为了触发基本术语自学不够好的化解方案,科学家还填充了一个关于北岸战斗任务的所设和要求的实例 token。形式而亦同设实际上是将北岸行为默认到上游专业训练里可用的形式而之一上。

流出测试结果

同上 2 显示了在所有基准测试战斗任务和统计数据集上的原始结果。

为了方便有所不同所设相互间的尤其,科学家还给出了 UL2 与已建立的较宽(如 T5 和 GPT 基本术语)的相对尤其,如同上 3 和同上 4 请注意。

适配到 200 亿匹配不久的结果

左图 8 显示了 UL20B 在有所不同战斗任务里与在此之前 SOTA 的对比结果。

苏州看白癜风去什么医院最好
关节疼痛吃什么药最好
汕尾白癜风治疗费用多少钱
甲氨蝶呤和艾得辛哪个好
艾得辛与来氟米特哪个治疗类风湿效果好
标签:
友情链接: