查看原文
其他

曾被嫌弃的预训练任务NSP,做出了优秀的Zero Shot效果

苏剑林 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络


在五花八门的预训练任务设计中,NSP 通常认为是比较糟糕的一种,因为它难度较低,加入到预训练中并没有使下游任务微调时有明显受益,甚至 RoBERTa 的论文显示它会带来负面效果。所以,后续的预训练工作一般有两种选择:一是像 RoBERTa 一样干脆去掉 NSP 任务,二是像 ALBERT 一样想办法提高 NSP 的难度。也就是说,一直以来 NSP 都是比较“让人嫌弃”的。

不过,反转来了,NSP 可能要“翻身”了。最近的一篇论文《NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction》[1](下面简称 NSP-BERT)显示 NSP 居然也可以做到非常不错的 Zero Shot 效果!这又是一个基于模版(Prompt)的 Few/Zero Shot 的经典案例,只不过这一次的主角是 NSP。



背景回顾


曾经我们认为预训练纯粹就是预训练,它只是为下游任务的训练提供更好的初始化,像 BERT 的预训练任务有 MLM (Masked Language Model) 和 NSP (Next Sentence Prediction),在相当长的一段时间内,大家都不关心这两个预训练任务本身,而只是专注于如何通过微调来使得下游任务获得更好的性能。哪怕是 T5 将模型参数训练到了 110 亿,走的依然是“预训练+微调”这一路线。

首先有力地打破我们这个思维定式的,当属去年发布的 GPT3 [2],它显示在足够大的预训练模型下,我们可以设计特定的模版,使得不进行微调就可以起到很好的 Few/Zero Shot 效果。有 GPT 的地方,BERT 从来不会缺席,既然 GPT 可以,那么 BERT 应该也行,这就导致了后来的 PET [3] 工作,它同样构建特别的模版,利用预训练的 MLM 模型来做 Few/Zero Shot,还不了解的读者可以参考《必须要 GPT3 吗?不,BERT 的 MLM 模型也能小样本学习》

自此,“预训练+模版”的工作逐渐增多,现在甚至有“爆发”之势,这系列工作现在大致都统称“Prompt-based Language Models”,随便搜搜就可以找到很多。如今,大家已经形成了一个共识:构建适当的 Prompt,使得下游任务的形式跟预训练任务更贴近,通常能获得更好的效果。所以如何构建 Prompt,便是这系列工作的重点之一,比如 P-tuning [4] 就是其中的经典工作(参考《P-tuning:自动构建模版,释放语言模型潜能》)。



NSP入场


仔细观察一下 Prompt-based 的相关工作就会发现,当前主要的内容都是研究如何更好地利用预训练好的 GPT、MLM 或者 Encoder-Decoder 模型,鲜有关注其余预训练任务的。而 NSP-BERT 这个工作,则充分挖掘了 NSP 任务的潜力,并且启发我们哪怕局限在 Prompt-based,其研究思路还有很大的发散空间。

所谓 NSP 任务,并不是真的去预测下一句,而是给定两个句子,判断这两个句子是否相邻。相应地,NSP-BERT 的思路其实很简单,以分类问题为例,就是把输入视为第一句,然后将每个候选类别添加特定的 Prompt 作为第二句,逐一判断第一句与哪个第二句更加连贯。可以发现 NSP-BERT 思路跟 PET 很相似,其实 Prompt-based 的工作都很容易理解,难的是如何首先想到这样做。

下图演示了 NSP-BERT 做常见的一些 NLU 任务的参考 Prompt 方案,可以看到 NSP-BERT 能做到任务还是不少的:

▲ NSP-BERT 做常见 NLU 任务的一些 Prompt

其实看完这张图,就已经了解了 NSP-BERT 的大部分思想了,论文的其他部分,只不过是对这张图的细节进行展开描述而已。想要深入了解的同学,自行仔细阅读原论文即可。

如果说 NSP-BERT 这个模式,倒不是第一次出现,早前就有人提出用 NLI 模型来做 Zero Shot 的(参考《NLI Models as Zero-Shot Classifiers》[5] ),它的格式跟 NSP 是基本一致的,但需要标签语料有监督地微调,而纯无监督的 NSP 的利用,这还是第一次尝试。



实验效果


有意思的是,对于我们来说,NSP-BERT 是非常“接地气”的良心工作。比如,它是中国人写的,它的实验任务都是中文的(FewCLUE 和 DuEL2.0),并且开源了代码。下面是作者开源地址:

https://github.com/sunyilgdx/NSP-BERT


最重要的是,NSP-BERT 的效果真的不错:

▲ NSP-BERT 的 Zero Shot 效果

▲ 在实体链接任务上的效果


▲ 模型规模对效果的影响

总的来说,看完这些实验结果后,笔者只向对 NSP 说一句“失敬失敬”,这么一位模型界的大佬在面前,但却一直没有意识到,这必须得为 NSP-BERT 的作者的观察力点赞了。



文章小结


本文分享了用 BERT 的预训练任务 NSP 来做 Zero Shot 的一篇论文,论文结果显示用 NSP 来做 Zero Shot 也能做到非常优秀的效果,也许假以时日,NSP 要“崛起”了。



参考文献

[1] https://arxiv.org/abs/2109.03564
[2] https://arxiv.org/abs/2005.14165
[3] https://arxiv.org/abs/2009.07118
[4] https://arxiv.org/abs/2103.10385
[5] https://jaketae.github.io/study/zero-shot-classification/



特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存