曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

原创苏剑林 PaperWeekly 2022-07-04

收录于合集

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在五花八门的预训练任务设计中，NSP 通常认为是比较糟糕的一种，因为它难度较低，加入到预训练中并没有使下游任务微调时有明显受益，甚至 RoBERTa 的论文显示它会带来负面效果。所以，后续的预训练工作一般有两种选择：一是像 RoBERTa 一样干脆去掉 NSP 任务，二是像 ALBERT 一样想办法提高 NSP 的难度。也就是说，一直以来 NSP 都是比较“让人嫌弃”的。

不过，反转来了，NSP 可能要“翻身”了。最近的一篇论文《NSP-BERT: A Prompt-based Zero-Shot Learner Through an Original Pre-training Task--Next Sentence Prediction》[1]（下面简称 NSP-BERT）显示 NSP 居然也可以做到非常不错的 Zero Shot 效果！这又是一个基于模版（Prompt）的 Few/Zero Shot 的经典案例，只不过这一次的主角是 NSP。

背景回顾

曾经我们认为预训练纯粹就是预训练，它只是为下游任务的训练提供更好的初始化，像 BERT 的预训练任务有 MLM (Masked Language Model) 和 NSP (Next Sentence Prediction)，在相当长的一段时间内，大家都不关心这两个预训练任务本身，而只是专注于如何通过微调来使得下游任务获得更好的性能。哪怕是 T5 将模型参数训练到了 110 亿，走的依然是“预训练+微调”这一路线。

首先有力地打破我们这个思维定式的，当属去年发布的 GPT3 [2]，它显示在足够大的预训练模型下，我们可以设计特定的模版，使得不进行微调就可以起到很好的 Few/Zero Shot 效果。有 GPT 的地方，BERT 从来不会缺席，既然 GPT 可以，那么 BERT 应该也行，这就导致了后来的 PET [3] 工作，它同样构建特别的模版，利用预训练的 MLM 模型来做 Few/Zero Shot，还不了解的读者可以参考《必须要 GPT3 吗？不，BERT 的 MLM 模型也能小样本学习》。

自此，“预训练+模版”的工作逐渐增多，现在甚至有“爆发”之势，这系列工作现在大致都统称“Prompt-based Language Models”，随便搜搜就可以找到很多。如今，大家已经形成了一个共识：构建适当的 Prompt，使得下游任务的形式跟预训练任务更贴近，通常能获得更好的效果。所以如何构建 Prompt，便是这系列工作的重点之一，比如 P-tuning [4] 就是其中的经典工作（参考《P-tuning：自动构建模版，释放语言模型潜能》）。

NSP入场

仔细观察一下 Prompt-based 的相关工作就会发现，当前主要的内容都是研究如何更好地利用预训练好的 GPT、MLM 或者 Encoder-Decoder 模型，鲜有关注其余预训练任务的。而 NSP-BERT 这个工作，则充分挖掘了 NSP 任务的潜力，并且启发我们哪怕局限在 Prompt-based，其研究思路还有很大的发散空间。

所谓 NSP 任务，并不是真的去预测下一句，而是给定两个句子，判断这两个句子是否相邻。相应地，NSP-BERT 的思路其实很简单，以分类问题为例，就是把输入视为第一句，然后将每个候选类别添加特定的 Prompt 作为第二句，逐一判断第一句与哪个第二句更加连贯。可以发现 NSP-BERT 思路跟 PET 很相似，其实 Prompt-based 的工作都很容易理解，难的是如何首先想到这样做。

下图演示了 NSP-BERT 做常见的一些 NLU 任务的参考 Prompt 方案，可以看到 NSP-BERT 能做到任务还是不少的：

▲ NSP-BERT 做常见 NLU 任务的一些 Prompt

其实看完这张图，就已经了解了 NSP-BERT 的大部分思想了，论文的其他部分，只不过是对这张图的细节进行展开描述而已。想要深入了解的同学，自行仔细阅读原论文即可。

如果说 NSP-BERT 这个模式，倒不是第一次出现，早前就有人提出用 NLI 模型来做 Zero Shot 的（参考《NLI Models as Zero-Shot Classifiers》[5] ），它的格式跟 NSP 是基本一致的，但需要标签语料有监督地微调，而纯无监督的 NSP 的利用，这还是第一次尝试。

实验效果

有意思的是，对于我们来说，NSP-BERT 是非常“接地气”的良心工作。比如，它是中国人写的，它的实验任务都是中文的（FewCLUE 和 DuEL2.0），并且开源了代码。下面是作者开源地址：

https://github.com/sunyilgdx/NSP-BERT

最重要的是，NSP-BERT 的效果真的不错：

▲ NSP-BERT 的 Zero Shot 效果

▲ 在实体链接任务上的效果

▲ 模型规模对效果的影响

总的来说，看完这些实验结果后，笔者只向对 NSP 说一句“失敬失敬”，这么一位模型界的大佬在面前，但却一直没有意识到，这必须得为 NSP-BERT 的作者的观察力点赞了。

文章小结

本文分享了用 BERT 的预训练任务 NSP 来做 Zero Shot 的一篇论文，论文结果显示用 NSP 来做 Zero Shot 也能做到非常优秀的效果，也许假以时日，NSP 要“崛起”了。

参考文献

[1] https://arxiv.org/abs/2109.03564

[2] https://arxiv.org/abs/2005.14165

[3] https://arxiv.org/abs/2009.07118

[4] https://arxiv.org/abs/2103.10385

[5] https://jaketae.github.io/study/zero-shot-classification/

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

背景回顾

NSP入场

实验效果

文章小结

本文分享了用 BERT 的预训练任务 NSP 来做 Zero Shot 的一篇论文，论文结果显示用 NSP 来做 Zero Shot 也能做到非常优秀的效果，也许假以时日，NSP 要“崛起”了。

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

曾被嫌弃的预训练任务NSP，做出了优秀的Zero Shot效果

背景回顾

NSP入场

实验效果

文章小结

本文分享了用 BERT 的预训练任务 NSP 来做 Zero Shot 的一篇论文，论文结果显示用 NSP 来做 Zero Shot 也能做到非常优秀的效果，也许假以时日，NSP 要“崛起”了。

您可能也对以下帖子感兴趣