阿里达摩院发布超大规模语言模型PLUG,中文版GPT-3来了

在2020年7月3日第三届AI开发者大会的时候,阿里巴巴副总裁、达摩院语言实验室首席科学家、ACM杰出科学家,司罗在《为商业搭建语言桥梁》的演讲中介绍了NLP的技术发展以及阿里在该领域的落地实践。

他总结了NLP技术今年的飞速发展有三个趋势:

  • 深度语言模型的发展,引领很多自然语言技术和应用都取得了非常快的进步;
  • 越来越多的传统公有云服务技术从通用功能走向更多定制化服务,提供更精准、准确的服务;
  • 自然语言商业化的途径,一定是于行业和场景紧密结合,只有这样才能更大发挥自然语言技术的商业价值。

2018年谷歌的BEPT横空出世以来,预训练语言模型一跃成为自然语言处理领域的研究热点,海量数据和大规模模型的预训练+少量下游任务数据微调成为了NLP任务的新范式。

在本月,阿里巴巴达摩院发布中文社区最大规模预训练语言模型PLUG(Pre-training for Language Understanding and Generation),该模型参数规模达到270亿,集语言理解与生成能力与一身。可以应用在小说创作、诗歌生成、智能问题问答长文本生成。发布之后直接刷新了中文语言理解评测基准CLUE分类榜单历史记录。

下面我们看看是如何生成的:

小说续写:

输入:话说宝玉和凤姐回家,见过众人,宝玉便回明贾母要约秦钟上家塾之事,自己也有个伴读的朋友,正好发愤;又着实称赞秦钟人品行事,最是可人怜爱的。凤姐又在一旁帮着说:“改日秦钟还来拜见老祖宗呢。”说的贾母喜欢起来。凤姐又趁势请贾母一同过去看戏。贾母虽年高,

输出:但身上还有几分力气,便命凤姐陪她看戏。贾母一个劲儿地让出一条道来,凤姐便陪他到一边。不想戏刚刚上场,只见从人堆里,挤出两个老人来,都是身着绸衣,头上扎着两根簪儿,后面跟着两个老人。贾母一眼便认出来,这便是邢岫烟。这邢岫烟原是贾环的外孙女婿,邢夫人的外孙宝玉看了,也不觉得诧异。一时,那邢岫烟和贾环一干人等,就围着贾母、凤姐、秦钟等。一时,邢岫烟又叫:邢夫人来。贾环等不胜其扰,一时都来到邢夫人的房门口。只见邢夫人正站在窗口,向窗内张望。邢岫烟便向邢夫人笑道:邢二婶子,你看这窗户这么大,难道窗子不是贾环等听见,都来看戏。只见邢夫人也在一旁,忙向邢夫人打听起邢岫烟的来历来。邢夫人听见贾环在此,忙向邢岫烟说道:邢夫人,你也在这里看戏。邢岫烟听说,忙向邢夫人道:邢二婶子,你来得正好,正好可以问问你。邢二婶子,你可认得他么?邢夫人道:认得。邢夫人笑道:你认得他吗?

论文撰写:

输入:目标检测是计算机视觉的一个重要研究方向,其目的是精确识别给定图像中特定目标物体的类别和位置。近年来,

输出:视觉技术已经成为计算机视觉领域中研究热点,视觉智能的发展将对传感方式、感知技术、图像处理技术、自然语言处理等方面产生深刻影响。视觉传感器在工业生产、军事领域中的应用已越来越广泛。但是我们在实际生产中经常遇到一些难题,例如传感器的检测难题,传感器的校准难题,传感器的应用领域不明确,传感器的性能评估不一致等等,这些都是传感器在工业生产中实际应用中遇到的难题。

生活解答:

输入:孩子学习成绩差怎么办?

输出:作为家长,我们对孩子学习成绩的关注度不仅仅是指孩子学习成绩,还包括孩子的学习状态、学习方法和学习习惯,如果孩子的学习成绩不是特别理想,我们是不是首先要帮助孩子找到原因?对孩子心理学的学习成绩,很多家长都说不好,有的父母会说我的孩子怎么这么笨,我的孩子都这么笨,我这么努力就是为了他学习。其实,孩子心理的学习成绩的好坏不仅是学习的效率,还有学习的能力。孩子从小学习的是他人对他的期望,他要有更好的人生,这样他的心理就会健康和谐,家长能够给孩子更多的关注,才会有更好的发展。

古诗生成

输入:寒随穷律变,春逐鸟声开。初风飘带柳,

输出:风至一枝春。含情春草绿,带笑暮花红。春日野田行,风烟寒树迥。清明带雨过,谷雨烧畲烟。农事一年最,家家插秧忙。田间地头水,桑下屋后苗。

零样本学习

除此之外,PLUG模型在零样本fine-tune的情况下也能完成多种类型的下游任务,包括分类任务、自然语言推理任务等,示例如下(下面样本来自中文CLUE榜单的OCNLI-中文推理数据集):

输入:他以身殉职,终年59岁。他是在今年去世的。这两句话什么关系:中立。实施更大规模的减税。即将实行减税。这两句话什么关系:包含。

实施更大规模的减税,即将缩小减税规模。这两句话什么关系:对立。

州立大学,到那读博士去了。州立大学没有博士点。这两句话什么关系:

输出:对立

输入:他以身殉职,终年59岁。他是在今年去世的。这两句话什么关系:中立。

实施更大规模的减税。即将实行减税。这两句话什么关系:包含。

实施更大规模的减税,即将缩小减税规模。这两句话什么关系:对立。

州立大学,到那读博士去了。有人到州立大学读博士。这两句话什么关系:包含。

州立大学,到那读博士去了。州立大学很受欢迎。这两句话什么关系:中立。

扎实推进乡村建设。乡村需要建设。这两句话什么关系:

输出:包含

PLUG的独特优势

PLUG是目前中文社区最大规模的纯文本预训练语言模型;

PLUG集语言理解与生成能力与一身,在语言理解NLU任务上,以80.614分刷新了Chinese GLUE分类榜单的新纪录第一名,在语言生成(NLG)任务上,在多项业务数据上较为State-of-the-art平均提升8%以上。

PLUG可为目标任务做针对性优化,通过利用下游训练数据finetune模型使其在该特定任务上生成质量达到最优,弥补之前它大规模生产模型few-shot inference的生成小伙不足,适用于应用在实际生成任务。

其次就是采用了大规模中文训练数据。从上面的例子当中我们也可以看到,不管是多样性还是领域广泛程度都非常高。

并且PLUG开放了体验功能让大家在学术领域试用。

排名仅次于人了,PLUG生成模型有着很强的长文本生成和建模能力,相比于GPT系列模型的单向建模,PLUG对输入的理解是双向建模的,因此能够在给定小段输入的条件下,生成和输入内容相关且信息量丰富的长文本。

接下来,PLUG将扩大参数规模至2000亿级,并进一步提升文本生成质量。与PLUG发布同步,达摩院宣布近期将开源阿里巴巴深度语言模型体系大部分重要模型。阿里达摩院语言技术实验室负责人司罗表示,“达摩院NLP团队将进一步攻克自然语言处理领域科研难题,完善中文及跨语言人工智能基础设施,让AI没有难懂的语言,并探索通用人工智能之路。”

在超大规模预训练模型领域,除发布以中文为核心的PLUG外,阿里达摩院、阿里云计算平台团队还联合智源研究院、清华大学发布了面向认知的超大规模新型预训练模型“文汇”,以及联合清华大学发布了超大规模多模态预训练模型“M6”。

举报
评论 0