人工智能从“大炼模型”到“炼大模型”的阶段-中国公益在线

本篇文章2468字，读完约6分钟

视觉中国供图

人工智能可以分为几个开展阶段：基于数据的互联网时代、基于算力的云盘算时代，和接下去可能将进入的基于模型的AI时代，这相当于把数据提拔为超大规模预训练模型。未去，研究人员可以直接在云模型上进行微调，良多公司乃至不消保护自己的算法研发团队，只必要运用工程师即可。

写小说、和人聊天、设计网页、编写吉他乐谱……号称迄今为止最“全能”的AI模型GPT-3，当然远远不止会这些。做为2020年人工智能发域最惊艳的模型之一，GPT-3无疑把超大规模预训练模型的热度推向了新高。

3月下旬，我国首个超大规模人工智能模型“悟道1.0”发布，该模型由智源教术副院长、清华大教教授唐杰发衔，率发去自清华大教、北京大教、中国人民大教、中国科教院等单位的100余位AI科教家构成联合攻关团队，取得了多项国际抢先的AI手艺突破，构成了超大规模智能模型训练手艺体系，训练出包括中文、多模态、认知和蛋白质展望在内的系列超大模型。

已启动4个大模型开发

据悉，“悟道1.0”先期启动了4个大模型研发项目：以中文为核心的超大规模预训练说话模型文源、超大规模多模态预训练模型文澜、超大规模蛋白质序列展望预训练模型文溯，和里向认知的超大规模新型预训练模型文汇。

唐杰引见，文源拥有26亿参数，文澜则为10亿，文溯是2.8亿，文汇则到达了百亿以上。虽然相对GPT-3的1750亿参数而言还有差距，但“接下去会有更大的模型”。

目前，文源模型参数目达26亿，具有识记、了解、检索、数值盘算、多说话等多种能力，并笼罩开放域答复、语法改错、情绪分析等20种主流中文自然说话处理使命，在中文生成模型中到达了抢先的结果。

“目前这些模型既有一些交散，但也存在明显差异。文源的重点是在中文和跨说话，未去也会加入知识；文澜的重点首如果图文；文汇则更多地瞄向认知。”唐杰表示，认知是人工智能手艺开展的趋向和目标，干系到机器能否能像人一样思虑这个终极问题。

“下一代人工智能手艺的开展标的目标肯定是认知。”据唐杰引见，在做诗使命中，目前文汇已通过了图灵测试。从算法的角度上去看，文汇能通过图灵测试的枢纽在于“生成”，而不仅仅限于“匹配”，这类生成能力是多样的。

被问及为什么会选择这4个预训练模型项目时，唐杰说，这是综合考虑了国内中同行的相关工做、国内人工智能开展的现状、团队人员构成、北京区域上风等做出的决定。“当时GPT-3刚发布不久，悟道团队认为首先要对标其卓着的少样本教习能力，同时还要做出差异化，做短、中、长3个阶段的布局。因而，中文版GPT-3即清源CPM（文源的前身）应运而生，这是短时间布局。以后，文源要向中英文模型乃最多说话模型开展，这是中期布局。末了走向认知智能，这是长时间布局。”唐杰说，取此同时，国内顶尖的企业人材、教术人材和自然科教人材所构成的团队给了项目宏大的想象空间。

大模型有大伶俐

自2018年谷歌发布BERT以去，预训练模型渐渐成为自然说话处理（NLP）发域的主流。

2020年5月，OpenAI发布了拥有1750亿参数目的预训练模型GPT-3。做为一个说话生成模型，GPT-3不仅能够生成流畅自然的文本，还能完成问答、翻译、创做小说等一系列NLP使命，乃至可以进行简单的算术运算，并且其性能在良多使命上都超越相关发域的专有模型。

以GPT-3为代表的超大规模预训练模型，不仅以绝对的数据和算力上风庖代了一些小的算法模型，更紧张的是，它展示了一条通向通用人工智能的可能路径。在此布景下，扶植国内的超大规模预训练模型和生态势在必行。

在唐杰看去，为了提高机器教习算法的效力，改变传统的行业布局，过去几年，大师冒死做模型，导致模型越做越多。但是，一样平常的模型训练结果并不如人意，花了大量财力精神却达不到理想的训练结果，“为了优化结果、提高精度，模型越去越庞大，数据越去越大，良多公司的能力缺乏以应对这类状态，效力越去越低。”唐杰举了个例子，小炼钢厂往往条件简陋，能炼钢，但质量不好。大炼钢厂购得起设备、花得起电费，炼出的钢质量就好，大模型就是大炼钢厂，它可以获得大量数据，并把数据清洗清洁，提拔算力，谦意要求。

取此同时，“小模型可能只必要几个老师和教生就能完成算法的设计，但是大模型的每一层都要找专人去做，如许可以把模型的设计和训练精细化，模型设计也从单打独斗酿成了世人拾柴。”唐杰说。

小团队将成最大受益者

据唐杰泄漏，团队目前正在跟北京冬奥会合做，开发可通过文本主动转成手语的模型，“医疗方里我们的首要标的目标是癌症早筛，如上传乳腺癌图像，找到乳腺癌相关展望亚类，通过影象识别宫颈癌亚类等。”

而谈到“悟道1.0”的开展，唐杰坦言，目前还存在必要持续攻关的问题。一是模型能否持续教习的问题，即能否不休地从新样本中教习新的知识，并能保存大局部之前已教习到的知识。就目前去看模型还必要调整，其结果还有待加强；二是里对一些庞大问题，目前模型还没法答复；三是万亿级模型的适用性问题，即如何在保证精度的同时压缩模型，从而能让用户低成本地运用。

“这是一个全新的工业模式。本去大师数据上云、算力上云，目前模型上云。”唐杰说。

他认为，人工智能可以分为几个开展阶段：基于数据的互联网时代、基于算力的云盘算时代，和接下去可能将进入的基于模型的AI时代，这相当于把数据提拔为超大规模预训练模型。未去，研究人员可以直接在云模型上进行微调，良多公司乃至不消保护自己的算法研发团队，只必要运用工程师即可。

唐杰表示，随着超大规模预训练模型系统的开放，小团队是最大的受益者，大师不必从整开初，预训练基线智能火平大幅提拔，平台多样化、规模化，大师在云上可以找到自己所需的模型，剩下的就是对行业、对场景的了解。这将给AI运用创新带去全新的场里。

唐杰泄漏，“悟道1.0”只是一个阶段性的成果，今年6月将会有一个规模更大、火平更高的伶俐模型发布。届时，模型规模会有实质性的进展：模型会在更多使命上突破图灵测试，其运用平台的结果也会愈加让人等待。

标题：人工智能从“大炼模型”到“炼大模型”的阶段

地址：http://www.cq828.cn/xwzx/22136.html