今年11月初,华为云盘古大模型的机场广告在首都机场和深圳宝安机场亮相,主打“行业AI开发应用优选”的定位。
如今,大模型不仅成为众多AI行业峰会中被高频讨论的热词,在AI行业之外的影响力也日渐扩大。这些都表明,AI大模型正在加速走出实验室,成为赋能各行各业的通用AI基础设施。
自2020年OpenAI推出NLP大模型GPT3至今,全球范围内AI大模型迎来大爆发,参与企业越来越多,参数级别越来越大,成为新一轮AI竞赛的赛场。目前,大模型吸引了谷歌、微软、英伟达、华为、智源研究院、百度、阿里、商汤、浪潮、中科院自动化所等科技巨头和科研机构参与其中,各家大模型的参数量级也从千亿、万亿,迅速跃迁到了10万亿级别。
大模型百家争鸣的格局背后,AI行业更需要冷思考。
AI大模型应该为应用而生
为什么众多科技巨头扎堆推出大模型?
这要回归到AI落地的核心挑战。国际欧亚科学院院士、华为云人工智能领域首席科学家、IEEE Fellow田奇认为,AI进入千行百业面临很多挑战,其中最重要有三点:第一,AI场景碎片化使得AI技术难以大规模复制。传统的定制化、作坊式的模型开发方式是“一个场景一个模型”,无法复用和积累,导致AI开发的高门槛、高成本。第二,如何将行业知识与AI技术相结合,跨越行业know how与AI技术之间的鸿沟。第三,AI技术一直面临攻击、隐私、安全以及可解释性方面的难题。
AI大模型拥有超大规模参数、巨量训练数据,通过模型的巨量化可以提高人工智能的通用属性,并降低人工智能的应用门槛。正因为直击AI落地的挑战,大模型成为很多AI企业的共识。
那么,AI大模型能带来科学计算的范式革命吗?目前还存在哪些局限?10月底,华为云AI院长峰会汇聚了AI产学研各界的大脑,来自华为的AI科学家与来自中国科学院、中国工程院以及国内30余所高校的数十名院长、教授关于AI大模型的现状和前景进行了专业的探讨。各界大咖普遍认为,目前AI大模型最大挑战在应用落地,如何让更多行业和场景真正用起来。
首先,不是所有场景都需要大模型。大模型在医药研发、卫星遥感、灾害评估、自然生态监测等场景有巨大价值,但一些数据量小、任务并不复杂的场景,并不适合使用大模型,相当于“大炮打蚊子”。
其次,大模型不是参数数量越大越好,如何广泛应用才是最大价值和难点。大模型应用价值取决于其泛化能力,能否快速适配不同场景。
一位AI领域教授认为:“大模型不在于大,而在于能不能解决应用的问题,是不是来自真正的需求。怎么样能够在更广泛的应用场景中用起来,这是目前大模型非常大的挑战。”
“大模型应该是AI走向下一个时代的跳板。大模型的大一定是体现它能够去掌握、组织更大量的数据,而不是模型的参数量大。”一位华为云高级研究员也持同样的观点。
第三,大模型不是万能的,不应该希望一个大模型能解决所有问题。
“如果大模型想要实际用的比较好,一定要有配套的工作流。如果把下游的工作流程给搭建起来,大模型在很多场景上能够得到比较好的应用。”该高级研究员表示。
深入AI落地的无人区
如果说参数的直观对比类似外行看热闹,那么,落地能力才是大模型实力的真正较量。
目前,大模型在落地层面还处在探索的初期,各大科技巨头都在摸索尝试。其中华为云盘古大模型在行业应用方面走得更远,已经在能源、零售、金融、工业、医疗、环境、物流等行业的100多个场景实际应用, 让企业的AI应用开发效率平均提升了90%。
今年4月华为云发布的盘古系列预训练大模型具有超大规模参数、超高精度的特质,还提供模型预训练、微调、部署和迭代的功能,以减少行业侧的数据标注依赖,从而降低人工智能开发的门槛和成本。
华为云盘古系列大模型包括NLP(中文语言)大模型、CV(视觉)大模型、多模态大模型和科学计算大模型。盘古大模型家族还在不断壮大,今年9月华为云新推出盘古药物分子大模型,其研究了17亿个小分子的化学结构,可以高效生成药物新分子,计算蛋白质靶点匹配,预测新分子生化属性,并对筛选后的先导药进行定向优化,实现全流程的AI辅助药物设计。
在众多行业场景中,还存在着大量AI尚未落地的无人区。其中很多场景都有这样的特征:样本复杂多样且不均衡,如果使用传统AI模型标注成本高、效率低、准确率也有待提升。这些场景正是盘古AI大模型的典型应用场景之一。
在电力行业,国网重庆永川公司在智能电力巡检场景用无人机代替人工进行缺陷检测,但面临海量数据标注工作量大和缺陷种类繁多等问题。盘古 CV 大模型利用海量无标注电力数据进行预训练,并结合少量标注样本微调的高效开发模式,提出了针对电力行业的预训练模型。应用之后,样本筛选效率提升约 30 倍,筛选质量提升约 5 倍,以永川每天采集 5 万张高清图片为例,可节省人工标注时间 170 人天。
同时,结合华为云盘古大模型搭载的自动数据增广以及类别自适应损失函数优化策略,可以做到一个模型适配上百种缺陷,一个模型就可以替代永川原先的 20 多个小模型,极大地减少了模型维护成本,平均精度提升 18.4%,模型开发成本降低 90%。
在生态监测方面,华为云盘古科学计算大模型实现了对全球海浪浪高的实时预测,在精度和覆盖范围与传统科学计算相当的基础上,将预测速度提升到了原来的10,000倍。
在时尚产业,华为云盘古多模态大模型强大的跨模态检索、跨模态生成能力,不断延伸AI的创造力。通过以文搜图和以图搜文能力,可以实现趋势预测。通过以文生图和以图生图能力,盘古多模态大模型可以通过文本控制来快速生成服装图片,供人类设计师参考。
优秀的泛化能力是如何炼成的?
当大模型普遍受困于落地难题,为什么盘古大模型率先做到了广泛应用?这离不开其开发过程中首次采用的众多技术。
比如,盘古大模型首次在对比度自监督学习中引入了样本相似性,使得小样本学习的能力获得了显著提升。盘古 CV 大模型是判别与生成联合预训练的模型,其小样本学习性能在 10% 的标签分类上精度达到了业界第一。盘古大模型首创采用“阶段式训练”和“动态冰化”策略,显著提升大模型训练的稳定性和效率;在下游应用中,仅需少量样本和学习参数即可完成千亿规模大模型的快速微调和下游适配等等。
作为盘古大模型的“设计师”,田奇此前曾表示,盘古大模型设计之初秉持了三个核心原则:“第一,网络规模要大;第二,模型大但不能臃肿,有强壮的网络架构,希望它是百米冠军,综合性能提升10%以上;第三,希望它有优秀的泛化能力,也就是场景覆盖率要高。”
之所以坚持这样的技术路线,源自盘古大模型的初衷:让AI开发由作坊式向工业式转变,降低行业AI开发应用门槛,让大模型真正走进千行百业,不再只是大资本和大实验室的专属。在AI走向千行百业过程中,华为云盘古大模型在行业落地方面快人一步,能够帮助行业专家快速掌握AI技能。
“华为云AI的目标就是持续创新,打造人工智能黑土地,使能大规模、可复制的AI行业应用。”田奇表示。(东方网)
声明:本文为广告信息,不代表本站观点。如有违规或侵权,请联系我们。