大模型2.0时代的优化与突破
作者
车行运
大模型可以让无人驾驶更智能
(资料图)
今年6月份,各大厂商纷纷升级自家的类ChatGPT产品。6月9日,讯飞推出星火认知大模型升级版;6月13日,360在发布类ChatGPT产品之后,再次举行360智脑大模型应用发布会。
与2月左右发布的大模型不同,近期各家公司发布的升级版产品,更偏向应用层目的是更容易走向千家万户。
从目前发布的情况来看,360智脑已初步具备跨模态⽣成能⼒,除了可以完成文字生成文字、表格、图片;图片生成文字、图片,以及视频生成文本,文本剪视频等基础创作之外,还重新定义“数字人”,给用户一种“有灵魂、有⼈设、有记忆”可定制的专属“人工智能”。
目前360智脑与用户距离最近的应用场景,是360现有的全家桶,周鸿祎在发布会表示,“360智脑4.0”会接入360安全卫⼠、360浏览器、360搜索等,试图重塑人机协作。
在发布会上,周鸿祎更改了此前观点,“我曾经说过,国产大模型与ChatGPT之间的差距是两年,现在我想收回这句话。”随后补充最新观点,认为目前国产大模型的水平与GPT3.5大打平,照此速度发展,追赶甚至超过GPT4将在转瞬之间。
从发布初始版本至正式发布360智脑的四个月内,周鸿祎看到了会有如此巨大的转变?
科技大厂围猎大模型
在2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示,当前,中国人工智能大模型正呈现蓬勃发展态势。据不完全统计,截至目前,参数在10亿规模以上的大模型全国已发布了79个。
而科技大厂的大模型参数量较大:阿里通义千问大模型参数在10万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在2千亿级以上、京东言犀大模型的参数量为千亿级;垂直行业科技企业已经上线的参数量普遍在千亿级以上;而科研院校大模型的参数量在千亿级及以下。
从大模型的布局体系来看,科技大厂在算力层、平台层、模型层、应用层进行了四位一体的全面布局。百度、阿里、华为三家均从芯片到应用进行自主研发的全面布局,如百度的“昆仑芯+飞桨平台+文心大模型+行业应用”、阿里的“含光800芯片+M6-OFA底座+通义大模型+行业应用”、华为的“昇腾芯片+MindSpore框架+盘古大模型+行业应用”。
此外金山办公5月31日还发布了WPS AI,目前,WPSAI已接入金山办公旗下办公组件轻文档、文字、表格、演示、PDF,未来将锚定AIGC、阅读理解和问答、人机交互三个战略方向发展,并接入金山办公全线产品。
各家大厂迅速涌入这个赛道,主要是因为监管层迅速跟进出台措施规范行业发展,有顶层架构保驾护航,各家大厂自然可以放心投入研发,并推出产品。
自今年3月大模型批量上线以来,AI监管政策逐渐明晰,这也给行业应用指明了方向。
回顾整个行业发展历程,4月11日,《生成式人工智能服务管理方法》征求意见稿发布;5 月 30 日,信通院正在联合编制“纸鸢”开放人工智能模型许可证,下一步将发布《纸鸢开放人工智能模型许可证(征求意见稿)》。
随后,一线城市配合发布了《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023-2025 年)》;《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023-2024 年)》。
在此背景下,周鸿祎认为国产大模型将会迅速缩小和ChatGPT的差距,似乎也好理解了。
360智脑有何不同
按照周鸿祎的规划,360大模型将在持续升级大模型的基础上,兼顾场景化、产品化、平⺠化、垂直化。
这种发展战略下,360智脑可以实现对消费者(⽤户个⼈AI助理)、中⼩微企业(SaaS化垂直应⽤)、企业/政府/城市(私有化部署⼤模型)、⾏业(⾏业垂直⼤模型)等四个主要应用场景的覆盖。
上述四种不同场景的应用,主要通过其他公司在360大模型API基础上,结合不同行业需求推出特定产品。现阶段,很多部门、企业内部拥有大量独占性IP,如果将其统统放到一个公开大模型中,就会重现三星因GPT泄露芯片机密的事件,这就凸显了专有类GPT产品的重要性。
想要更好满足上述不同场景的需求,通用大模型需要在现有基础上,完成从输入文字输出文字,到看懂图像、视频,并能产出图像、视频的转变,相当于让大模型具备了“耳朵”和“眼睛”,为创建“数字人”打下基础。
传统数字人只需要按照既定脚本输出,但在大模型时代,360的数字人可定制,因此⼈设、有记忆、有经历,目前在360数字⼈⼴场平台中,已经有200多个⻆⾊,分为数字名⼈和数字员⼯两个种类。360希望未来可以让每个⼈都有自己的AI助理,并有机会在虚拟空间内,跨越时空,和古人交流。
在演示会上,周鸿祎问“诸葛亮”怎么看今天成为鬼畜素材,数字人以诸葛亮的口吻回复:夫古今之命,乃实事所必然也。今之时势,天下纷扰不已。吾虽已老,仍志在天下。今者年轻人以吾为鬼畜素材,吾欣然接受此变化。并祝愿年轻朋友在未来的道路上勇往直前,开创更加美好的未来。
同时周鸿祎还强调,未来数字人的形态还会有⾃⼰的⽬标、规划和分解的能⼒,从而可以调⽤各种垂直的模型完成任务。
不过这些功能其实都是在现有大模型应用基础上的优化,并没有开辟一个全新的领域。但实际上,当大模型取得突破后,最具创造性的应用场景是无人驾驶。
无人驾驶有机会驶入快车道
回顾无人驾驶领域,自从2016年开始,各大厂商都在布局这个领域,但是直到今年也没有一家可以实现真正的无人驾驶。
目前一辆L2+级别的无人驾驶系统需要10+颗摄像头;1-2颗激光雷达;或3-5颗毫米波雷达提供的多维度数据,人工标注数据之后才能用于模型的训练。在可识别影像的大模型出现之后,人工标注所需要的时间成本和物质支出将会骤然下降。
据2023年4月毫末智行DriveGPT发布会显示,目前要得到对诸如车道线、交通参与者、红绿灯等信息,行业人工标注的成本约每张图为5元,毫末DriveGPT的成本为0.5元。我们认为科技公司大模型训练成熟后,单张图自动标注的边际成本趋近于0,平均成本有望进一步下降。
据恺望数据产品项目副总裁张鹏在2023年2月的介绍,目前数据标注以人工标注为主,机器标注为辅,95%的数据标注还是以人工为主。大模型的介入,可以极大地提升这个行业的效率。以特斯拉为例,2021年人工标注团队为1000多人,2022年该团队裁员200余人。
除此之外,大模型时代,第三方科技巨头有望通过提供完善的工具链,帮助整车厂构建自己的自动驾驶算法和数据闭环系统,同时依靠大模型的数据生成能力缩小在数据领域的差距,自动驾驶的安卓时代有望来临。
目前,大模型已经被用于赋能数据闭环、仿真、感知算法、规控算法等领域。而巨头如微软、英伟达在大模型和自动驾驶争相布局,或将擦出新的火花。
此外大模型的出现也促进行业分工,避免“重复造轮子”,同时加速传感器和芯片迭代,系统成本有望大幅下降。大模型开发者和自动驾驶产业链玩家有望全面受益。
以百度Apollo为例,其首先利用图文信息预训练一个原始模型,利用算法将街景图像数据进行物体识别并定位和分割,放入编码器形成底库,即基于街景建立一个图片和文字信息对应的数据池。
其次可以通过文本、图像等形式对特定的场景(如快递车、轮椅、小孩等)进行搜索和挖掘,对车端模型进行定制化的训练,大幅提升存量数据的利用效果。
百度用半监督方法,充分利用2D和3D数据训练一个感知大模型。通过在多个环节对小模型进行蒸馏,提升小模型的性能,同时通过自动标注给小模型定制化的训练,用来增强远距离视觉3D感知能力、提升多模态感知模型的感知效果。
另一家头部玩家商汤科技也曾公开表示,可以用AIGC生成真实的交通场景以及困难样本来训练自动驾驶系统,以多模态数据作为大模型的输入,提升系统对Cornercase场景的感知能力上限。
同时自动驾驶多模态大模型可做到感知决策一体化集成,在输出端通过环境解码器可对3D环境进行重建,实现环境可视化理解;行为解码器可生成完整的路径规划;动机解码器可用自然语言对推理过程进行描述,使自动驾驶系统变得更加安全可靠。
大模型实现上述功能后,未来无人驾驶门槛会越来越低,头部厂商加速无人驾驶项目进程的同时,还可以让更多新玩家加入这个领域,并开拓除道路导航外,需要道路规划功能的赛道,比如进一步优化扫地机器人的路径规划。
现在看,在经历二月至三月的大模型集中发布期、四月至五月的产品研发期和政策方向逐步明确后,六月已经进入AI大模型产品和应用有望迎来集中发布期,这也直接导致OpenAIAPI降价。
在可预期的未来,AI技术仍然在持续迭代,应用也在持续推进,同时越来越多科技大厂推出产品切入这个赛道,还将继续助推行业景气度上升,并给用户带来更贴合市场需求的类GPT产品,比如拥有庞大用户群的腾讯6月19日也发布了大模型领域的技术方案。
当这些从业企业一起卷的时候,行业发展进入快车道的同时,也意味着C端用户将会很快就能用上这个产品,至于会为谁付款,就需要各家厂商自凭本事了。
© THE END
本文仅作为分享学习使用,不构成任何投资建议。
本文由贝克街探案官原创,未经许可,请勿转载。
标签: