凤凰网科技讯(作者/黄若曦)6月14日,第六届“北京智源大会”在中关村展示中心开幕。智源研究院构建了全球首个实时孪生心脏计算模型,可实现高精度的前提下生物时间/仿真时间比小于1。实时心脏计算模型是虚拟心脏科学研究的开端,是孪生心脏走向临床应用的基础。基于这一模型,智源将创新性地采用物理-数据双驱动模型,融合第一性原理和人工智能方法,从亚细胞级、细胞级、器官级、躯干级仿真出一个“透明心脏”,且能根据患者的临床数据,构建出反映患者的个性化生理病理的孪生心脏,从而进行药物筛选、治疗方案优化、术前规划等临床应用。
2024北京智源大会邀请到了图灵奖得主姚期智,OpenAI、meta、DeepMind、斯坦福、UC Berkeley等国际明星机构与技术团队代表,以及百度、零一万物、百川智能、智谱AI、面壁智能等国内主流大模型公司CEO与CTO,汇聚了200余位人工智能顶尖学者和产业专家,围绕人工智能关键技术路径和应用场景展开精彩演讲和尖峰对话。
智源研究院院长王仲远做2024智源研究院进展报告,汇报智源研究院在语言、多模态、具身、生物计算大模型的前沿探索和研究进展以及大模型全栈开源技术基座的迭代升级与版图布局。
王仲远表示,现阶段语言大模型的发展已经具备了通用人工智能非常核心的理解和推理能力,并且形成了一条以语言大模型为核心对齐和映射其他模态的技术路线,从而让模型具备了初步的多模态理解和生成能力。但这并不是让人工智能感知、理解物理世界的终极技术路线,而是应该采取统一模型的范式,实现多模态的输入和输出,让模型具备原生的多模态扩展能力。
针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院(TeleAI)基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型 Tele-FLM-1T。该模型与百亿级的52B版本,千亿级的102B版本共同构成Tele-FLM系列模型。
Tele-FLM系列模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。模型训练全程做到了零调整零重试,算力能效高且模型收敛性和稳定性好。目前,TeleFLM系列模型已经全面开源了52B版本,核心技术(生长技术、最优超参预测)、训练细节(loss曲线、最优超参、数据配比和Grad Norm等)均开源,期望技术开源可以对大模型社区产生有益促进。
在基础模型的性能方面:BPB 显示,英文能力上,Tele-FLM-52B接近Llama3-70B,优于 Llama2-70B和Llama3-8B;中文能力上,Tele-FLM-52B 为开源最强,优于 Llama3-70B 和 Qwen1.5-72B。在对话模型性能方面:AlignBench评测显示,Tele-FLM-Chat(52B)已经达到GPT-4 中文语言能力的96%,总体能力达到GPT-4 的80%。
针对大模型幻觉等问题,智源研究院自主研发了通用语义向量模型BGE(BAAI General Embedding)系列,基于检索增强RAG技术,实现数据之间精准的语义匹配,支持大模型调用外部知识的调用。自2023年8月起,BGE模型系列先后进行了三次迭代,分别在中英文检索、多语言检索、精细化检索三个任务中取得了业内最佳的表现,综合能力显著优于OpenAI、Google、Microsoft、Cohere等机构的同类模型。
行业现有的多模态大模型多为对于不同任务而训练的专用模型,例如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。每类模型都有对应的架构和方法,例如对于视频生成,行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,例如目前Sora还做不到图像和视频的理解。
Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。
为适应智能端侧的应用,智源研究院推出了轻量级图文多模态模型系列 Bunny-3B/4B/8B,该模型系列采用灵活架构,可支持多种视觉编码器和语言基座模型。
在具身智能通用抓取能力方面,针对跨任意形状和材质的泛化难题,智源率先突破95%的真机实验成功率,从而实现了全球领先的商业级动作执行水平。
在分级具身大模型系统方面,智源研发了铰接物体操作大模型系统SAGE。该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识,使大模型驱动的机器人能够在任务执行失败时能够重新思考并再次尝试新的交互方式。
在分级具身大模型系统方面,智源还研发了大模型系统Open6DOR。该系统不仅像谷歌RT系列大模型一样按照自然语言指令中的要求将物体放到指定位置,还能够进一步对物体的姿态进行精细化控制。
在面向技术终局的端到端具身大模型层面,智源发布了全球首个端到端基于视频的多模态具身导航大模型NaVid。该模型可直接将机器人视角的视频和用户的自然语言指令作为输入,端到端输出机器人的移动控制信号。不同于以往的机器人导航技术,NaVid无需建图,也不依赖于深度信息和里程计信息等其它传感器信号,而是完全依靠机器人摄像头采集的单视角RGB视频流,并在只利用合成导航数据进行训练的情况下,通过Sim2Real的方式,实现在真实世界室内场景甚至是室外场景的zero-shot真机泛化。
智源研究院联合领视智远研发了全球首个智能心脏超声机器人,实现了全球首例真人身上的自主心脏超声扫查,可解决心脏B超医生紧缺,诊断准确率不高,标准化欠缺,效率低的难题。基于超声影像和机械臂的受力信息,智能心脏超声机器人可在高速动态环境下,快速计算,提取心脏特征,实现了相当于自动驾驶L2、 L3 级的智能化水平。
为实现通用计算机控制,智源研究院提出了通用计算机控制框架Cradle,让智能体像人一样看屏幕,通过鼠标、键盘完成计算机上的所有任务。Cradle 由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等 6 个模块组成,可进行 “反思过去,总结现在,规划未来”的强大决策推理。不同于业界其他方法,Cradle不依赖任何内部API实现了通用性。
此外,智源研究院,还探索了生成式人工智能应用于分子生物学中的应用。智源研究院研发的全原子生物分子模型OpenComplex 2,是世界领先的大分子结构预测模型,能有效预测蛋白质、RNA、DNA、糖类、小分子等复合物。
OpenComplex 2 是基于全原子建模的生命分子基础模型,科研人员发现不仅可以预测大分子的稳定结构,还初步具备预测分子多构型以及折叠过程的能力。基于这样的能力,生命科学家可以进一步探索蛋白质的生物学功能。目前,智源已和研究伙伴在多项重要疾病上展开了研究,提供成药性和分子机理研究。
为帮助全球开发者一站式启动大模型开发和研究工作,智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0,在1.0的基础上,进一步完善了模型、数据、算法、评测、系统五大版图布局,旨在打造大模型时代的 Linux。
智源研究院推出了面向大模型、支持多种异构算力的智算集群软件栈 FlagOS。FlagOS融合了智源长期深耕的面向多元AI芯片的关键技术,包括异构算力智能调度管理平台九鼎、支持多元AI异构算力的并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems,集群诊断工具FlagDiagnose和AI芯片评测工具FlagPerf。FlagOS如同“操作系统”一样,集异构算力管理、算力自动迁移、并行训练优化、高性能算子于一体。向上支撑大模型训练、推理、评测等重要任务,向下管理底层异构算力、高速网络、分布式存储。
智源研究院发布首个千万级高质量开源指令微调数据集开源项目,首期发布经过验证的300万条中英文指令数据,近期将完成千万条指令数据的开源。
为加速推进大模型技术的产业应用进程,智源研究院构建并开源了IndustryCorpus中英文多行业数据集,包含总计3.4TB预训练数据集,其中中文1TB,英文2.4TB,覆盖18类行业,分类准确率达到80%,未来计划增加到30类。
为验证行业数据集的性能表现,智源训练了医疗行业示范模型,对比继续预训练前的模型,客观性能总体提升了20%,而经过我们制作的医疗SFT数据集和DPO数据集的精调训练,相对参考答案的主观胜率达到82%,5分制多轮对话能力CMTMedQA评分达到4.45。
FlagScale首次在异构集群上实现不同厂商跨节点RDMA直连和多种并行策略的高效混合训练,成为业界首个在多元异构AI芯片上同时支持纵向和横向扩展两阶段增长模式的训练框架。
FlagScale支持语言及多模态模型的稠密及稀疏训练,可实现1M长序列大规模稳定训练和推理;支持基于国产算力的8x16B千亿参数MoE语言大模型1024卡40天以上的稳定训练;支持不同架构的多种芯片合池训练,基于业界领先的异构并行策略,可达到85%以上的混合训练性能上界,与同构芯片的模型训练效果一致;适配8款国内外不同芯片,可在不同集群进行规模训练验证,实现Loss逐位与收敛曲线严格对齐。
为更好地支持多元AI芯片统一生态发展,智源研究院推出了面向大模型的开源Triton算子库,包括首个通用算子库FlagGems和大模型专用算子库FlagAttention,可基于统一开源编程语言,大幅提升算子开发效率,同时,面向多元芯片共享算子库。
目前主流语言和多模态模型需要的127个算子,通用算子库FlagGems已覆盖66个,预计2024年底实现全覆盖。大模型专用算子库FlagAttention,包含6种高频使用的且紧跟算法前沿的最新Attention类算子,为用户提供编程范例,可自定义算子。
Flageval大模型评估自2023年发布以来,已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,采用主观客观结合以及开卷闭卷综合的考察方式,首次联合权威教育部门开展大模型K12学科测验,与中国传媒大学合作共建文生视频模型主观评价体系。智源研究院已与全国10余家高校和机构合作共建评测方法与工具,探索基于AI的辅助评测模型 FlagJudge,打造面向大模型新能力的有挑战的评测集。
智源研究院牵头成立了IEEE大模型评测标准小组P3419,与hugging face社区合作发布多个榜单,并将先进的评测数据以及裁判模型与新加坡IMDA合作,共同贡献到AI Verify Foundation,以促进在大模型评估方法和工具上的国际合作。
在通往AGI的尖峰对话中,智源研究院王仲远,百川智能CEO王小川,智谱AI CEO张鹏,月之暗面CEO杨植麟,面壁智能CEO李大海针对大模型的技术路径依赖与突破、开放生态与封闭研究、商业模式探索等热点话题,展开深度讨论。