文章版权归极客邦科技InfoQ所有,未经许可不得转载。
作者:李冬梅
9 月 4 日,由 PPIO 派欧云主办的“Power to Pioneers·2024 分布式云计算论坛”在上海召开。论坛聚焦于分布式云计算的技术创新、产业落地、市场趋势,及其对 AIGC 规模化应用的推动力。期间,PPIO 推出全新的 Serverless 和模型 API 服务产品,进一步完善派欧算力云产品矩阵,标志着 PPIO 的分布式云服务从边缘云延伸到 AI 基础设施,将为 AIGC 创新企业和开发者带来更高性价比、弹性、易用的一站式 AI 基础设施产品和服务。
PPIO 派欧云联合创始人、董事长兼 CEO 姚欣在主题演讲中指出:“遵循尺度定律的基本原理,计算能力将决定大模型创新和应用的上限。在计算资源成本高昂而需求爆增的市场格局下,分布式算力将成为引领下一轮科技革命的重要推动力,正在逐步改变全球计算资源的供给和利用方式。我们的核心理念是利用分布式云的优势,三年实现千倍降本,以算力普惠推动 AI 普惠,助力新时代的开拓者创造出全新的发展机遇。”
PPIO 派欧云由 PPTV 创始⼈、前蓝驰创投投资合伙⼈姚欣和前 PPTV⾸席架构师王闻宇于 2018 年联合创⽴,致⼒于为⼈⼯智能、⾳视频、元宇宙等新⼀代场景,以更低成本提供更快速、更灵活的⼀站式算⼒、模型及边缘计算服务。
2019 年,PPIO 派欧云推出了“派欧边缘云”产品,采⽤去中⼼化的商业模式,整合分散在全球不同地点的计算资源,结合分布式计算和边缘云原⽣技术,在⽹络边缘侧基础设施建构了覆盖全球的⾼质量边缘云计算服务⽹络,实现了与传统中⼼云的智能兼容和协同。
经过五年的沉淀,PPIO 派欧云推出了全新的 AI 基础设施产品“派欧算⼒云”,依托分布式计算、云原⽣、推理加速等创新技术,汇集⼤模型 API 服务、Serverless、GPU 容器实例等产品,释放推理计算潜能,为不同发展阶段的企业、开发者和研究者提供⾼性价⽐、弹性、易⽤的⼀站式 AI 云服务。
大模型落地对算力的需求与日俱增
大模型以其庞大的参数规模和复杂的网络结构著称,这直接导致了训练过程中的算力消耗巨大。即便是最先进的 GPU 集群,在训练一些超大规模模型时也需要数月甚至更长时间。此外,为了不断提升模型的准确性和泛化能力,持续的优化和微调工作同样需要强大的算力支持。
在第一批、第二批大模型通过备案逐步落地应用之后,不同场景中的大模型对算力资源需求的急剧增长的同时,对算力需求的形式也呈现出多样化特点。例如,像自动驾驶这种对实时性要求高的应用场景需要低延迟、高并发的算力支持;而数据分析类应用则更注重大规模数据处理能力和长期稳定的算力供给。
无论是推理、训练、优化、微调以及落地后,大模型对算力的需求都是有增无减的。为了应对这一挑战,需要高性能的硬件支持,如高性能的 GPU、TPU 等,这些硬件能够提供强大的并行计算能力,满足大模型的计算需求。
然而,光在硬件上下功夫还远远不够,高性能计算和分布式计算技术也正在被广泛应用于大模型的推理和训练和落地应用实践中,这也导致了分布式云计算的热度不断攀升。
一直以来,算力作为支撑各类应用与创新的基石,其演进历程始终遵循着两条并行不悖的主线。一方面,单机算力的提升长期遵循着摩尔定律的轨迹,即每 18 个月性能翻倍,这一规律极大地推动了计算能力的飞跃。然而,随着半导体工艺逐渐逼近物理极限,摩尔定律的适用性面临严峻挑战,单机算力的增长速度开始放缓,其进一步提升的空间变得愈发有限。
在此背景下,另一条技术路线——分布式算力扩展应运而生,并迅速成为解决算力瓶颈的重要途径。分布式计算,这一理念从早期的网格计算萌芽,历经云计算的蓬勃发展,直至如今算力网络的初步形成,始终致力于通过资源整合与协同工作,实现算力的横向扩展与高效利用。
为什么分布式算力云能解决算力“最后一公里”难题
那么,到底什么是分布式算力云,它在解决算力紧缺难题时优势在哪里?
具体来讲,分布式计算通过将大量独立的计算资源(包括服务器、个人电脑、移动设备等)通过网络连接起来,形成一个庞大的计算资源池。这些资源可以根据任务需求进行动态分配与调度,从而实现计算能力的灵活扩展与高效利用。与单机算力提升相比,分布式计算不仅能够突破单一设备的性能限制,还能够利用闲置资源,降低总体成本,提高资源利用率。
面对单机算力增长受限的现状,分布式计算以其独特的优势成为了算力发展的重要方向。
分布式算力云是一种基于分布式计算和云计算理念的架构模式,它通过将计算、存储和网络资源分布在不同的物理或虚拟节点上,通过网络进行协同工作,提供高性能、高可用性和高可伸缩性的服务。分布式算力云的优势主要体现在以下几个方面:
- 高可用性:通过将资源分散部署在多个地点,避免了单点故障的风险。即使一个节点发生故障,其他节点仍然可以提供服务,确保业务的连续性和可靠性。
- 可伸缩性:分布式算力云可以根据业务需求灵活调整资源的规模。当业务负载增加时,可以通过添加更多的节点来扩展计算和存储能力;当业务负载减少时,可以适当减少节点数量以节约资源和成本。
- 弹性:分布式云具有弹性和灵活性的特点,能够自动调整资源以应对突发的业务需求和流量变化,提供稳定的性能和用户体验。
- 数据局部性:分布式云允许将数据存储在离用户最近的节点上,减少数据传输的延迟和带宽消耗,提高数据访问的效率和响应速度。
在实际应用中,分布式算力云已广泛应用于大规模网站、数据分析、高可用性和容灾、多地点协同工作以及科学计算等领域。这些应用案例充分展示了分布式算力云在提供高性能、高可用性和高可伸缩性服务方面的巨大优势。
算力成本三年降低 1000 倍,PPIO 派欧云发布全新产品矩阵
为了进一步降低算力成本,派欧重磅发布了全新 PPIO 派欧云产品矩阵。以分布式云为依托,重点专注于重点场景公有云服务。
聚焦开发者,产品矩阵分为三个层面:集成尖端技术推理加速引擎(PPInfer),二是 Serverless 云原生体系,三是为初创开发者提供的大模型 AI 服务——Model-API,直接基于 API 的一站式使用。
发布推理加速引擎(PPInfer)
与模型训练相比,AI 推理与产业应用关系更为密切。大模型在训练后需要通过推理应用于实际场景,这直接影响其可用性和实用性。然而,目前 AI 推理面临的主要问题是成本高昂,尤其是随着模型规模增大,计算需求和成本也随之增加。此外,推理效率普遍较低,加上复杂的业务场景和应用链路,进一步推高了推理成本。
会上,PPIO 派欧云介绍了他们如何通过一系列自研推理加速算法,使大语言模型(LLM)的推理性能提升 10 倍,并将综合推理成本降低 90%以上。PPIO 派欧云通过三大核心技术实现了这一突破:
PyramidCache 稀疏化压缩算法:该算法分析计算注意力分数在不同层上的分布模式,为不同层动态分配不同 KV Cache 预算,在压缩比和模型性能之间取得最佳匹配。实验表明,该方法将 KV Cache 压缩至 10%以内,同时保持 95%以上的模型性能表现,最终将 GPU 内存开销降低至 20%。
Hydra Sampling 投机采样技术:针对传统大模型推理过程中每次仅生成一个 token 导致的低吞吐量问题,PPIO 派欧云创新实现了基于多头并行推理的 Hydra Sampling 技术。通过在线动态更新机制,草稿模型越用越聪明,推理效率也随之越来越高,端到端综合性能优化达到 2 倍以上。
端到端 FP8 推理:PPIO 派欧云重写了核心的注意力算法,直接调用 FP8 TensorCore 进行注意力计算,并使用 FP8 保存 KV Cache,避免 FP16 格式的中间结果转换和传输,实现全链路 FP8 计算。这些优化显著降低了数据存储和通信成本,端到端推理效率提升约 2 倍。
发布 Serverless 产品
为了解决 AI 推理的成本问题,实现大模型应用算力普惠,PPIO 派欧云通过算法、系统和硬件协同创新,推出了专为 AI 推理场景设计的 Serverless 产品,提供模型部署、运行优化、弹性伸缩及 API 服务,帮助客户在自定义模型时获得高效的弹性效率和极致的运行成本。该 Serverless 产品核心特性包括:
弹性伸缩:支持根据流量自动调整资源规模,高峰时自动扩容,低谷时自动缩容,且计费基于实际使用的容器资源,确保成本最优化。
免运维:提供全方位的监控与自动异常处理机制,无需额外运维团队,自动关闭异常容器并快速重启新实例,确保服务连续性,同时保持开发者的零干扰体验。
据悉,该产品的核心技术主要包括两点:
Auto Scaling:该技术核心在于实时监测流量与访问量。通过算法预测流量变化,自动增减工作节点(worker)以应对需求。在预测到流量增长时,自动增加工作节点以实现快速冷启动与部署;反之,在流量减少时,则自动缩减工作节点,确保资源高效利用。
沙盒化虚拟环境:此环境设计得高度灵活,既能支持自有实例,也能兼容第三方实例,包括虚拟机、容器及裸金属服务器。即使在非自持硬件环境下,也能实现自动伸缩,确保服务能力的灵活扩展。用户无需担心流量激增导致的资源不足问题,系统会自动寻求合作伙伴协助扩大容量。
推出 Model API
此外,PPIO 派欧云还推出了全新的 Model API 服务产品,支持 AIGC 应用开发所需的全模态 API,开发者无需精通机器学习即可快速部署和调用大模型功能。结合 PPIO 强大的分布式计算能力和派欧算力云 Serverless 产品的弹性支持,Model API 服务不仅显著提升了 AI 应用的开发效率,还通过按需付费模式有效降低了企业的开发和运营成本。
派欧算力云产品可广泛应用于多个场景,提供灵活且高效的解决方案。例如,在中国铁塔的智能算力调度管理项目中,为了实现在城市广泛分布的产业园、写字楼、住宅、文娱和高校等园区进行算力入园的管理服务,PPIO 通过打造分布式算力网络,实现不同地区、不同时间、不同业务的弹性算力调度和大模型推理加速,为园区内的 AI 应用提供高性价比的智算服务,满足智能数据处理、大模型部署、AIGC 生成、AI 算法加速、渲染加速等一系列应用需求。
产研联动、生态协同,加速 AI 应用创新
会上,PPIO 派欧云宣布聘请华中科技大学教授、长江学者特聘教授、中国计算机学会副理事长金海教授担任公司技术委员会主席。作为中国分布式计算领域的知名学者,金海教授将为 PPIO 的分布式技术发展战略和算力网络规划提供深入全面的指导,为公司未来在分布式云和 AI 基础设施领域的研究和创新发展奠定坚实基础。
与此同时,中国信息通信研究院与 PPIO 派欧云联合多家行业领军企业、科研机构共同启动《分布式算力发展白皮书》研究工作,旨在推动分布式算力技术的发展,为全球数字经济注入新动能。白皮书将系统地阐述了分布式算力的发展背景、核心技术、应用场景、市场趋势以及未来发展方向,全面总结了近年来分布式算力在全球范围内的实践成果与技术突破,为分布式云行业从业者、技术开发者和政策制定者提供清晰的方向指引,推动分布式算力技术的进一步成熟和落地。