摘要:由PPIO边缘云联合创始人王闻宇(原PPTV联合创始人)以及PPIO边缘云首席科学家王晓飞(天津大学教授,国家级青年人才)提出的云边资源优化框架“EdgeMatrix”收录至CCF-A级国际顶级学术会议IEEE INFOCOM2022。

本文截取文章中部分重点内容供大家阅读。

中国计算机学会(CCF)

CCF是中国计算机学会(China Computer Federation ,简称CCF),成立于1962年,是国内首个中国计算机领域的全国一级学会,代表了国内计算机行业的最高级别产学研团体。CCF针对国际知名学术会议和期刊进行了分级评定,其中A级收录个数占比仅为13.9%,计算机网络领域的A级会议总共有4个,IEEE INFOCOM则位居其中,是计算机网络领域40年来权威的学术大会。

IEEE INFOCOM是全球网络通信领域学者的盛会、大会,因为其规模宏大、收录论文包罗万象、评委团阵容强大,数百人的评委团几乎包括了全球网络通信领域所有一流的研究者。INFOCOM对其论文的质量要求严格:新颖、有价值、观点清晰、证据合理,因此正式论文的录取率近几年一直控制在20%以下,其中2022年全球范围内仅录取了227篇。

PPIO边缘云

PPIO 边缘云于 2018年成立,由 PPTV 创始人姚欣和首席架构师王闻宇联合创立,秉承“汇聚全球计算资源”的使命,在网络边缘侧基础设施上建构边缘云计算服务。中国领先的独立边缘云服务提供:PPIO 边缘云在全国1000 多个县市及区域 ,为客户提供符合低时延、高带宽、海量数据分布处理需求的边缘云计算服务和解决方案。

PPIO边缘云是云计算能力由中心云向边缘侧的下沉,同时架构上基于边缘云原生技术,可实现与传统中心云的兼容协同,已成为多家互联网巨头、一线云计算服务商、独角兽级创业公司,在边缘云服务领域的主要合作伙伴。

为方便读者阅读,编者已将该论文的重点内容翻译为中文供感兴趣的读者阅读,或点击arxiv链接:https://arxiv.org/abs/2203.10470 获取。

(注:论文版权归属IEEE INFOCOM大会及IEEE版权方,本论文于arxiv的分享只体现学术贡献与分享目的,未经许可禁止用于商业用途。)

边缘云系统有望对海量异构的网络设备进行有效管控,真正实现无处不在的计算。然而,对于服务提供商而言,复杂的网络环境为保证服务等级协议(Service Level Agreement, SLA)带来了诸多挑战:多资源异构、资源竞争和网络系统动态。在本文中,我们为边缘云系统设计了一个框架EdgeMatrix,

如图1,以保证多种SLA的同时最大化系统吞吐量。

首先,EdgeMatrix引入了网络化多智能体演员-评判家算法,将物理资源重新定义为逻辑隔离的资源组合,我们称每一个资源组合为一个cell。

然后,我们使用聚类算法将具有相似特征的cell分成不同的集合,每一个具有相似特征的cell集合称之为一个channel,其中不同的channel可以提供不同的SLA保证。

此外,我们设计了一种多任务机制来解决边缘云集群之间的联合服务编排和请求调度问题,与传统方法相比,显著减少了运行时间。

最后,为了保证系统稳定性,EdgeMatrix采用了双时间尺度框架,即在大时间尺度上协调资源和服务,在小时间尺度上调度请求。基于真实追踪数据的实验结果,验证了EdgeMatrix在复杂网络环境下具有「提高系统吞吐量,减少SLA违规,比传统方法显著减少运行时间」等优势,如图5。

动机与挑战:在云计算中,服务提供商可以基于SLA向用户提供可靠的服务。在本文中,我们基于云计算中的SLA思想,提出EdgeMatrix,它可以使边缘云系统在复杂网络环境下为用户服务提供强有力的SLA保证。

尽管在边缘云系统中基于SLA为用户提供可靠的服务可以显著提高系统效率,但在具体实施过程中仍面对三个固有的挑战:

(i) 多资源异构:地理分布的边缘节点具有不同的计算能力、通信能力和系统架构;

(ii) 资源竞争:不同类型的服务有不同的资源需求,造成不同服务之间的资源竞争,从而影响请求的服务效率;

(iii) 网络系统动态:由于用户需求和网络设备的随机波动,网络系统的请求负载和可用资源处于不断的动态变化中。因此,目前边缘云系统迫切需要资源重新定义的架构来满足用户的SLA。

技术挑战和解决方案:在本文中,为了更好地应对边缘云系统的三个固有挑战,我们的工作重点是资源定制、服务编排和请求调度,如图2。

资源定制:网络化系统的多资源异构性给边缘云系统中用户提供可靠服务带来了严峻的问题,因为异构边缘节点增加了服务编排和请求调度的不确定性。设计传统方法来考虑系统中大量的异构节点是具有挑战性的,即大量的约束导致算法过于复杂甚至无法解决。

因此,我们引入了网络化多智能体演员-评判家算法,为边缘云系统中的各种用户服务提供定制的隔离资源,通过离线集中训练和在线分布式执行提供轻量级模型并提高系统稳定性。具体来说,我们将边-边节点(横向)和边-云节点(纵向)的资源进行定制,形成逻辑上隔离的资源组合,称为边-云系统中的cell。

我们进一步将具有相似特征(资源、延迟等)的一组cell称为channel,这意味着每个资源通道对应一种SLA。宏观上,channel也可以分为横向和纵向两类。如图1所示,我们将此框架称为 EdgeMatrix。

服务编排:服务之间的资源竞争会导致SLA得到保证的请求数量减少,即吞吐量减少。想象一个场景,一个服务占用了一个节点上的大部分内存资源,在这种情况下,即使其他服务只需要很少的内存资源,编排也会受到严重的不利影响。因此,我们设计在EdgeMatrix中基于混合整数线性规划,解决多种资源异构下的服务编排问题,以减少资源竞争的负面影响,并通过并行运行多任务机制显著减少解决方案的运行时间。

请求调度:网络系统的动态对调度算法的适应性提出了重大挑战。请求调度是确定请求是否可以被成功服务的最后一个环节。面对网络化的系统动态,请求调度算法的设计对系统的鲁棒性起着至关重要的作用。具体来说,为了保证系统的稳定性,我们采用了双时间尺度框架来协调EdgeMatrix内的每个组件,如图3、图4所示:在大时间尺度(frame)依次进行资源定制和服务编排,在小时间尺度(slot)进行请求调度。

性能与评测:我们基于真实的数据集得出的数据表明EdgeMatrx能够很好的应对边缘云系统中的多资源异构性、资源竞争、网络系统动态性这三个问题。例如我们通过调整节点之间的资源方差以设置不同的资源异构性,实验结果显示EdgeMatrix在资源异构性最强比最弱情况下的系统性能仅下降了3.9%。此外,相较于在传统的系统中执行服务编排和请求调度,在EdgeMatrix的环境中执行这两步操作所需求解时间降低了数十倍。

PPIO将一如既往的将先进算法、技术与实际边缘云系统落地领域,做出持续的努力与卓越的贡献,特别针对K8S@edge、AIOps@Edge和SDN@Edge三项技术体系展开介绍。


01

异构服务的统一编排——K8S@Edge

K8s@Edge敏捷部署系统,可基于原生Kubernetes提供以容器为核心的管理服务,完全兼容原生Kubernetes,具有安全隔离、高资源利用率、秒级弹性、轻运维与灰度发布功能,支持统一编排、业务快速接入,能够服务于客户轻松实现云边一体化协同。

02

边缘云系统的自动化运维——AI Ops@Edge

AI Ops@Edge基于大数据和人工智能的智能调度算法,使资源在细颗粒度下进行精确调度,可提升资源的利用率。具体来说,PPIO研发了一整套经济学的撮合机制,参考了博弈论的知识,既考虑供给节点的效益,也考虑需求业务的效益,建立了一套交易和调度模型,大大降低了错误调度、重复调度,使得系统内资源利用率以及整体调度效率得到有效提升。

03

资源虚拟化技术——SDN@Edge

SDN@Edge重构了服务器间的网型架构,建立一套高效虚拟的传输网络,降低传输成本50%以上,使容忍弱网环境成为可能,从而提升用户体验。我们采用数据驱动的多点下载技术和抗网络丢包的弱网传输技术,在播放超高清视频的时候,流畅度比传统CDN提高300%以上。