2021英特尔架构日,英特尔公司高级副总裁,加速计算系统与图形事业部总经理Raja Koduri携手几位英特尔架构师,全面介绍两款全新x86内核架构的细节,英特尔首款性能混合架构,代号阿尔德莱克尔多,和智能英特尔注册,硬件线程调度器,专为数据中心设计的下一代英特尔reg至强注册,可扩展处理器蓝宝石急流,基础设施处理器,即将推出的显卡架构包括Xe HPG微架构和Xe HPC微架构,炼金术士SoC,庞特Vecchio SoC。
这些新架构将为即将推出的高性能产品注入动力,为英特尔下一个创新时代奠定基础,从而满足全球对高计算能力日益增长的需求。
Raja Koduri强调了架构改进满足这一需求的重要性:架构是硬件和软件的现状,炼金术它结合了特定计算引擎所需的先进晶体管,通过领先的封装技术将它们连接起来,集成了高带宽和低功耗缓存,并为封装中的混合计算集群提供了高容量,高带宽内存和低延迟的可扩展互连,同时确保了所有软件的无缝加速伴随着从桌面到数据中心的工作负载变得比以往任何时候都更加密集,复杂和多样化,今年宣布的这些新突破也表明了该架构将如何满足对更高计算性能的迫切需求
X86内核
能效核心
全新的英特尔高能效核心微架构,曾经代号Gracemont,旨在面对当今的多任务场景,提高吞吐量效率并提供可扩展的多线程性能这种高能效的x86微体系结构在有限的硅空间内实现了多核任务加载,频率范围广该架构旨在通过低压节能内核降低整体功耗,并为更高频率的操作提供功率热空间这也允许高能效核心提高其性能,以满足更动态的任务负载
高能效内核可以利用各种技术进步,在不消耗处理器功率的情况下确定工作负载的优先级,并通过每周期指令数改进功能直接提高性能,包括:
公牛,具有5000个条目的分支目标缓冲区支持更精确的分支预测
公牛,64KB指令高速缓存,在不消耗内存子系统功率的情况下保存可用指令
公牛,英特尔首款按需指令长度解码器可以生成预解码信息
公牛,英特尔的集群无序执行解码器在保持能效的同时,每个周期最多可解码6条指令
公牛,宽后端有五组五宽分配和八组宽度撤回,256个无序窗口条目和17个执行端口
公牛,支持英特尔注册,控制流实施技术和英特尔注册,虚拟化技术重定向保护等功能
公牛,实现了支持整数人工智能运算的AVX指令集和新扩展
与英特尔最具生产力的CPU核心Skylake相比,在单线程性能下,高能效核心可以在相同功耗下实现40%的性能提升,或者在不到40%的功耗下提供相同的性能1 .与运行四个线程的两个Skylake核心相比,四个高能效核心提供的吞吐性能可以在更低功耗的情况下同时提升80%的性能,在提供相同吞吐性能的情况下降低80%的功耗。一个
性能核心
英特尔全新的高性能核心微体系结构,曾经代号为黄金封面,旨在提高速度并突破低延迟和单线程应用程序性能的限制工作负载的代码量不断增加,这就需要更强的执行能力伴随着数据带宽需求的增加,数据集也在大幅增加英特尔新的性能核心微体系结构带来了显著的增长,同时更好地支持大代码量的应用
性能核心具有更广泛,更深入和更智能的体系结构:
公牛,更宽:解码器从4增加到6,6微,Op缓存增加到8微米,Op,分配从5增加到6,执行端口从10增加到12
公牛,更深:更大的物理寄存器文件,512个条目的重新排序缓冲区
公牛,更智能:提高了分支预测的准确性,减少了有效的一级延迟,二级全写pred
性能核心是英特尔有史以来构建的最高性能CPU核心,它通过以下功能突破了低延迟和单线程应用性能的限制:
公牛,与目前的第11代英特尔reg相比,核心贸易,处理器架构在一般性能1的ISO频率下,对各种工作负载实现了约19%的平均改进
公牛,显示更高的并行度和执行并行度的增加
公牛,配备英特尔注册表,高级矩形扩展,内置下一代AI加速技术,用于学习推理和训练。AMX包括专用硬件和新的指令集架构,以显著改善矩阵乘法
公牛,减少时间延迟,并为具有大数据和大代码量的应用程序提供更好的支持
客户
阿尔德湖客户端SoC
代号阿尔德莱克尔多,英特尔下一代客户端架构是英特尔首款性能混合架构,首次集成了两种核心类型:性能核心和能效核心,为所有工作负载类型带来显著的性能提升阿尔德湖基于英特尔7进程技术,支持最新内存和最快I/O
阿尔德湖将提供惊人的性能,支持从超便携笔记本到发烧友再到商用台式机的所有客户端设备。它采用单一,高度可扩展的SoC架构,并提供三种产品设计
形态:
bull,高性能,双芯片,插座式的台式机处理器 ,具有领先性能和能效。支持高规格的内存和I/O
bull,高性能笔记本处理器,采用BGA 封装,并加入图像单元,更大的 Xe 显卡和Thunderbolt 4 连接
bull,轻薄,低功耗的笔记本处理器,采用高密度的封装,配置优化的I/O和电能传输
构建如此高度可扩展架构的挑战,我们需要在不影响功率的情况下满足计算和 I/O 代理对带宽超乎寻常的需求为了解决这一挑战,我们设计了三种独立的内部总线,每一种都采用基于需求的实时启发式后处理方式
bull,计算内部总线可支持高达1000GBpsmdash,mdash,即每个内核或每集群100GBps,通过最后一级缓存将内核和显卡连接到内存
o具有高动态频率范围,并且能够动态选择数据路径,根据实际总线结构负载而进行时延和带宽优化
o根据利用率动态调整最后一级缓存策略mdash,mdash,也就是,包含,或,不包含,
bull,I/O内部总线支持可高达64 GBps,连接不同类型的I/O和内部设备,能在不干扰设备正常运行的情况下无缝改变速度,选择内部总线速度来匹配所需的数据传输量
bull,内存结构可提供高达204 GBps的数据,并动态扩展其总线宽度和速度,以支持高带宽,低时延或低功耗的多个操作点
英特尔硬件线程调度器
为使性能核和能效核与操作系统无缝协作,英特尔开发了一种改进的调度技术,称之为,英特尔硬件线程调度器,硬件线程调度器直接内置于硬件中,可提供对内核状态和线程指令混合比的低级遥测,让操作系统能够在恰当的时间将合适的线程放置在合适的内核上硬件线程调度器具有动态性和自适应性mdash,mdash,它会根据实时的计算需求调整调度决策mdash,mdash,而非一种简单的,基于规则的静态方法
传统意义上,操作系统会根据有限的可用数据做出决策,如前台和后台任务。硬件线程调度器可通过以下方式增加新维度:
bull,使用硬件遥测工具将需要更高性能的线程引导到当时适合的性能核上
bull,更精细地监控指令组合,每内核当前状态以及相关的微架构遥测,从而帮助操作系统做出更智能的调度决策
bull,通过与微软合作,优化英特尔硬件线程调度器在Windows11上的极佳性能
bull,扩展PowerThrottling API,使得开发人员能够为其线程明确指定服务质量属性
bull,应用全新EcoQoS分类,该分类可让调度程序获悉线程是否更倾向于能效
Xe HPG微架构和Alchemist SoC
Xe HPG是一款全新的独立显卡微架构,专为游戏和创作工作负载提供发烧级的高性能Xe HPG微架构为Alchemist系列SoC提供动力,首批相关产品将于2022年第一季度上市,并采用新的品牌名mdash,mdash,英特尔锐炫trade, Xe HPG微架构采用全新的Xe内核,是一款聚焦计算,可编程且可扩展的元件
客户端显卡路线图包括 Alchemist,Battlemage,Celestial和Druid SoC在演讲中,英特尔展示了微架构细节,并分享了在试产阶段的Alchemist SoC上运行的演示视频,包括真实游戏展示,虚幻引擎5测试良好,全新的基于神经网络的超取样技术XeSS等
基于Xe HPG微架构的Alchemist SoC能够提供出色的可扩展性和计算效率,并拥有以下关键架构特征:
bull,多达8个具有固定功能的渲染切片,专为DirectX 12 Ultimate设计
bull,全新Xe内核,拥有16个矢量引擎和16个矩阵引擎,高速缓存和共享内部显存
bull,支持DirectX Raytracing和Vulkan Ray Tracing的新光线追踪单元
bull,通过架构,逻辑设计,电路设计,制程工艺技术和软件优化,相比Xe LP微架构实现1.5倍的频率提升和1.5倍的每瓦性能提升1
bull,使用台积电的N6制程节点上进行制造
英特尔显卡设计的核心是软件优先:
bull,我们正与开发人员密切合作进行Xe微架构的设计,力求与行业标准保持一致
bull,通过在一个统一的代码库中涵盖集成和独立显卡产品的驱动设计,英特尔的第一款高性能游戏显卡将性能和质量放在首位
bull,英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,从而使计算密集型游戏的吞吐量提高了15% ,游戏加载时间缩短了25%
XeSS
XeSS 利用Alchemist的内置XMX AI加速,带来了一种可实现高性能和高保真视觉的全新升频技术其使用深度学习来合成非常接近原生高分辨率渲染质量的图像凭借XeSS ,那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行
bull,XeSS的工作原理是通过从相邻像素,以及对前一帧进行运动补偿,来重建子像素细节
bull,重构由经过训练的神经网络执行,可提供高性能和高画质,同时性能提升高达两倍1
bull,XeSS凭借DP4a指令,在包括集成显卡在内的各种硬件上提供基于AI的超级采样
bull,多家早期的游戏开发商已开始使用XeSS, 本月将向独立软件供应商提供XMX初始版本的SDK,DP4a版本将于今年晚些时候推出
数据中心
下一代英特尔至强可扩展处理器
Sapphire Rapids代表了业界在数据中心平台上的一大进步该处理器可在不断变化且要求日益增高的数据中心使用中提供可观的计算性能,并对工作负载进行优化,以在云,微服务和AI等弹性计算模型上提供高性能
Sapphire Rapids的核心是一个分区块,模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性Sapphire Rapids提供了一个单一,平衡的统一内存访问架构,每个线程均可完全访问缓存,内存和I/O等所有单元上的全部资源,由此实现整个SoC具有一致的低时延和高横向带宽
Sapphire Rapids基于Intel 7制程工艺技术,采用英特尔全新的性能核微架构,该架构旨在提高速度,突破低时延和单线程应用性能的极限。
Sapphire Rapids提供业界广泛的数据中心相关加速器,包括新的指令集架构和集成IP,以在各种客户工作负载和使用中提升性能。新的内置加速器引擎包括:
bull,英特尔reg,加速器接口架构指令集mdash,mdash,支持对加速器和设备的有效调度,同步和信号传递
bull,英特尔reg,高级矩阵扩展mdash,mdash,Sapphire Rapids中引入的新加速引擎,可为深度学习算法核心的Tensor处理提供大幅加速其可以在每个周期内进行2000次 INT8运算和1000次 BFP16运算,实现计算能力的大幅提升
bull,英特尔reg,数据流加速器mdash,mdash,旨在卸载最常见的数据移动任务,这些任务会导致数据中心规模部署中的开销。英特尔DSA改进了对这些开销任务的处理,以提供更高的整体工作负载性能,并可以在CPU,内存和缓存以及所有附加的内存,存储和网络设备之间移动数据
这些架构上的改进使Sapphire Rapids能够为云,数据中心,网络和智能边缘中广泛的工作负载和部署模式提供开箱即用的性能该处理器旨在通过先进的内存和下一代I/O,包括PCIe 5.0,CXL 1.1,DDR5和HBM技术,来推动行业技术转型
基础设施处理器
IPU是一种可编程的网络设备,旨在使云和通信服务提供商减少在中央处理器方面的开销,并充分释放性能价值。
英特尔基于IPU的架构有以下主要优势:
bull,基础设施功能和客户工作负载的强分离使客户能够完全控制CPU
bull,云运营商可以将基础设施任务卸载到IPU上,更大化实现CPU利用率和收益
bull,IPU可以管理存储流量,减少时延,同时通过无磁盘服务器架构有效利用存储容量。借助IPU,客户可以通过一个安全,可编程,稳定的解决方案更好地利用资源,使其能够平衡处理与存储
英特尔认识到,单一产品无法满足所有需求,,因此对其IPU架构进行了更深入的研究,并推出了以下IPU家族的新成员mdash,mdash,均为应对多样化数据中心的复杂性而设计。
Mount Evans是英特尔的首个ASIC IPUMount Evans是与一家一流云服务提供商共同设计和开发的,它融合了多代FPGA SmartNIC的经验
bull,超大规模就绪,提供高性能网络和存储虚拟化卸载,同时保持高度控制
bull,提供业界一流的可编程数据包处理引擎,支持防火墙和虚拟路由等用例
bull,使用硬件加速的NVMe存储接口,该接口扩展自英特尔傲腾技术,以模拟NVMe设备
bull,采用英特尔reg,高性能Quick Assist技术,部署高级加密和压缩加速
bull,可使用现有普遍部署的DPDK,SPDK等软件环境进行编程,并且可以采用英特尔Barefoot Switch部门开创的P4编程语言来配置管线
Oak Springs Canyon是一个IPU参考平台,基于英特尔reg,至强 D 处理器和拥有业界领先的功率,效率,性能的英特尔reg, Agilextrade, FPGA构建:
bull,卸载Open Virtual Switch等网络虚拟化功能以及NVMe over Fabric和 RoCE v2等存储功能,并提供硬化的加密模块,提供更安全,高速的2x 100Gb以太网网络接口
bull,让英特尔的合作伙伴和客户能够使用英特尔reg,开放式FPGA开发堆栈定制其解决方案,这是一款可扩展,开源软件和硬件基础设施
bull,使用现有普遍部署的软件环境进行编程,包括已在x86上优化的DPDK和SPDK
英特尔N6000加速开发平台,代号为,Arrow Creek,,是专为搭载至强服务器设计的SmartNIC。其特性包括:
bull,在功耗,效率和性能方面处于行业领先地位的英特尔Agilex FPGA。用于高性能的100GB网络加速的英特尔以太网800系列控制器
bull,支持多种基础设施工作负载,使通信服务提供商能够提供灵活的加速工作负载,如Juniper Contrail,OVS和SRv6,它以英特尔PAC—N3000的成功为基础,该产品已在部分业界一流的CoSP中部署。
Xe HPC和Ponte Vecchio
Ponte Vecchio基于Xe HPC微架构,提供业界领先的每秒浮点运算次数和计算密度,以加速AI,HPC和高级分析工作负载英特尔公布了Xe HPC微架构的IP模块信息,包括每个Xe核的8个矢量和矩阵引擎,切片和堆栈信息,以及包括计算,基础和Xe Link单元的处理节点的单元信息在架构日上,英特尔表示,早期的 Ponte Vecchio 芯片展示了领先的性能,在流行的 AI 基准测试中创造了推理和训练吞吐量的行业记录1英特尔A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的内存结构带宽,以及高于2 TBps的连接带宽同时,英特尔分享了一段演示视频,展示了ResNet推理性能超过43,000张图像/秒和超过每秒3400张图像/秒的ResNet训练,并且这两项性能都有望实现行业领先
Ponte Vecchio由多个复杂的设计组成,这些设计以单元形式呈现,然后通过嵌入式多芯片互连桥接单元进行组装,实现单元之间的低功耗,高速连接这些设计均被集成于Foveros封装中,为提高功率和互连密度形成有源芯片的3D堆叠高速MDFI互连允许1到2个堆栈的扩展
计算单元是一个密集的多个Xe内核,是Ponte Vecchio的核心。
bull,一块单元有8个Xe内核,总共有4MB一级缓存,是提供高效计算的关键
bull,基于台积电先进的N5制程工艺技术
bull,英特尔已通过设计基础设施设置和工具流程以及方法,为测试和验证该节点的单元铺平了道路
bull,该单元具有极其紧凑的36微米凸点间距,可与Foveros进行3D堆叠
基础单元是Ponte Vecchio的连接组织它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化
bull,基础单元是所有复杂的 I/O 和高带宽组件与 SoC 基础设施mdash,mdash,PCIe Gen5,HBM2e 内存,连接不同单元MDFI链路和 EMIB桥接
bull,采用高2D互连的超高带宽3D连接时延很低,使其成为一台无限连接的机器
bull,英特尔技术开发团队致力于满足带宽,凸点间距和信号完整性方面的要求
Xe 链路单元提供了GPU之间的连接,支持每单元8个链路。
bull,对HPC和AI计算的扩展至关重要
bull,旨在实现支持高达90G的更高速SerDes
bull,该单元已被添加到,极光,百亿亿次级超级计算机的扩展解决方案中
Ponte Vecchio已走下生产线进行上电验证,并已开始向客户提供限量样品Ponte Vecchio预计将于2022年面向HPC和AI市场发布
oneAPI
oneAPI提供了一个开放,规范,跨架构和跨厂商的统一软件栈,让开发者能够摆脱专有语言和编程模型的束缚目前,NVIDIA GPU,AMD GPU和Arm CPU均有Data Parallel C++和oneAPI库oneAPI正在被独立软件提供商,操作系统供应商,终端用户和学术界广泛采用行业领导者正在协助发展该规范,以支持更多的用例和架构同时,英特尔还提供了商业产品,包括基本的oneAPI基础工具包,它在规范语言和库之外增加了编译器,分析器,调试器和移植工具
oneAPI提供跨架构的兼容性,提高了开发人员的生产力和创新能力:
bull,英特尔的oneAPI工具包拥有超过20万次单独安装
bull,市场上部署的300多个应用程序采用了 oneAPI的统一编程模型
bull,超过80个HPC和AI应用程序使用英特尔oneAPI工具包在Xe HPC微架构上运行
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
|