GPU-学习笔记
GPU是人工智能中最为核心的硬件,特别是在深度学习领域,主要是受益于GPU的独特架构和强大的并行计算能力,与传统的CPU最大的区别是GPU有成千上万个小型核心,能够同时处理海量的计算任务。无论是大模型训练、图像识别、自动驾驶都少不了算力的支持。国内这些年进入GPU领域的企业也不少,大厂阿里、华为,后起之秀的寒武纪、摩尔线程、沐曦都有深度的介入,AI的发展可能会持续很多年,这次把GPU相关的资料及比较好的企业都梳理一遍,看看发展到什么程度了。GPU是图形处理单元,是显卡的核心,主要功能是图形图像渲染,运算协作处理器GPGPU,可执行高度线程化、相对简单的并行处理任务。GPGPU(通用图形处理器)与GPU(图形处理单元)核心区别在于,GPU专为图形渲染优化、GPGPU通过改造CPU架构,能够高效执行人工智能计算任务,GPGPU在人工智能领域占据90%以上份额。 接入方式不同:GPU可以分为,独立GPU和集成GPU; 应用端不同:GPU分为,PC GPU、服务器GPU和移动GPU,PC端主要用于图形设计,服务器端主要用于AI训练、推理深度学习,移动端GPU主要用于提升游戏性能; 微架构是GPU硬件电路设计构造方式,不同的微架构决定了GPU性能的不同,各大厂商都在加大研发新架构,以提升竞争力。人工智能场景的服务器通常搭载GPU、FPGA、ASIC等加速芯片,加速芯片和中央处理器的性能结合支撑高吞吐量的运算需求。 GPGPU:擅长图形处理,在图形和复杂算法上效率高; FPGA:擅长算法更新频繁的专用领域,可以同时进行数据并行和任务并行计算,定制化、功耗低; ASIC:专用集成电路,灵活性较低、高性能、成本高、可靠性高,但开发时间成本高;指令是计算机运行的基本工作单位,是GPU实现功能的重要基础,包括指令格式、寻址方式和数据形式等。GPU指令集是GPU中以计算和控制系统的指令集合,指令集是否先进直接关系到GPU的性能高低。操作系统通过指令集对硬件进行管理和资源分配。 GPU的生态由三大部分构成,1、上层图形引擎、算法库;2、中层API接口适配各类驱动、编译器;3、底层硬件/指令集架构; 芯片除了硬件之外,还要求与之配套的软件体系,GPU软件体系复杂,包括各类图形API、计算接口、基础库等等,NV在各类软件驱动测试上有优势,形成较强的生态效应。 CUDA是NV开发的利用GPU运算处理的变成、并行计算平台,能够大幅提高计算效率。通用计算GPU领域基本被CUDA生态占据。 CUDA是NV2007的推出的。ROCm是AMD GPU系列开源设计的计算生态,目标是建立于CUDA生态可替代的平台。 CUDA让显卡可以进行通用计算和其他非图形计算,使GPU能够承担和CPU一样的计算任务。NV占据GPU领域份额长期超过50%。NV的数据中心业务早已超过游戏,占比50%以上。2024年GPU市场规模达到接近1000亿美元,国际市场NV(80%左右份额)和AMD(20%份额)是龙头。 国内AI芯片预计达到160亿美元左右,增速非常快。GPU这个行业特点是赢家通吃,单就性能来说,头部通过多年的积累在算力上绝对领先,后面的厂家想要追赶异常困难,更何况还有多年积累的生态系统,先发优势明显。CPU时代英特尔是绝对龙头,GPU是NV。 当一个行业只有出现新的革命的时候,新企业才有机会,就像汽车对马车的替代、智能机对功能机的替代、新能源车对燃油车的替代,到了未来的AI时代,对于算力来说,并没有发生革命性的变化,所以NV依旧是龙头,但面对未来巨大的市场和出于信息安全的国产替代,有一批新进入者在争相入局。 半导体是比较典型的技术驱动,顶级的芯片设计、晶圆制造、核心制造设备是壁垒最强的环节,极度难以突破,有关信息安全,并且是制造业顶端,发达国家卡发展中国家博子在正常不过了。一个国家想要突破,没有庞大的需求是不太可能的,我们是有突破基础的,在技术变革的时代,CUDA的壁垒是否还像以往那样牢不可破,现在看还有分歧,原有路径弯道超车不太可能,但如果行业出现了斜向15°的变化,可能性就有了。现在国内研发能力经过多年的发展也提升了不少,在国产替代的背景下,只要我们的技术差距不是太大,就有机会。