图形渲染到GPGPU

为图形而生

GPU最初的使命是加速图形渲染。而渲染一帧图像，本质上就是对数百万个像素点进行相似的计算，这天然就是一种大规模并行任务。

可编程性的开启 (2001)

NVIDIA发布GeForce 3，首次引入可编程着色器 (Programmable Shaders)。实质上允许开发者为 GPU 编写软件，让GPU的众多并行处理单元去同时执行，以精确控制光照和颜色如何加载到显示器上。这是朝着加速计算方向迈出的重要一步，因为它允许开发者直接为 GPU 编写软件。

学术界的探索

一批敏锐的研究人员意识到，GPU的本质就是一个拥有数百甚至数千个核心的大规模并行架构，其浮点运算吞吐量远超当时的CPU。他们的核心想法是：能不能用GPU进行科学计算? 开始探索利用GPU计算科学计算问题，从而利用GPU的算力。这便是GPGPU（通用计算GPU）的萌芽。但是门槛非常高，需要开发者同时精通图形学和科学计算。

NVIDIA的抉择

NVIDIA敏锐地捕捉到了GPGPU的发展潜力，开始不再局限于加速图形渲染，主动拥抱GPGPU。

2006年，发布了第一款为通用计算设计的统一架构GPU - GeForce 8800 GTX 显卡（G80架构）。它将GPU内部的计算单元统一起来，形成了一个庞大的、灵活的并行核心阵列，为通用计算铺平了硬件道路。

2007年，NVIDIA正式推出了CUDA平台。CUDA的革命性在于，它提供了一套简单的编程模型，让开发者能用近似C语言的方式，轻松地驾驭GPU内部成百上千个并行核心。 开发者无需再关心复杂的图形接口，可以直接编写在数千个线程上并发执行的程序。至此终结了GPGPU编程的蛮荒时代，让GPU计算真正走下神坛，成为开发者触手可及的强大工具。

随着深度学习的发展与流行，CUDA生态系统目前也成为NVIDIA最深、最宽的护城河。

CPU/GPU异构计算架构

CPU是整个系统的核心，是总指挥，GPU的任务指令是由CPU分配的。

CPU通过PCIe总线给GPU发送指令和数据交互。而PCIe支持DMA和MMIO两种通讯模式:

MMIO（内存映射I/O）由CPU直接控制数据读写，操作系统会把设备地址映射到CPU的虚拟空间中，适合小数据量的指令交互
DMA（直接内存访问）则允许设备绕过CPU直接访问系统内存，专为大数据块的高效传输设计。

CPU通过IMC和Memory Channel访问内存，为了提升数据传输带宽，高端CPU通常会支持多内存通道，即多IMC和Memory Channel的组合，以满足日益增长的数据处理需求。

bajiu

【转】GPU到底是如何工作的？这篇AI Infra入门全部告诉你(未完成)