Cuda Basic 基础

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12


__global__ void hello_d(){
    printf("Hello World from GPU!");
}
__host__ void hello_h(){
    printf("Hello World from CPU!")
    /*
    调用核函数，进行并行计算
    指明网格中有1个块，每个块中有4个线程
    */
    hello_d<<<1,4>>>(); 
    cudaDeviceSynchronize();
}

output:
Hello World from CPU!
Hello World from GPU!
Hello World from GPU!
Hello World from GPU!
Hello World from GPU!

#CPU的特点

快速执行单一指令流。乱序执行、寄存器重命名、分支预测、越来越大的cache，这些设计都是为了加速单一线程的执行速度
每个核心只支持1或2个线程
切换线程的代价是数百个时钟周期
通过SIMD（单指令多数据）处理矢量数据

#GPU的特点

快速执行大量的并行指令流。处理器阵列、多线程管理、共享内存、内存控制器，这些设计并不着眼于提高单一线程的执行速度，而是为了使GPU可以同时执行成千上万的线程，实现线程间通信，并提供极高的内存带宽
对于支持Cuda的GPU，每个流处理器可以同时处理1024个线程
切换线程的代价是0，事实上GPU通常每个时钟周期都切换线程
使用SIMT（单指令多线程）处理矢量数据。SIMT的好处是无需开发者费力把数据凑成合适的矢量长度，并且SIMT允许每个线程有不同的分支

GPU Threads的生成代价小，是轻量级的线程；CPU Threads的生成代价大，是重量级的线程。CPU Threads虽然生成的代价高于GPU Threads，但其执行效率高于GPU Threads，所以GPU Threads无法在个体的比较上取胜，只有在数量上取胜。在这个意义上来讲，CPU Threads好比是一头强壮的公牛在耕地，GPU Threads好比是1000头弱小的小牛在耕地。因此，为了保证体现GPU并行计算的优点，线程的数目必须足够多。

#nvcc

nvcc把源代码分成host部分和device部分

host function(e.g. mykernel()) processed by standard host compiler, gcc, cl.exe
device function(e.g. main()) processed by NVIDIA compiler

#Cuda 简单执行流

Copy input data from CPU memory to GPU memory
Load GPU program and execute, caching data on chip for performance
Copy results from GPU memory to CPU memory

1
2
3
4
5
6
7
8
9


Grid
└── Block(0)
    ├── Thread(0)
    ├── Thread(1)
    └── ...
└── Block(1)
    ├── Thread(0)
    ├── Thread(1)
    └── ...

#Cuda的异步性

与OpenMP不同，Cuda核函数为异步执行
调用核函数后，控制权会立刻返回给CPU
CPU不需要等待GPU核函数的完成
有助于提高CPU和GPU的并行性，充分利用计算资源

#cudaDeviceSynchronize()

Cuda提供的同步函数
调用后阻塞CPU的执行，知道GPU的所有核函数执行完毕
CPU可以放心地继续执行后续需要依赖这些结果的操作

Cuda Basic 基础

#Flynn分类法

#分布式内存架构 VS 共享内存架构

#CPU vs GPU

#性能

#CPU

#GPU

#What is Cuda

#Heterogeneous Computing 异构计算

#Host 主机 & Device 设备

#CPU的特点

#GPU的特点

#CPU Threads & GPU Threads

#nvcc

#Cuda 简单执行流

#Cuda编程模型

#Thread 线程

#Block 线程块

#Grid 网格

#Cuda的异步性

#cudaDeviceSynchronize()

Cuda Basic 基础

相关文章：