使用CUDA进行GPU编程需安装CUDA Toolkit,编写混合代码,通过核函数在GPU上并行执行任务,示例中实现向量加法,涉及内存分配、数据传输与线程管理。

要在c++中使用CUDA进行GPU编程,核心是借助nvidia提供的CUDA Toolkit,将部分计算任务从CPU卸载到GPU上并行执行。整个过程涉及编写混合代码:一部分在主机(CPU)上运行,另一部分在设备(GPU)上并行执行。下面介绍基本流程和关键概念,帮助你快速入门。
1. 环境准备与工具安装
要开始CUDA开发,需确保以下条件满足:
- 支持CUDA的NVIDIA显卡:查看NVIDIA官网确认你的GPU是否支持CUDA。
- 安装CUDA Toolkit:从NVIDIA官网下载并安装对应版本的CUDA Toolkit,包含编译器(nvcc)、库文件和头文件。
- 开发环境配置:可在visual studio(windows)或GCC + Makefile(linux)中配置CUDA支持。推荐使用vs code或Visual Studio配合Nsight插件调试。
验证安装:终端输入nvcc --version,若有版本信息输出说明安装成功。
2. CUDA编程基本结构
CUDA程序通常包含以下部分:
立即学习“C++免费学习笔记(深入)”;
- 在主机(CPU)上分配内存
- 将数据从主机复制到设备(GPU)
- 调用核函数(kernel),在GPU上并行执行
- 将结果从设备复制回主机
- 释放设备内存
核函数使用__global__修饰,由CPU启动,但在GPU上执行。每个线程运行一次该函数。
3. 示例:向量加法
以下是一个简单的向量加法示例,展示如何在C++中使用CUDA实现并行计算。
#include <cuda_runtime.h> #include <iostream> // 核函数:每个线程处理一个数组元素 __global__ void vectorAdd(float* A, float* B, float* C, int N) { int idx = blockIdx.x * blockDim.x + ThreadIdx.x; if (idx < N) { C[idx] = A[idx] + B[idx]; } } int main() { const int N = 1<<20; // 1M elements const int size = N * sizeof(float); // 主机内存分配 float *h_A = (float*)malloc(size); float *h_B = (float*)malloc(size); float *h_C = (float*)malloc(size); // 初始化数据 for (int i = 0; i < N; ++i) { h_A[i] = i; h_B[i] = i * 2; } // 设备内存分配 float *d_A, *d_B, *d_C; cudaMalloc(&d_A, size); cudaMalloc(&d_B, size); cudaMalloc(&d_C, size); // 数据从主机拷贝到设备 cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice); cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice); // 配置执行配置:1024个线程每块,共(N + 1023)/1024个块 int blockSize = 1024; int gridSize = (N + blockSize - 1) / blockSize; vectorAdd<<<gridSize, blockSize>>>(d_A, d_B, d_C, N); // 同步等待GPU完成 cudaDeviceSynchronize(); // 将结果拷贝回主机 cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost); // 验证结果(打印前5个) for (int i = 0; i < 5; ++i) { std::cout << h_A[i] << " + " << h_B[i] << " = " << h_C[i] << std::endl; } // 释放内存 free(h_A); free(h_B); free(h_C); cudaFree(d_A); cudaFree(d_B); cudaFree(d_C); return 0; }
编译命令:
nvcc -o vector_add vector_add.cu
运行:./vector_add
4. 关键概念解析
理解以下几个核心概念对掌握CUDA至关重要:
- 线程层次结构:线程组织为“线程块(block)”和“网格(grid)”。每个block包含多个thread,grid包含多个block。
- threadIdx, blockIdx, blockDim:内置变量,用于计算当前线程的全局索引。
- 内存管理:使用
cudaMalloc和cudaMemcpy管理设备内存,注意方向(HostToDevice / DeviceToHost)。 - 异步执行:核函数调用是异步的,使用
cudaDeviceSynchronize()可等待完成。
基本上就这些。掌握这个基础模型后,可以进一步学习共享内存、流(streams)、纹理内存等高级特性来优化性能。


