是时候给新丹炉装好cuda和nvcc了! 先贴一个官方的方案: NVIDIA CUDA Installation Guide for Linux
查看系统版本:
lsb_release -a
查看硬件版本:
lspci | grep -i nvidia
确定系统可以安装:
uname -n && cat /etc/*release
查看gcc、g++版本:
gcc --version
g++ --version
拿到手的丹炉型号是:
ad:00.0 3D controller: NVIDIA Corporation Device 1db6 (rev a1)
在这个网站查询一下
PCI devices
1db6对应的显卡是:
GV100GL [Tesla V100 PCIe 32GB]
然后就可以下载驱动了 NVIDIA 驱动程序下载
下个10.1版本的cuda
https://us.download.nvidia.com/tesla/418.197.02/NVIDIA-Linux-x86_64-418.197.02.run
先禁用nouveau驱动:
lsmod | grep nouveau
blacklist nouveau
options nouveau modeset=0
sudo dracut --force
开始安装驱动
chmod +x ./NVIDIA-Linux-x86_64-418.197.02.run
./NVIDIA-Linux-x86_64-418.197.02.run
错误 ERROR: You appear to be running an X server; please exit X before installing.的处理按照How to install NVIDIA.run? 的解决方案: 关闭X Server:
systemctl stop gdm.service
之后打开的指令:
systemctl start gdm.service
下载cuda toolkit10.1的runfile。 CUDA Toolkit 10.1 original Archive
安装:
chmod +x ./cuda_10.1_105_418.39_linux.run
sudo sh ./cuda_10.1_105_418.39_linux.run
最后,卸载的方案:
sudo /usr/local/cuda/bin/cuda-uninstaller
sudo /usr/bin/nvidia-uninstall
在安装一下cuDNN: 贴个官方教程:NVIDIA CUDNN DOCUMENT 下载地址:cuDNN Archive 根据cuDNN Support Matrix,找到对应的版本是cuDNN 7.5.1 - 7.6.2。
解压得到一个cuda/文件:
sudo cp cuda/include/cudnn*.h /usr/local/cuda/include
sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
~/.bashrc中增加
# cuda
export PATH="/usr/local/cuda/bin:$PATH"
# nvcc
export LD_LIBRARY_PATH="/usr/local/cuda/lib64:$LD_LIBRARY_PATH"
source ~/.bashrc
查看cuda版本
cat /usr/local/cuda/version.txt
CUDA Version 10.1.105
确认cudnn是否安装好了
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
最后下载一下pytorch测试一下是否可以使用GPU。
pip install torch-1.6.0+cu101-cp38-cp38-linux_x86_64.whl torchvision-0.7.0+cu101-cp38-cp38-linux_x86_64.whl
进入python测试一下
python
import torch
torch.cuda.is_available()
返回结果为True就可以了!
True
大功告成!开始炼丹!
Til next time,
gqjia
at 17:46