本文是基于Ubuntu18.04的Tendorflow环境的搭建,经本人亲测可行,记录下来留作以后查阅。

环境

  • Ubuntu-18.04-LTS
  • NVIDIA驱动-396
  • GCC5.0
  • CUDA9.0
  • Cudnn7.1.3
  • Tensorflow-gpu

安装

主要有以下步骤:

  • 检查(或更换)NVIDIA驱动的型号
  • 检查(或更换)gcc版本
  • 安装对应版本的Cuda并修改环境变量
  • 安装对应版本的Cudnn
  • 安装Tensorflow-gpu

下面将对上述步骤详细说明:

查看NVIDIA驱动型号

可以在终端输入nvidia-smi查看具体型号,如果系统有安装NVIDIA驱动,则会显示驱动的型号等信息。

如果系统没有安装NVIDIA驱动或者驱动版本较低,则需要安装或者更换NVADIA驱动,这里使用图形驱动程序PPA存储库安装NVIDIA驱动程序。更多NVIDIA驱动安装方式可以看这里

  • 将ppa:graphics-drivers/ppa存储库添加到系统中:

    $ sudo add-apt-repository ppa:graphics-drivers/ppa

    $ sudo apt update

  • 通过在终端输入ubuntu-drivers devices查看系统为你推荐的驱动型号。

    1545222990106

可以看到系统推荐安装NVIDIA-410驱动,为了防止Tensorflow不支持过新的驱动,我安装了NVIDIA-396型号的驱动。

  • 在终端输入
sudo apt install nvidia-driver-396

中间如果提醒有依赖包未安装,则先安装依赖包再返回安装驱动,其余根据提示进行安装即可。别忘了安装之后在终端输入nvidia-smi检查是否安装成功。最好重启一次看一下是否使用了NVIDIA的驱动。

然后去NVIDIA官网查看驱动对应的CUDA版本,NVIDIA-396可以安装Cuda-9.2,但我一直使用的是Cuda9.0,所以最后我很保守的选择了Cuda-9.0

降级gcc

因为Cuda-9.0只支持gcc-6.0以下的版本,而Ubuntu18.04系统默认安装gcc-7.3版本(可以在终端输入gcc --version查看系统安装的gcc版本),所以首先需要降级为gcc-5版本。

  • 首先需要安装gcc-5 在终端输入:

    sudo apt install gcc-5
    sudo apt install g++-5
    
  • 链接至gcc-5版本在终端输入:

    cd /usr/bin
    sudo mv gcc gcc.bak #备份
    sudo ln -s gcc-5 gcc
    sudo mv g++ g++.bak
    sudo ln -s g++-5 g++
    

通过gcc --version查看系统的gcc版本是否已更改。

安装对应版本的Cuda

官网下载Cuda-9.0run文件安装包,注意官网主文件下面还有四个更新包,一并下载下来。然后在终端输入:

  • 基础安装包
sudo sh cuda_9.0.176.384.81_linux.run --override

安装前会询问接受协议,不用看直接Ctrl+C输入accept接受就可。在安装过程中,会出现几个是否选装安装位置的选项,其中第二个不需要安装NVIDIA驱动(系统已安装),其余都选择yes或者敲回车(默认)。

img

  • 四个更新包
sudo sh cuda_9.0.176.1_linux.run
sudo sh cuda_9.0.176.2_linux.run
sudo sh cuda_9.0.176.3_linux.run
sudo sh cuda_9.0.176.4_linux.run

分别安装每个更新包。

  • 修改环境变量

安装完Cuda-9.0后,还需要将其添加至系统环境变量。

打开.bashrc文件或/etc/profile文件:

sudo gedit .bashrc

在文本的最后添加以下代码:

export  PATH="$PATH:/usr/local/cuda-9.0/bin"
export  LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda-9.0/lib64"

保存文本后,更新系统环境变量

source .bashrc

最后通过在终端输入nvcc -V,检查Cuda-9.0是否安装成功。 如出现CUDA的基本信息,则表示安装成功。

安装Cuda对应的Cudnn版本

安装完Cuda之后,继续安装与Cuda-9.0版本对应的Cudnn。去官网下载下面三个deb安装包。

img

按照下面的顺序分别安装三个deb包。

sudo dpkg -i 'Runtime Library.deb'
sudo dpkg -i 'Developer Library.deb'
sudo dpkg -i 'Code Sample and User Guide.deb'
sudo apt-get update

安装完之后可以检查是否安装成功,在终端输入下面代码,如果安装成功会显示Test Passed字样。

cd /usr/src/cudnn_samples_v7/mnistCUDNN
sudo make
./mnistCUDNN

安装Tensorflow-gpu

直接通过pip(pip的更换看这里)安装Tensorflow-gpu,默认下载的是最新的1.10版本。

sudo pip3 install tensorflow-gpu
  • 验证测试

在python3 中输入以下代码

>>> import tensorflow as tf 
>>> hello = tf.constant('hello tensorflow')
>>> with tf.Session() as sesh:
>>> ...  sesh.run(hello)

输出结果应该是hello tensorflow ,并且附带上GPU相关信息。

需要注意目前Tensorflow需要Python3.6的运行环境(Ubuntu18.04自带3.6.5),3.7貌似不支持或者…,所以需要注意Anaconda等Python工具所用的Python环境可能是3.7。

卸载

  • 卸载Cuda-9.0

在终端输入:

cd /usr/local/cuda-9.0/bin
sudo ./uninstall_cuda_9.0.pl
  • 卸载Cudnn-7.1.3

在终端输入:

sudo apt remove cudnn*