Ubuntu操作指南 – rayzark小屋

挂载数据云盘、创建训练环境

在webssh端输入lsblk

可以看到vdb是我们的数据云盘，没有分区，disk后面没有地址说明还没有链接挂载点

输入sudo fdisk /dev/vdb创建分区

输入n，并按回车，创建新分区。

配置分区号，输入p，并按回车（只要创建4个以下的分区，就选p)，然后选择创建的分区号，因为是创建第一个分区，所以用默认值就行，直接按回车，显示如下：

分区表写入磁盘，输入wq，把分区表写入磁盘，并退出

如果需要格式化创建之后的分区，输入sudo mkfs.ext4 /dev/vdb1

由于我自己的需要，所以我这里没有选择创建分区，我直接格式化了整个磁盘，也就是数据云盘， sudo mkfs.ext4 /dev/vdb （ext4是一种文件系统）

创建磁盘挂载的目录，假设挂载到 /mnt/data 目录下，输入sudo mkdir /mnt/data

挂载新分区： 然后使用挂载命令 sudo mount /dev/vdb /mnt/data 将新创建的分区挂载到 /mnt/data，可以看到disk后面已经有了挂载的目录

为了确保在重启后挂载仍然有效，可以编辑 /etc/fstab 文件，将新分区的挂载信息加入其中。输入sudo nano /etc/fstab

在文件中输入/dev/vdb /mnt/data ext4 defaults 0 2

按键Crtl+x后，输入y,回车确认，就保存文件退出了

我们现在使用winscp上传文件到数据云盘中，也就是到刚才挂载的目录，会发现没有写入权限

假设我们当前的用户是ubuntu（不同的操作系统用户名不同）就输入

sudo chown ubuntu:ubuntu /mnt/data

这会使 /mnt/data 目录对用户ubuntu可读、可写、可执行。

创建模型训练环境

这里的操作基本上和windows主机相同

首先输入 conda create –name train python=3.10 （现在许多包都要python3.9以上的版本，不然会报错）

激活环境 conda activate train （如果失败的话重启一下服务器）

现在我们要下载对应版本的pytorch和cuda版本以及一些有对应版本需求的包，可以如下网址查看

我这里选用了pytorch 2.0.1以及对应的cuda版本

接下来安装需要代码需要的包，比如说transformers,pandas,datasets等

完成之后进入数据云盘运行代码，也可以将需要的文件cp到系统盘，不过系统盘一般比较小，如果训练的模型较大，需要提前扩容（有的服务器不让扩容）以免报错，所以我还是建议在数据云盘上进行文件操作，另外数据云盘随时可以扩容，操作起来更加方便。

cd /mnt/data

单卡 python 文件.py

单机多卡 torchrun –nproc_per_node=2 –nnodes=1 文件.py

nproc_per_node是gpu的数量，nnodes是主机的数量