Ubuntu操作指南

挂载数据云盘、创建训练环境

在webssh端输入lsblk

可以看到vdb是我们的数据云盘,没有分区,disk后面没有地址说明还没有链接挂载点

输入sudo fdisk /dev/vdb创建分区

输入n,并按回车,创建新分区。

配置分区号,输入p,并按回车(只要创建4个以下的分区,就选p),然后选择创建的分区号,因为是创建第一个分区,所以用默认值就行,直接按回车,显示如下:

分区表写入磁盘,输入wq,把分区表写入磁盘,并退出

如果需要格式化创建之后的分区,输入sudo mkfs.ext4 /dev/vdb1

由于我自己的需要,所以我这里没有选择创建分区,我直接格式化了整个磁盘,也就是数据云盘,    sudo mkfs.ext4 /dev/vdb   (ext4是一种文件系统)

创建磁盘挂载的目录,假设挂载到 /mnt/data 目录下,输入sudo mkdir /mnt/data

挂载新分区: 然后使用挂载命令 sudo mount /dev/vdb /mnt/data 将新创建的分区挂载到 /mnt/data,可以看到disk后面已经有了挂载的目录

为了确保在重启后挂载仍然有效,可以编辑 /etc/fstab 文件,将新分区的挂载信息加入其中。输入sudo nano /etc/fstab

在文件中输入/dev/vdb  /mnt/data  ext4  defaults  0  2

按键Crtl+x后,输入y,回车确认,就保存文件退出了

我们现在使用winscp上传文件到数据云盘中,也就是到刚才挂载的目录,会发现没有写入权限

假设我们当前的用户是ubuntu(不同的操作系统用户名不同)就输入

sudo chown ubuntu:ubuntu /mnt/data

这会使 /mnt/data 目录对用户ubuntu可读、可写、可执行。

创建模型训练环境

这里的操作基本上和windows主机相同

首先输入  conda create –name train python=3.10   (现在许多包都要python3.9以上的版本,不然会报错)

激活环境 conda activate train   (如果失败的话重启一下服务器)

现在我们要下载对应版本的pytorch和cuda版本以及一些有对应版本需求的包,可以如下网址查看

https://pytorch.org/get-started/previous-versions

我这里选用了pytorch 2.0.1以及对应的cuda版本

接下来安装需要代码需要的包,比如说transformers,pandas,datasets等

完成之后进入数据云盘运行代码,也可以将需要的文件cp到系统盘,不过系统盘一般比较小,如果训练的模型较大,需要提前扩容(有的服务器不让扩容)以免报错,所以我还是建议在数据云盘上进行文件操作,另外数据云盘随时可以扩容,操作起来更加方便。

cd /mnt/data

单卡  python 文件.py

单机多卡  torchrun –nproc_per_node=2 –nnodes=1 文件.py

nproc_per_node是gpu的数量,nnodes是主机的数量

发表评论