实例相关
1、固定时长实例关机后,GPU会预留吗?
只要在固定时长周期里都会预留,随时都可以重启,不必担心GPU被其他用户占用。所以尽量采用固定时长的计费模式。
2、开机时,主机的空闲GPU不足了怎么办?
按量计费可以使用精简模式开机。
3、关闭本地电脑,训练任务会中断吗?
l 如果是通过 Tmux 将任务放在后台运行,或使用 JupyterLab 浏览器运行的任务。关闭本地电脑不会中断训练。
l 如果是直接在终端中执行训练,或使用VSCode 等 IDE 连接执行训练,则关闭电脑会中断训练。
4、系统盘、数据盘占满会出现什么问题?
系统盘占满后,可能导致开机速度回比较慢,另外可能会导致保存镜像、实例克隆功能失败,建议保留10M以上空间;数据盘占满后,可能会导致实例克隆、实例迁移失败,建议保留2G以上空间。
5、实例关机后重新开机端口号变了?
一般情况下,如果您的源实例不释放,不论开机、关机、关机后重新开机,ssh的端口号是不变的。如果您操作了迁移实例或者更换了镜像/配置,端口号是会改变的哦~
6、如何看显卡占用的情况?
通过终端执行 nvidia-smi 命令可以查看显卡的情况,可以查看显卡功耗、显存占用等情况。也可以直接在控制台-实例的监控页面直接查看GPU、显存、CPU等使用情况。
7、jupyter打不开?
可能是以下原因导致打不开:
a.系统盘占满;
b.改变了jupyter默认配置;
jupyter 删除缓存文件路径:/root/.local/share/Trash/files
8、训练时GPU 利用率上不去?
在训练过程中查看显卡的使用率,发现核心利用率和显卡功耗低,没有完全利用显卡。这种情况有可能是每一次训练的步骤中,除了使用GPU 外,还有大部分时间消耗在了 CPU。造成了 GPU 利用率成周期变化。解决利用率的问题需要改进代码。
9、运行中的实例重启失败怎么办?
建议点击操作栏中的关机,关机后,实例将停止计费,如有需要请联系客服进行处理。
10、如何避免数据丢失?
开启checkpoint可以来避免数据丢失。
通常在训练模型的过程中,偶尔可能会发生网络波动,显卡故障等问题;
如果在前台训练,一旦出现网络波动,前面训练将功亏一篑,又得重头开始训练,因此每间隔一段时间就将训练模型信息保存一次很有必要(开启checkpoint)。而这些信息不光包含模型的参数信息,还包含其他信息,如当前的迭代次数,优化器的参数等,以便用于后面恢复训练。
强烈建议通过tmux命令或者nohup命令将训练放到后台,这样可以避免网络波动所发生的问题,同时建议开启checkpoint,间隔时间保存训练结果,来确保显卡故障或偶尔问题导致训练数据丢失的风险。
11、已经释放的实例还能找回数据吗?
实例一旦释放,其数据将无法恢复,无法找回
12、pip下载过慢?
pip下载包的时候默认是非国内站点下载,所以需要使用国内镜像源。
推荐方法:
pip install 你要下载的包 -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple/
13、当「固定时长」实例到期后,如何导出数据?
可以通过「实例克隆」功能,克隆一个按量计费的实例。可以理解为将原固定时长的计费模式转为按量计费。如此后,即可通过精简模式或者按量计费重新开机,将数据导出
(温馨提示:在完成实例克隆后,记得及时释放原实例,若未释放会持续收取数据盘的费用)
14、Jupyter修改默认目录
进入jupyter,点击控制台

输入vi /usr/init/jupyter/jupyter_config.py
将c.ServerApp.root_dir = "/root"
改为c.ServerApp.root_dir = "/"或者你需要的位置。
关机再次开机后即可生效。
15、系统盘空间不足怎么办?
可以用两种方法来解决:
方法一、清除系统盘文件
以下目录是可能占用较大空间,但需要您根据实际情况清理的目录:
/tmp/
/root/.cache
以下两个是可以直接删除,不影响系统运行的目录,所以可以直接删除
rm -rf/root/.local/share/Trash/files 清除jupyter回收站
rm -rf /root/miniconda3/pkgs/* 清除conda的历史包
(注意使用rm命令删除文件无法恢复)
✅正常清理系统盘步骤:
首先主要查看文件和目录的使用空间,找出“大文件”
step1、查看文件大小:使用ls -alh命令来查看文件的大小,仅仅是文件夹本身大小,并非文件夹下所有文件的大小;
step2、排序文件夹大小:使用du -sh文件名命令,递归统计该文件夹下所有文件的大小,找出不需要的“大文件”。
step3、删除文件:使用rm -rf 文件名来删除文件/文件夹,释放系统盘空间。
方法二、将数据存储路径从系统盘迁移到数据盘
首先,可以mv 文件,将该文件移动到数据盘。比如:mv miniconda3/ /data/,就可以将当前目录下的miniconda3目录移动到 /data/ 目录下,以节省/root的空间。(注:miniconda3被mv到数据盘后,这个“镜像”就不能保存镜像了。因为保存镜像保存的是系统盘。)

然后,通过“软链接”保持路径兼容性(以上截图中,不需要修改程序中对/root/miniconda3的引用)
软链接(符号链接),是一种特殊的文件,它指向另一个文件或目录。可以理解为快捷方式或指向目标文件/目录的“指针”。当访问软链接时,系统会自动跳转到目标文件或目录。
✅“软链接”具体步骤示例:
创建软链接使用命令 ln -s
ln -s <目标文件或目录> <软链接的名称>
<目标文件或目录>:你想要链接的文件或目录的路径。
<软链接的名称>:你希望创建的软链接的名称。
1、假设有一个目录 /data/miniconda3,你希望在/root中创建一个指向这个目录的软链接。
ln -s /data/miniconda3 /root/miniconda3
这样,在/root/ 中就会创建一个名为 miniconda3的软链接,它指向 /data/miniconda3
2、访问软链接时,系统会自动跳转到目标目录。例如,运行:
cd /root/miniconda3
系统会将你带到 /data/miniconda
3,因为软链接会把操作传递给它指向的实际目标。
3、验证软链接是否成功?
回到root目录下输入ll命令,软链接颜色突出,如下图所示,并会用箭头 ->
显示指向的目标

故障处理
1、显存溢出(CUDA OOM)如何处理?
如果执行程序报错OOM显存不足,那么最简单的调试办法是设置batch size=1然后逐步增大,观察跑到多大bs时OOM,以此为依据再决定升配成多卡还是换一个更大显存的卡。另外一种情况,第一次跑没有OOM,但是再次运行就OOM了,这类情况先使用nvidia-smi命令确认在未跑时显存占用,如果有占用那么说明有之前跑的残留进程需要清理掉,清理方式; ps -ef 找到进程PID,然后kill -9 PID,如果没有显存占用,那么说明程序的特性就这样,比如动态深度学习框架的显存是会发生变化的,正好在计算过程中对显存的需求超出上限。
费用充值
1、充值是否有时间限制?
没有,可随时充值,到账时间依赖于用户选择的付款方式。
2、微信支付、支付宝充值需要手续费吗?
不需要交手续费。
3、固定时长实例到期了,可以保留多少天?
固定时长到期后,超过 7天 后实例会被释放删除。释放后数据不可找回。
4、按量计费关机了,可以保留多少天?
按量计费关机超过 7天 后实例会被释放删除。释放后数据不可找回。
5、如果发生欠费,按量计费实例会怎么样?
当余额小于 0 元时,按量计费的实例将自动关机,关机超过 7天 后实例会被释放删除。释放后数据不可找回。
6、固定时长和按量计费这两种计费方式,可以相互切换吗?
按量计费可以切换到固定时长(包月、包周、包日);固定时长无法直接切换按量计费,但是可以通过“克隆实例”来变为按量计费。
7、按量计费的实例关机状态下是否会产生费用?
若无付费数据盘情况下,通常是不会产生费用的。