📄️ 常用命令
pip 常用命令
📄️ SSH 隧道
在没有做企业认证前,可使用 SSH隧道 转发实例中的服务端口来实现本地电脑对实例中对应服务的访问。
📄️ 公网访问实例内服务
在 GPUGEEK 平台使用该功能可以帮您把实例内的服务暴露到公网进行访问,该服务可以是 Web项目、API接口、Stable Diffusion web UI、ComfyUI、vLLM等、以及任何监听了 HTTP、TCP 端口类型的进程。
📄️ 实例内调用命令关机
在训练或推理过程中如果不确定自己代码需要执行多久结束,但是希望训练成功或推理结果完成后立刻关机来进行节约成本,这类场景可以通过/usr/local/bin/poweroff命令来完成。
📄️ PyCharm 远程开发
远程开发主要基于将开发环境(包括代码编辑、编译、运行等)从本地机器转移到远程服务器上,这个过程涉及几个关键组件和概念:
📄️ 后台运行任务
在正常情况下,使用命令 python train.py 运行机器学习的训练或推理任务时,该进程会挂载到系统的前台,这意味着如果您通过SSH连接到远程实例进行操作,一旦SSH连接因网络延迟或波动等原因中断,与SSH会话关联的前台进程(包括您的训练任务)也将被终止,这会导致您失去所有未保存的训练进度。
📄️ 实例启动时拉起进程
在 GPUGEEK 平台使用该功能可以在实例启动的同时自动帮您拉起进程或者任务,该功能主要适用于以下场景:
📄️ 数据训练定期保存数据
在数据训练过程中,可能会出现 GPU掉卡、GPU故障、网络波动、流量负载过高、网络中断、机器硬件故障、机器宕机、数据训练中到第 N 个批次被实例系统自动 OOM 被迫终止等问题,这些问题一旦发生,如果没有适当的措施来保存训 练进度,可能会导致之前的训练成果丢失,从而需要从头开始训练。这不仅浪费了宝贵的时间和计算资源,还可能增加研究和开发的工作量。