本文作者:张宁
浙江华双信息科技有限公司 技术总监
负责带领技术团队进行重点产品、项目研发,负责系统架构设计,规划平台未来技术架构方向。目前主要研究领域为图像识别、目标检测、语义分割,曾负责“三防三白”中工作服、帽子及口罩佩戴检测预警、洪水预报预警等业务。
操作场景
使用 TeslaA100 GPU 云服务器进行 YOLOv5 模型训练用于目标检测任务,查看训练效果。
YOLOv5 模型简介
YOLOv5 模型是 Ultralytics 公司于 2020 年 6 月 9 日公开发布的。YOLOv5 模型是基于 YOLOv3 模型基础上改进而来的,由 Backbone、Neck 和 Head 组成。
示意图如下:
示例环境
实例类型:单卡TeslaA100 GPU 云服务器
系统盘:50 GB高性能云硬盘
操作系统:Ubuntu20.04
带宽:20 M(按流量计费)
本地操作系统:MacOS
PytochGPU 环境搭建
参考青云官方文档《UbuntuGPU 云服务器搭建深度学习环境》中的“GPU 云服务器显卡相关配置”和“Pytorch 安装”两大模块。
训练数据
训练数据集选用 coco128,一共 128 张图片,一张图对应一个标注好的 Label。
数据集概览如下:
训练数据上传服务器
通过 Linux 连接工具,选择 sftp,输入对应的服务器公网 IP、账号、密码即可连接云服务器。
训练结果
利用 GPU 进行训练,每个 Epoch 在 1 秒内完成,300 轮 Epoch 总耗时 7 分钟,Percision 和 Recall 达到 90% 多,IOU0.5 情况下,mAP 接近 1。
每个Epoch在1秒内完成,300轮Epoch总耗时7分钟
Percision 和 Recall 达到 90% 多,IOU0.5 情况下,mAP 接近 1
查看训练结果:
补充测试
coco128 训练数据集较小,使用另一份较大的训练数据集做测试,图片约 8000 张,大小 790 M,每轮 epoch 在 40s 内完成,表现很好。
每轮 epoch 在 40s 内完成
张 宁
浙江华双信息科技有限公司
技术总监
“青云 GPU 云服务器使用下来很惊喜,TeslaA100 显卡很给力,非常适合深度学习相关模型的训练。
而且,按需计费模式下,GPU 云服务器关机后,云服务器的 CPU、内存、GPU 卡这些计算资源不会收费,只有系统盘仍会产生费用,把系统盘的容量缩小就可以节省成本了。
如果训练样本过大,想以比较低的成本传输训练样本数据,可以创建一个硬盘,在 GPU 云服务器关机的时候,将硬盘卸载,然后创建一个低配置的云服务器,将硬盘再挂载这个低配服务器上进行样本数据传输,等训练时将硬盘再挂载至 GPU 云服务器进行训练。”
青云最新 GPU 云服务器申请试用
搭载 Ampere 架构 NVIDIAA100 Tensor Core GPU 显卡,单卡显存 40 GB,单台云服务器最多可挂载 8 块 GPU,适用于深度学习、科学计算应用加速。
即刻申请,新用户可获得 200元 优惠券!
贡献实践文档还可获得 500-1000元 大额优惠券奖励!