【亲测】Swin-Transformer 自定义数据集图像分类_swin-transformer类别数-程序员宅基地

技术标签: 深度学习  transformer  pytorch  

Swin-Transformer是当前热门的深度学习框架,适用于多种视觉任务,相关的原理,网上有很多资源,大家可自行查看,这里主要介绍其在图像分类方面的代码调试经验,方便各位快速上手实验。Swin-Transformer代码链接点击进入

在这里插入图片描述

实验环境及配置:
Pytorch: 1.7.1
CUDA: 10.1.243 版本(使用 nvcc --version 查看)
GPU:显存8G
操作系统: Centos 7
1 环境配置

其实根据官方的配置步骤,可以实现快速的配置,但是在进行到 Nvidia apex 那个步骤的时候,可能会出现一些问题,因为可能我们不是那么容易安装 apex 这个加速框架,等下会进一步介绍。下面先按照代码官方的配置过程来:

1.1 下载官网代码,也可以用官网推荐的以下命令:

git clone https://github.com/microsoft/Swin-Transformer.git (可能会出翔网络问题)
cd Swin-Transformer (进入下载的文件夹)

如果您的网络有问题,不能使用以上命令下载,则直接在官网界面点击下载 zip 压缩包,再进行解压就行。
在这里插入图片描述
1.2 创建并激活虚拟环境,使用以下命令:

conda create -n swin python=3.7 -y (其中虚拟环境 swin 名字,可以自定义)
conda activate swin (进入该虚拟环境)

1.3 确定自己GPU 安装的 CUDA 版本(运行时的版本),使用 nvcc -V (或 nvcc --version)使用 nvidia-smi 看到的是 CUDA 为驱动API版本,和运行时的版本不同,这个需要注意。

用于支持driver API的必要文件(如libcuda.so)是由GPU driver installer安装的。nvidia-smi就属于这一类API。
用于支持runtime API的必要文件(如libcudart.so以及nvcc)是由CUDA Toolkit installer安装的。一般后续安装各种包或库,需要此类CUDA编译,所以我们后来需要安装和这个版本对应的 cudatoolkit 版本。
在这里插入图片描述

下面是安装包或库,这个需要在 你刚才创建的那个虚拟环境下进行安装

1.4 安装 PyTorch==1.7.1 and torchvision==0.8.2 with CUDA==10.1:,这里的CUDA 和上面的运行时 API 一样。

conda install pytorch==1.7.1 torchvision==0.8.2 cudatoolkit=10.1 -c pytorch

1.5 安装 timm 包

pip install timm==0.3.2

PyTorch Image Models (timm)是一个图像模型(models)、层(layers)、实用程序(utilities)、优化器(optimizers)、调度器(schedulers)、数据加载/增强(data-loaders / augmentations)和参考训练/验证脚本(reference training / validation scripts)的集合,目的是将各种SOTA模型组合在一起,从而能够重现ImageNet的训练结果

1.6 安装 apex
官方安装语句,但是有时候 git 会因为网络问题,不能下载,且在运行下面第三句话时 pip 时会出现问题。所以我们尽量介绍另外的安装策略。

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" ./

如果上面的 git 命令无法下载,则采用下面的策略:
在这里插入图片描述
解压下载的文件后,进那个 apex 文件夹就行
在这里插入图片描述
下面说下,我安装过程中出现的问题有:
1) 当然如果您上面的 cudatoolkit 版本没安装正确,同样也会报一个 mismatch 的错误,所以以上的安装一定要安装对版本。
2)同样如果直接运行第三句命令,还会报一个,apex 文件夹中没有 setup.py 文件等,此时注意到,上面的图中,在apex 文件夹外就有个 setup.py 把那个文件直接复制进 apex 文件夹,再次运行上面的 第三条命令,看看能不能顺利执行,如果最终成功了,恭喜您,如果没成功,不要着急,我还有另外的安装方式。

如果上文的命令不行,请使用下面的命令:
1 在 apex 文件夹中运行 python setup.py install
2 然后运行 python setup.py build 即可,然后编译为我后面截图那个文件夹,
3 把那个apex 复制到swin-tranformer 的代码目录,即可。
如果还不行, 可以直接使用 pip install apex 试试

在这里插入图片描述
这个是我编译好的apex 文件夹情况,
在这里插入图片描述
编译好的 apex 直接复制到 swin-transformer 文件夹
在这里插入图片描述
1.7 安装一些其他包:

pip install opencv-python==4.4.0.46 termcolor==1.1.0 yacs==0.1.8

以上就是环境配置,如果配置完全,即可进行下面的步骤了。

2 数据准备

数据集处理成 imagenet 的格式,即每个类别放在一个文件夹,最好是类名直接命名为数字形式,也可以是真是类标,然后将 训练集 验证集 测试集 分文件夹存储,每个文件夹的格式就像下面的 样子。
在这里插入图片描述
在这里插入图片描述

代码更改

1 打开 config.py , 将数据集的文件夹写进去,这样到时候训练时候,就不用再写了。
2 修改类别的数量,因为默认是 1000类,
3 下载预训练模型,并在 config.py中配置

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
使用百度云盘下载即可。
在这里插入图片描述
**加粗样式
**
还要改正几个地方,
1 build.py 中的 类别数数量
在这里插入图片描述
2 预训练模型加载过程中,由于自定义数据集类别未必是1000 所以需要改utils.py 中的这个函数,我这里是加了个判断,您也可以改为其他的形式。
在这里插入图片描述
3 测试时候,需要将 数据集改为 test 数据集,因为代码默认 为验证集,在 build.py 中
在这里插入图片描述

单块GPU训练和测试的命令

训练

python -m torch.distributed.launch --nproc_per_node 1 --master_port 12345  main.py \
--cfg configs/swin_tiny_patch4_window7_224.yaml  --batch-size 8 

测试

python -m torch.distributed.launch --nproc_per_node 1 --master_port 12345  main.py --eval\
--cfg configs/swin_tiny_patch4_window7_224.yaml --resume 训练模型路径 --batch-size 8 

【以上即为Swin-Transformer图像分类调试过程】
训练过程:
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_29750461/article/details/120863541

智能推荐

【基础算法】反转链表的三种方法_链表反转-程序员宅基地

文章浏览阅读3.3k次,点赞13次,收藏20次。【基础算法】反转链表的三种方法_链表反转

使用遗传算法优化的BP神经网络实现自变量降维_bp神经网络优化-程序员宅基地

文章浏览阅读317次。本次利用遗传算法筛选出最具有代表的自变量,再利用BP神经网络进行预测。_bp神经网络优化

第十四届蓝桥杯青少组选拔赛Python真题 (2022年11月27日),包含答案_python 蓝桥杯真题-程序员宅基地

文章浏览阅读2.5k次,点赞2次,收藏6次。初始客户编号为 1、2、3 的客户分别在 1、2、3 窗口同时办理业务;窗口 3 用时 2 分钟办理完 3 号客户的业务,变为空闲状态,并按顺序呼叫 4 号客户,4 号客户用时 4 分钟窗口 1 用时 3 分钟办理完 1 号客户的业务,变为空闲状态,并按顺序呼叫 5 号客户,5 号客户用时 7 分钟。例如: N=3.M=7、从编号3 的位置到综号 7 的位置共有5 条路线,分别为: (3->5->7),(3-5->6->7,(3->4-5->7(3->4->5->6>7) ,(3->4>6->7)。_python 蓝桥杯真题

基于RK3399 Android11适配OV13850 MIPI摄像头_camera_etc.mk-程序员宅基地

文章浏览阅读1.4k次,点赞22次,收藏21次。基于RK3399 Android11 适配MIPI摄像头 OV13850_camera_etc.mk

2020公文格式模板及范文_公文写作格式+请示、报告、会议纪要基本模板-程序员宅基地

文章浏览阅读6.4k次。一、排版1.WORD文档页面设置,页边距:上3.7cm,下3.5cm,左2.8cm,右2.6cm。具体操作过程中,根据版式要求,也可适当调整。2.字体要求:文章标题为二号方正小标宋、居中,标题内容多,可分多行,排成梯形或菱形,标题内容换行时注意词意完整,标题行距选择磅值约30-34之间,可根据版面自行设定。正文为三号仿宋,行距选择1.5倍行距,也可根据页面做适当调整。3.正文结束空2-3..._请示的页边距

Pandas-处理文本字符串(拼接)_pandas字符串拼接-程序员宅基地

文章浏览阅读6.8k次。Pandas提供了不同的方法将序列或索引与他们自己或者其他的对象进行拼接,所有的方法都是基于各自的cat()方法1.将单个序列拼接为一个完整字符串输出:2. 如果没有额外声明,sep即分隔符默认为空字串,即sep='':输出:3.默认情况下,缺失值会被忽略。使用na_rep参数,可以对缺失值进行赋值:输出:4.拼接序列和其他类列表型对象为新的序列cat()的第一个参数为类列表对象,但必须要确保长度与序列或索引相同.输出:..._pandas字符串拼接

随便推点

LLaMA 2 - 最全资源汇总,你想要的都有_llama-2-7b-chat-gguf 百度网盘-程序员宅基地

文章浏览阅读553次。LLaMA 2 是 Meta 开发的大型语言模型,是 LLaMA 1 的后继者。LLaMA 2 可通过 AWS、Hugging Face 等提供商免费用于研究和商业用途。LLaMA 2 预训练模型接受了 2 万亿个标记的训练,上下文长度是 LLaMA 1 的两倍。其微调模型已经接受了超过 100 万个人工注释的训练。本文包含 LLama 2 所有相关资源,可帮助您快速入门。它包括以下链接:LLaMA 2 是什么?Lllama 2在线体验Llama2 背后的研究Llama 2 基准测试有多好。_llama-2-7b-chat-gguf 百度网盘

《C语言程序设计》谭浩强-学习笔记以及课后习题答案(考前复习/考研/专升本)_谭浩强课后习题csdn-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏26次。《C语言程序设计》谭浩强-学习笔记-课后习题答案(考前复习/考研/专升本/)_谭浩强课后习题csdn

Knowledge Distillation by On-the-Fly Native Ensemble论文解读_on the fly 蒸馏-程序员宅基地

文章浏览阅读1.1k次,点赞2次,收藏2次。1. 网络结构: Gate为全连接网络,用来学习哪个网络更重要。目前利用全连接网络选择网络部件重要性的方法很流行。“三个臭皮匠顶个诸葛亮?”,感觉很像bagging方法。2. 损失函数: 训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。 最终的Loss 第一项代表各个分支的损失,第二项代表最后Teacher的损失,第三项代表各..._on the fly 蒸馏

Mac 屏幕录制 权限 没有可勾选或添加的App选项 产生原因和解决办法_mac屏幕录制没有微信选项-程序员宅基地

文章浏览阅读4.1w次,点赞12次,收藏39次。遇到问题:安装软件需要获取截屏和屏幕录制的功能权限,但是发现打开系统设置->安全性与隐私-屏幕录制,右边竟然没有可勾选或可添加的App选项产生原因:经过网络搜索关键字,发现是因为系统升级到10.5,MacCataLina过程中位于/Library/Application Support/com.apple.TCC目录下的TCC.db文件损坏了。期间遇到的错误提示(Error: table access has 7 columns but 12 values were supplied)..._mac屏幕录制没有微信选项

python一些练手小项目_pycharm 练手程序-程序员宅基地

文章浏览阅读260次。python一些练手小项目参考Pycharm+django2.2+python3.6+MySQL实现简单的考试报名系统Pycharm+Django之使用模型django基础之数据库操作使用pycharm调试django项目_pycharm 练手程序

汇编语言 第三版 王爽 实验四_汇编语言第三版实验4第三题-程序员宅基地

文章浏览阅读8.2k次,点赞4次,收藏17次。百度文库答案有误。特写此博客。_汇编语言第三版实验4第三题

推荐文章

热门文章

相关标签