null - 程序员宅基地

python识图自动化_聊聊 Python 自动化截图的一些经验-程序员宅基地

技术标签： python识图自动化

前言

今天想先给大家分享 1 个小白用户的 Airtest 从入门到放弃的故事

小 A 是一个自动化的小白，在逛测试论坛的时候，偶然间发现了 Airtest 这个基于图像识别的 UI 自动化框架

出于好奇，小 A 试用了这个框架，发现只需要几条简单的截图脚本，就可以对设备进行各种自动化操作，于是小 A 成功种草了这个框架

但几天之后，随着小 A 的深入使用，他发现截图脚本并不是他想象中那么“完美”；

有时候程序会告诉他

找不到对应的截图

，有时候程序又会

识别到一些错误的位置

，又或者他辛苦写好的截图脚本，换了一台手机之后，又都识别不到了......

在经历了第 N 次失败之后，小 A 最终还是放弃了这个框架

看到这里，或许一部分同学会觉得感同身受，因为自己刚开始用 Airtest 这个框架的时候，也是经常踩到上面所说的坑！

Airtest 作为 1 个自研的测试框架，它确实不能做到 “完美” 识别；但是除了期待以后我们的开发小姐姐小哥哥们研究出更精确的图像识别方案之外，我们还有很多技巧可以提高我们截图脚本的兼容性

下文我们将先了解一下

Airtest 图像识别原理相关的知识

，然后在实际案例中，带大家一起看看

个截图技

巧，帮助大家提升截图脚本的兼容性。

Airtest截图，你必须知道的几个知识点

Airtest 使用的图像识别算法

默认 Airtest 会尝试用

SURFMatching

、

TemplateMatching

和

BRISKMatching

这三种算法来进行图像识别

其中：

TemplateMatching

属于

模板匹配算法

SURFMatching

和

BRISKMatching

则属于

特征点匹配方法

简单点说，模板匹配算法依赖

特征向量

来进行图像匹配，而特征点匹配算法则是依赖于

图像的特征点

这些算法对于设备画面上唯一的图标、图像，识别效果会比较好，因为它们拥有比较多的特征向量/特征点，而对于像纯文字截图、含有大量空白背景的截图，识别效果则会差一些

我们都知道，纯文字截图中仅仅包含了一些简单的笔划，特征向量/特征点会比较少，相对于图像来说，更容易识别到错误的结果；而空白背景的截图，各个像素点的灰度值基本没有什么变化，所以特征点几乎没有，就更容易找不到匹配结果/匹配到天差地别的结果出来

程序如何根据算法结果判定是否找到匹配的截图

那当我们编写好截图脚本，并开始运行的时候，程序是如何用这些图像识别算法来帮助我们判定是否识别到结果的呢？

这里先介绍两个很重要的名词：

阙值

和

可信度

，他们的取值范围都是 [0,1]；在每一条图像识别的脚本中，都会有1个用于结果筛选的阙值，默认值为：0.7

当上述三种算法在执行过程中识别到初始结果时，就会计算出来这个初始结果的可信度，当

可信度＞阙值

的时候，程序会认为

找到了最佳的匹配结果

；而当

可信度＜阙值

的时候，程序则会认为

没有找到最佳的匹配结果

。

我们可以在执行截图脚本的时候，查看 log 窗口，观察算法识别结果的可信度：

① 可信度>阙值，程序判定找到匹配结果

② 可信度<阙值，程序判定未找到匹配结果，循环用三种算法继续查找直到超时

11 条截图技巧让你轻松玩遍自动化

了解完截图相关的基础知识之后，终于到了我们截图技巧这部分的内容，不过需要注意的是，不同场景所应用的技巧的大不相同，希望同学们可以灵活使用：

截取图标时尽量不要截入过多的背景内容

举个简单的例子，比如我们想通过点击网易云音乐的应用图标来打开网易云音乐的app，为了能在不同设备上都有更好的识别结果，我们应该尽可能选取下图中第一种截图，而不是混入了过多背景的第二种截图：

为了让大家直观地看到差别，我们在设备1上截好了上述俩张图，然后分别在设备 2 中执行，结果如下：

可以看到，没有截入过多背景的截图，识别出来的可信度高达 0.95；而截入了背景的图标截图，可信度下降到了 0.88。所以在截取这些特定图标的时候，尽量减少截入背景，可以有效提高这类截图脚本的兼容性。

打开应用尽量使用 start_app 而不是截图脚本

start_app()

支持 Android 和 iOS 设备，相对用截图脚本来启动应用，脚本会更加简洁，兼容性也会更好：

# 打开网易云音乐

start_app("com.netease.cloudmusic")

用 image editor 查看截图识别结果的可信度

我们录制/编写好 1 条截图脚本之后，无需运行，可以直接双击截图，进入图片编辑器，点击左上角的

snapshot+recognition

按钮，即可查看截图在当前页面的识别情况，包含识别出来的位置以及识别结果的可信度：

这个识别情况可以作为一个参考，帮助同学们快速调试自己的截图脚本。

巧用 target_pos 点击截图的不同位置

先来了解下什么是

target_pos

默认情况下，我们的截图脚本都是点击截图的中心位置，即

target_pos=5

。对于一张截图来说，总共有 9 个

target_pos

，当我们把截图的

target_pos

设置成不同的值时，脚本会点击在截图不同的位置上：

双击 IDE 中的截图即可打开图片编辑器，右侧可以修改

target_pos

的值：

修改完成之后，把截图脚本切换成代码模式，我们就可以看到此时的截图脚本里面多了

target_pos

这个参数：

touch(Template(r"tpl1598948415043.png", target_pos=6, record_pos=(-0.434, -0.773), resolution=(900, 1600)))

我们在做自动化的时候，经常会遇到某个图标堆叠的情况，比如在网易云音乐的某个歌曲列表中，右侧便罗列了三个完全一样的播放按钮：

如果我们的需求是点击中间那个按钮的，仅仅依靠截 1 个播放按钮来做识别，是很难保证具体识别到三个按钮中的具体哪个按钮的。

此时我们可以有 2 种截图方式来实现，一种是在竖着的方向上，扩大截图范围，让中间那个按钮处于

target_pos=5

的位置上：

另一种是在横着的方向上，扩大截图范围把左侧的歌曲介绍也一起截图了，让中间那个按钮处于

target_pos=6

的位置上：

这 2 种方式都可以确保我们点到的是中间那个按钮（假设列表歌曲不变的情况下）。

所以，当精准截图（仅截取某个按钮/图标）不能满足唯一定位时，我们可以考虑加大截图范围，增加更多的特征点，确保截图定位的准确性。

巧用坐标进行点击/滑动

有时候，我们在打开一个 app 时，会遇到一些过场动画或者是几张应用的介绍页。这些过场动画和介绍页可能会随着版本更新而变化，那么利用截图点击，可能需要花费我们比较大的精力去维护这些截图脚本。

其实这时候我们完全可以用坐标点击来替代截图点击，因为这些过场动画或者介绍页，只要有任意的点击动作，都可以跳过。

在比如说网易云音乐首页的轮播图，可能每天登录上去都是不一样的，如果我们用截图脚本来滑动/点击，那天天都需要维护这些脚本，还不如替换成坐标滑动/点击，更加省心省力：

巧用 keyevent("BACK") 替代返回的截图脚本

很多时候，我们需要从 APP 的某个页面，回到 APP 首页，一些同学可能会使用一堆的返回图标的截图语句，来实现这个需求：

123期896971

实际上，如果同学们测的是安卓设备，完全可以用

keyevent("BACK")

来替代这个返回的截图语句，更加稳定高效：

录制功能虽好用，但也要注意截图的兼容性

IDE 自带的录制功能，可以帮助我们的新手同学快速上手 Airtest 这个基于图像识别的测试框架，但是自动录制出来的截图语句，并不是都会很符合我们的实际需求，所以我们不能过度依赖录制功能。

我们可以在录制完毕之后，检查下有哪些截图并不是截的很好的，自己再手动截取一下，提升整个脚本的兼容性。

画面切换的时候，可以多使用 wait 或者 sleep，再进行点击操作

很多新手同学都很容易犯 1 个错误，就是一不小心就写了很多连续点击操作

其实，在每一个点击操作之后，应用画面也是在实时变化的。如果画面正在加载的时候，下一个点击操作就被执行了，就会很容易导致识别到错误位置或者识别超时。

举个例子，进入网易云音乐的 app 时，我们同意了服务条款之后，会有 1 个很长的启动动画，我们只有等待启动动画结束之后，才能够进行下一步的点击 “立即体验” 的操作，否则这个点击操作很可能因为在等待启动动画的过程中而识别超时：

另外，为保证连续点击都能够正常被执行，我们还可以在连续点击之间用

sleep(1.0)

来缓冲下，减少画面切换对连续点击操作的影响。

合理调整阙值

上文我们就提到过阙值，它起到结果筛选的作用。也就是说，如果我们设置的阙值过低，就更容易让错误的结果通过；而阙值设置得过高，就有可能把可信度达不到要求的正确结果也过滤掉，导致很难得出有效的识别结果。

所以我们可以通过合理调整阙值大小，更好地过滤出我们想要的识别结果。举个例子，某个截图默认阙值为：0.7，但是我们多次运行之后发现，有一定概率会识别到错误结果。这时候我们不妨将阙值调高一点试试，看看能不能提高正确识别的概率，如果可以，说明我们的阙值调整是有效的。

在 IDE 中，我们可以双击截图打开图片编辑器，在右侧修改截图的阙值：

设置好并关掉图片编辑器后，我们在脚本编写窗口右键切换成代码模式，可以看到刚才那条截图脚本多了个

threshold=0.8

参数：

touch(Template(r"tpl1598952570968.png", threshold=0.8, record_pos=(-0.021, 0.121), resolution=(900.0, 1600.0)))

当然，我们也可以设置全局的

threshold

：

from airtest.core.setting importSettingsas ST

ST.THRESHOLD = 0.7 # 其他语句的默认阈值

不过上述的修改方式只适用于除断言语句之外的截图语句，如果在断言语句的截图中，双击进入图片编辑器，再修改里面的

threshold

，最终也是不会生效的。因为断言语句的阙值与其它截图语句的阙值是不一样的，它只能通过下述方式进行设置：

from airtest.core.setting importSettingsas ST

ST.THRESHOLD_STRICT = 0.7

用自定义语句（例如截图列表）

对于设备长宽比不同、设备分辨率不同、多种字体的情况，我们也可以通过语法来提高兼容性。这种方式需要连接上脚本兼容性有问题的设备，把对应截图纳入搜索列表。代码脚本如下：

picList = [pic1,pic2,pic3] # 截图的图片对象列表

for pic in picList:

pos = exists(pic)

if pos:

touch(pos)

break # 只要找到图片列表中的任何一张图片，就执行touch

注意：如果 for 循环中没有 break 语句，会导致次逻辑运行时将所有的图片都找一遍(找到后执行 touch)，而非找到合适结果立即返回。

这种情况还适用于我们想点击任意一个随机图标的时候。

可以用 poco 语句代替截图脚本

如果同学们测试的项目可以使用 poco 框架，建议大家在自动化脚本的时候，可以灵活混用 Airtest 和 Poco 脚本，以帮助同学们的脚本达成更好的兼容性：

举个例子，在网易云音乐的某个歌单中，想选择前 10 首歌曲，如果用截图脚本的话，需要编写 10 条截图脚本，但如果用 poco 框架的话，仅需要几行遍历节点的脚本（以选择前 3 首歌曲为例）：

并且当歌曲名称变化时，脚本截图也需要跟着维护；这时候选择不变的节点作为操作对象，显然可以提升我们脚本的兼容性。

小结

提升截图脚本兼容性的技巧就整理到这里啦，当然，除了上述技巧以外，同学们在实际的自动化过程中，可能还会总结出其它的技巧。其实这些技巧都是在多次实操的过程中总结出来的，所以只要同学们多多实践，就会有更多更好的解决问题的思路啦！

智能推荐

将本地网站发布到服务器上_网页发布-程序员宅基地

文章浏览阅读1.5k次，点赞2次，收藏4次。将静态的网页部署到服务器上，首先需要下载一个xftp，帮助我们上传文件；以及它的服务端xshell帮助我们重启服务器1，首先与服务器建立连接2，要想把我们的静态网页发布到服务器上，前提是我们的服务器安装了nignx,完成这些以后把我们本地的网页文件夹上传到/usr/local/nginx/html的路径下3，文件上传成功后，还需要我们修改nignx的配置文件，打开/usr/local/ng..._网页发布

java.net.ConnectException: no available server-程序员宅基地

文章浏览阅读2.1w次，点赞8次，收藏10次。我出现这个错误是因为没有加载我的配置文件在这里插入图片描述可以看到我上图打印的是连接我本地的nacos,并且连接超时但实际我的配置文件并不是配置的本地，看下图这就是典型的没有加载解决办法：完成这些就能加载到配置文件了..._no available server

请求大佬帮忙看看VScode Tensorflow model.fit 报错_model.fit报错use_multiprocessing=use_multiprocessing-程序员宅基地

文章浏览阅读1k次。import numpy as npimport tensorflow_core as tffrom tensorflow.keras.layers import Dense, SimpleRNNimport matplotlib.pyplot as pltimport osinput_word = "abcde"w_to_id = {'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4} # 单词映射到数值id的词典id_to_onehot = {0: [1.,._model.fit报错use_multiprocessing=use_multiprocessing

chapter04-程序员宅基地

文章浏览阅读152次。1、创建/guanli 目录，在/guanli下创建zonghe 和 jishu 两个目录（一条命令）[root@localhost ~]mkdir -p /guanli/{zonghe,jishu}2、添加组帐号zonghe、caiwu、jishu，GID号分别设置为2001、2002、2003[root@localhost ~]# groupadd -g 2001 zon..._在chapter04的包cn.itcast.chapter04.prsponse

字符串_空串是什么都没有字符串吗-程序员宅基地

文章浏览阅读362次。串的定义串是字符串的简称。在数据结构中，串是一种在数据元素的组成上具有一定约束条件的线性表，即要求组成线性表的所有数据元素都是字符，所以说串是一个有穷的字符序列。串是由零个或多个字符组成的有限序列，记作s=”s0s1…sn-1”(n≥0)，其中s是串名，字符个数n称作串的长度，双撇号括起来的字符序列”s0s1…sn-1”是串的值字符串(String)是由数字、字母、任何其它的符号组成的一串字符。零个字符的串（即：""）称为空串，空串不包含任何字符。值得注意的是：（1）长度为1的空格串" “不等同于_空串是什么都没有字符串吗

mathtype软件产品密钥最新7.4_mathtyoe产品密钥-程序员宅基地

文章浏览阅读1.5k次，点赞15次，收藏18次。总之，MathType 7.4是一款功能全面、易于使用的数学公式编辑器，无论是教育、科研还是出版领域，它都能为用户提供强大的支持和便利。当然，作为软件技术支持专家，我很乐意为用户提供关于MathType 7.4的详细信息和支持。_mathtyoe产品密钥

随便推点

【SQL注入漏洞-04】布尔盲注靶场实战_oracle布尔盲注-程序员宅基地

文章浏览阅读6.5k次，点赞4次，收藏3次。当我们改变前端页面传输给后台sql参数时，页面没有显示相应内容也没有显示报错信息时，不能使用联合查询注入和报错注入，这时我们可以考虑是否为基于布尔的盲注。利用页面返回的布尔类型状态，正常或者不正常；我们输入的语句让页面呈现出两种状态，相当于true和false，根据这两种状态可以判断我们输入的语句是否查询成功。布尔盲注就是根据这两种状态，来反推我们输入的条件是真还是假。以sqli-labs-masterless-8关为例_oracle布尔盲注

ROS学习（11）使用ROS创建地图_ros建图-程序员宅基地

文章浏览阅读1w次，点赞10次，收藏72次。创建地图是一件比较复杂的工作，ROS利用map_server地图服务器，借助激光雷达和机器人的里程信息来完成这项工作。本篇我们还是利用柳树车库作为默认的地图环境。主要介绍了地图的创建、保存、加载，下一篇尝试配置导航功能包集，并在gazebo仿真环境下完成自定义机器人的自主导航。httpshttpshttpshttps。..._ros建图

自定义Magento页标题与Meta描述_magento seo suite 自定义 meta description-程序员宅基地

文章浏览阅读3.2k次。在Magento中，CMS页、产品页、分类页均可以设置Meta keywords与Meta Description。但在其它页面上如何设置呢？例如今天SEO团队发来文档，要求修改Checkout页、MyAccount页、Login页、Contact页等等的页标题与Meta描述部分。于是第一反应就是用XML来配置.另：在System-Configration-Design-Html-_magento seo suite 自定义 meta description

【PTA-python】第4章-15 换硬币 (20 分)_pta换硬币python-程序员宅基地

文章浏览阅读1.3k次。第4章-15 换硬币分析题目解法分析为了实现各个硬币数目>=1，range()函数设定倒序范围，先求五分硬币数目，再求二分硬币数目，最后求一分硬币数目，注意在往下递推求解的过程中，各个硬币数目的条件是>=1，这影响到range(five,0,-1)和if one>=1:题目将一笔零钱换成5分、2分和1分的硬币，要求每种硬币至少有一枚，有几种不同的换法？输入格式:输入在一行中给出待换的零钱数额x∈(8,100)。输出格式:要求按5分、2分和1分硬币的数量依次从大到小的顺序_pta换硬币python

firewall限制或开放IP及端口命令_firewall-cmd --zone=public --list-ports-程序员宅基地

文章浏览阅读1w次，点赞6次，收藏23次。一、查看防火墙状态1、首先查看防火墙是否开启，如未开启，需要先开启防火墙并作开机自启systemctl status firewalld开启防火墙并设置开机自启systemctl start firewalldsystemctl enable firewalld一般需要重启一下机器，不然后面做的设置可能不会生效二、开放或限制端口1、开放端口（1）如我们需要开启XShell连接时需要使用的22端口firewall-cmd --zone=public --add-port=22/tcp _firewall-cmd --zone=public --list-ports

北京交通大学-图像处理与机器学习_北京交通大学图像处理与机器视觉实验代码-程序员宅基地

文章浏览阅读6.7k次，点赞10次，收藏73次。日期项目2022/03/04更新实验环境配置视频P6，第八章后所有内容已同步更新！名称项目课程主页图像处理与机器学习B站主页啥都会一点的研究生课程B站视频【北交】图像处理与机器学习人工智能技术探讨群178174903人工智能技术探讨群2571218304人工智能技术探讨群3584723646课程目录及资料（UP已打包整理支持直链下载）章节内容资料第一章绪论1-1 基本._北京交通大学图像处理与机器视觉实验代码

python识图自动化_聊聊 Python 自动化截图的一些经验-程序员宅基地

智能推荐

将本地网站发布到服务器上_网页发布-程序员宅基地

java.net.ConnectException: no available server-程序员宅基地

请求大佬帮忙看看VScode Tensorflow model.fit 报错_model.fit报错use_multiprocessing=use_multiprocessing-程序员宅基地

chapter04-程序员宅基地

字符串_空串是什么都没有字符串吗-程序员宅基地

mathtype软件产品密钥最新7.4_mathtyoe产品密钥-程序员宅基地

随便推点

【SQL注入漏洞-04】布尔盲注靶场实战_oracle布尔盲注-程序员宅基地

ROS学习（11）使用ROS创建地图_ros建图-程序员宅基地

自定义Magento页标题与Meta描述_magento seo suite 自定义 meta description-程序员宅基地

【PTA-python】第4章-15 换硬币 (20 分)_pta换硬币python-程序员宅基地

firewall限制或开放IP及端口命令_firewall-cmd --zone=public --list-ports-程序员宅基地

北京交通大学-图像处理与机器学习_北京交通大学图像处理与机器视觉实验代码-程序员宅基地

推荐文章

热门文章

相关标签