本帖最后由 iiopol 于 2026-4-24 20:29 编辑
完整视图
流程视图
插入
游览器模式选择元素
链接:https://pan.baidu.com/s/1Ku4qtDV1m6cjIfs6qNJJHQ?pwd=4jgj 提取码:4jgj
AutomationOperation 自动化操作工具
AutomationOperation 是一款面向 Windows 桌面、浏览器和识别任务的自动化操作软件(主界面:AutomationOperation.exe)。用户通过“模板/流程”配置操作节点,让软件按顺序自动执行鼠标、键盘、图像识别、OCR、浏览器、文件处理、窗口控制、变量计算和流程判断等操作,适合把重复性工作做成可复用的自动化流程。
软件同时提供 AI 模板生成能力:可以根据自然语言描述生成自动化模板。
功能概览
AI 模板生成
- 支持根据中文任务描述生成自动化模板 JSON,适合快速搭建常见流程
- 操作目录,覆盖鼠标、键盘、识别、浏览器、文件、流程控制、变量等常用节点
- 支持参考模板和字段说明,帮助 AI 正确生成枚举值、变量字段、识别参数和流程跳转结构
- 适合生成批量处理、识别后分支、循环等待、浏览器表单处理、文件重命名等自动化配置
自动化模板
- 鼠标:移动/单击/双击/拖动/滚轮(支持 Ctrl/Shift/Alt + 滚轮、左键按下/弹起、点击次数与点击后延时);坐标支持固定或变量输入
- 键盘:文本输入/特殊按键(支持只按下/只释放);文本可来自变量;前台模式可选“输入前点击”
- 识别:
- 图片识别:单图/多图(最多 5 张),支持全屏/指定区域、并行搜索、随机点击点、结果写入布尔变量
- 颜色识别:单色/多色(最多 10 个),支持区域框选与取色放大镜(显示 HEX/RGB、方向键微调、回车/左键确认)
- 文字识别:OCR(PaddleOCR),支持全屏/区域;可“识别点击”或“OCR 读取”;结果可复制到剪贴板或存入变量,并可输出布尔结果
- YOLO 检测:支持目标检测类任务,可用于识别屏幕中的指定对象并把结果写入变量
- 二维码识别:支持从屏幕或指定区域读取二维码内容,结果可用于后续输入、判断或输出
- 控件识别:支持识别界面控件信息,适合配合点击、等待、条件判断等步骤
- 等待与延迟:延迟(固定/随机/变量时间,单位毫秒,最小 1ms);等待条件(程序/文件/窗口/图片/文字/颜色等,支持超时/检查间隔/无限等待;图片等待支持灰度与屏幕变化跳帧优化,支持后台等待)
- 文件与程序:打开文件/文件夹;启动程序;文件名修改(单文件/批量、通配符与子目录、模板变量);剪贴板读写;浏览文件;压缩/解压(zip/7z/rar,可选密码/分卷/删除源文件);Python 模块调用
- 浏览器:浏览器管理(Edge/Chromium/Firefox/WebKit,有头/无头、窗口大小、登录复用);页面跳转、元素点击、输入/读取、截图;支持浏览器验证码字段、智能选择器拾取
- 屏幕截图:全屏/区域/窗口截图,保存到指定目录;支持文件名模板(如
screenshot_{yyyyMMdd_HHmmss}.png)、覆盖或自动重命名;支持 GDI / DXGI / PrintWindow(PrintWindow 需先绑定窗口)
- 窗口与辅助:获取鼠标位置、移动窗口、激活窗口、提醒提示,适合自动化流程执行前的准备和收尾
录制与选点
- 录制:录制鼠标(含滚轮与修饰键)、键盘输入(自动转换为特殊按键)、截图/图片识别(默认
Shift+Q 或按钮)
- 坐标模式:
- 绝对坐标:屏幕坐标
- 相对坐标:相对当前鼠标位置的偏移
- 窗口坐标:相对目标窗口客户区坐标(用于后台点击)
- 工具:适配多屏幕选点;快速截图、拾取颜色、框选区域;截图支持 GDI / DXGI / PrintWindow(适配 DPI 缩放与后台识别),选点/截图时隐藏主界面
运行与控制
- 执行模式:前台(SendInput)/ 后台(SendMessage)/ 驱动键鼠(罗技 G HUB,需安装驱动并加载
AutomationGHUB.driver.dll)
- 循环:循环/无限循环、最长执行时间;内循环(开始/结束/跳出)可在两个节点之间重复执行 N 次(N 可固定或来自变量),支持无限循环;可将“当前迭代次数”写入变量,并支持布尔变量条件跳出;
- 失败与错误处理:识别/等待等步骤可设置失败后处理(停止/继续/跳转序号/进入下一个循环/执行其他配置/等待确认);可选择“报错后停止/继续”
- 快捷控制:暂停/继续(默认
F6)、单步执行(默认 F10)、取消执行、强制退出;多套流程可各自配置热键(最多 10 个)
- 托盘与定时:托盘菜单一键执行/取消、开机自启开关、定时器状态显示;支持多个时间段定时执行并每日重置
配置与界面
- 配置管理:保存/另存为、新建/清除;配置名可修改;支持从不同文件夹加载;标题显示当前执行配置
- 操作列表:拖拽排序;
Ctrl/Ctrl+Alt + 方向键调整顺序;右键插入;复制粘贴(模板或文本);Shift/Ctrl 多选;分页显示(每页最多 25)
- 通知与安全:toast/气泡提示、提醒铃声;同目录单实例运行避免重复打开
后台模式说明
- 后台模式通过窗口绑定(句柄/标题/进程/类名/窗口组)定位目标窗口;步骤可继承窗口信息,尽量不抢占前台焦点。
- 后台点击必须使用窗口坐标;可通过选点或录制绑定句柄,执行时优先句柄,失效后回退到标题/进程/类名。
- 句柄只在当前会话有效,重启后需重新绑定;多窗口建议分别绑定句柄或使用窗口组。
- 后台识别可选 DXGI/PrintWindow;可在设置中的“后台图片测试”先验证目标窗口是否能被后台识别。
变量系统
变量用于“把数据存起来并在步骤间传递”,让流程更通用:比如坐标/文本/次数可改成变量,识别结果可写入变量用于判断与跳转。
变量类型
- 类型:字符串 / 数值 / 布尔 / 列表(如一组文件名)
- 字符串变量支持多行文本;全局变量和当前配置变量的字符串值会按原文保存,空格和换行不会被自动删除
- 列表变量使用换行、逗号或竖线分隔;如果需要完整保留换行,请使用字符串变量
变量在哪里用
- 鼠标:坐标可选“变量坐标”,用于动态点击/移动/拖动
- 键盘:输入文本可来自变量(如把 OCR/浏览器读取到的内容再输入)
- 识别:图片识别/多图识别可把成功/失败写入布尔变量;文字识别可把 OCR 内容存入变量
- 循环:内循环次数可来自数值变量;内循环可把“当前迭代次数”写入变量;内循环跳出可读取布尔变量作为条件
- 浏览器:页面跳转,元素输入/输出 等可结合变量实现动态 URL、动态表单,爬取内容。
变量读取(把外部数据读进来)
变量读取(文本):读取 txt等文件内容,支持设置编码、是否去除首尾空白
变量读取(Excel):读取单元格/范围/工作表/行/列;单元格地址、行号、列标识支持“固定/变量”;输出为文本(换行分行、\t 分列,方便再输出到 Excel)
变量读取(文件名):读取文件夹内文件名列表,支持过滤器、是否包含子文件夹、是否去除扩展名;输出为列表变量
变量操作(对变量做计算与处理)
变量操作:支持加减乘除、数学表达式、字符串拼接/替换、大小写转换、字符串分割等
- 数学表达式支持变量引用:
${变量名},例如 ${price}*${count}+10
- 支持列表变量按索引取值,索引可固定或来自数值变量(适合配合内循环遍历列表)
变量输出(把变量写出去)
变量输出:输出到剪贴板、文本文件(覆盖/追加、编码)、Excel(换行分行、\t 分列;可选工作表/起始单元格/追加模式)、命名管道(JSON)
命名管道输出说明
- 输出目标选择
命名管道,管道名称可用默认值:AutomationOperation.VariableOutput
- 输出内容为 UTF-8 JSON,每次连接发送 1 行(末尾换行),格式如下:
{"type":"字符串","value":"hello world"}
- 字段说明:
type:变量类型(如 字符串、数值、布尔值、列表、空值)
value:变量转字符串后的值(例如列表会以英文逗号拼接)
-
必装组件:Microsoft Visual C++ 2015-2022 Redistributable (x64)(vc_redist.x64.exe)。 (windowsdesktop-runtime-10.0.x-win-x64)
-
适用场景
- 重复性办公操作:批量点击、输入、复制粘贴、窗口切换
- 浏览器自动化:网页表单、页面读取、网页截图、验证码字段处理、批量检索
- 识别驱动流程:OCR、文字识别、图片识别、YOLO 目标检测、二维码识别、控件识别
- 批量文件处理:读取文件名、重命名、压缩、解压、生成结果文件
- 复杂流程控制:识别失败跳转、循环等待、条件分支、变量计算、执行其他配置
- 定时和后台任务:托盘运行、热键执行、定时执行、后台窗口识别和后台点击
|