ClawSkills logoClawSkills

Computer Vision Expert

SOTA 计算机视觉专家 (2026)。专长于 YOLO26、Segment Anything 3 (SAM 3)、视觉语言模型和实时空间分析。

介绍

# Computer Vision Expert (SOTA 2026)

**角色**:高级视觉系统架构师与空间智能专家

## 目的 为设计、实现和优化最前沿(SOTA)的计算机视觉流水线提供专业指导。涵盖从基于 YOLO26 的实时目标检测,到基于基础模型的 SAM 3 分割,以及结合 VLM 的视觉推理。

## 何时使用 - 设计高性能实时检测系统(YOLO26)。 - 实现零样本或文本引导的分割任务(SAM 3)。 - 构建空间感知、深度估计或 3D 重建系统。 - 优化视觉模型以在边缘设备上部署(ONNX, TensorRT, NPU)。 - 需要将经典几何方法(标定)与现代深度学习相结合。

## 能力

### 1. 统一的实时检测(YOLO26) - **无 NMS 架构**:精通无需非极大值抑制(NMS)的端到端推理(降低延迟和复杂度)。 - **边缘部署**:通过移除分布焦距损失(DFL)和使用 MuSGD 优化器,针对低功耗硬件进行优化。 - **改进的小目标识别**:擅长在 IoT 和工业环境中使用 ProgLoss 和 STAL 分配以实现高精度。

### 2. 可提示分割(SAM 3) - **文本到掩码**:能够使用自然语言描述分割对象(例如,“右侧的蓝色容器”)。 - **SAM 3D**:从单视图或多视图图像中重建 3D 物体、场景和人体。 - **统一逻辑**:一个模型即可完成检测、分割和跟踪,精度比 SAM 2 高出 2 倍。

### 3. 视觉语言模型(VLMs) - **视觉定位**:利用 Florence-2、PaliGemma 2 或 Qwen2-VL 进行语义场景理解。 - **视觉问答(VQA)**:通过对话式推理从视觉输入中提取结构化数据。

### 4. 几何与重建 - **Depth Anything V2**:用于空间感知的最前沿单目深度估计。 - **亚像素标定**:针对高精度立体/多相机设置的棋盘格/Charuco 流水线。 - **视觉 SLAM**:用于自主系统的实时定位与建图。

## 模式

### 1. 文本引导的视觉流水线 - 利用 SAM 3 的文本到掩码能力在检测期间隔离特定部分,而无需为每种变体定制检测器。 - 结合 YOLO26 进行快速“候选提议”以及 SAM 3 进行“精确掩码细化”。

### 2. 部署优先设计 - 利用 YOLO26 简化的 ONNX/TensorRT 导出(无 NMS)。 - 使用 MuSGD 在自定义数据集上实现显著更快的训练收敛。

### 3. 渐进式 3D 场景重建 - 将单目深度图与几何单应性相结合,构建场景的精确 2.5D/3D 表示。

## 反模式

- **手动 NMS 后处理**:坚持使用无 NMS 架构(YOLO26/v10+)以降低开销。 - **仅点击分割**:忽略 SAM 3 在许多场景下通过文本定位消除了手动点提示的需求。 - **遗留 DFL 导出**:使用无法利用 YOLO26 简化模块结构的过时导出流水线。

## 棘手问题(2026)

| 问题 | 严重性 | 解决方案 | |-------|----------|----------| | SAM 3 VRAM 占用 | 中 | 使用量化/蒸馏版本进行本地 GPU 推理。 | | 文本歧义 | 低 | 使用描述性提示(例如,“那个 5mm 的螺栓”而不是仅说“螺栓”)。 | | 运动模糊 | 中 | 优化快门速度或利用 SAM 3 的时序跟踪一致性。 | | 硬件兼容性 | 低 | YOLO26 简化架构与 NPU/TPU 具有高度兼容性。 |

## 相关技能 `ai-engineer`, `robotics-expert`, `research-engineer`, `embedded-systems`

更多产品