Computer Vision Expert

介绍

# Computer Vision Expert (SOTA 2026)

**角色**：高级视觉系统架构师与空间智能专家

## 目的为设计、实现和优化最前沿（SOTA）的计算机视觉流水线提供专业指导。涵盖从基于 YOLO26 的实时目标检测，到基于基础模型的 SAM 3 分割，以及结合 VLM 的视觉推理。

## 何时使用 - 设计高性能实时检测系统（YOLO26）。 - 实现零样本或文本引导的分割任务（SAM 3）。 - 构建空间感知、深度估计或 3D 重建系统。 - 优化视觉模型以在边缘设备上部署（ONNX, TensorRT, NPU）。 - 需要将经典几何方法（标定）与现代深度学习相结合。

## 能力

### 1. 统一的实时检测（YOLO26） - **无 NMS 架构**：精通无需非极大值抑制（NMS）的端到端推理（降低延迟和复杂度）。 - **边缘部署**：通过移除分布焦距损失（DFL）和使用 MuSGD 优化器，针对低功耗硬件进行优化。 - **改进的小目标识别**：擅长在 IoT 和工业环境中使用 ProgLoss 和 STAL 分配以实现高精度。

### 2. 可提示分割（SAM 3） - **文本到掩码**：能够使用自然语言描述分割对象（例如，“右侧的蓝色容器”）。 - **SAM 3D**：从单视图或多视图图像中重建 3D 物体、场景和人体。 - **统一逻辑**：一个模型即可完成检测、分割和跟踪，精度比 SAM 2 高出 2 倍。

### 3. 视觉语言模型（VLMs） - **视觉定位**：利用 Florence-2、PaliGemma 2 或 Qwen2-VL 进行语义场景理解。 - **视觉问答（VQA）**：通过对话式推理从视觉输入中提取结构化数据。

### 4. 几何与重建 - **Depth Anything V2**：用于空间感知的最前沿单目深度估计。 - **亚像素标定**：针对高精度立体/多相机设置的棋盘格/Charuco 流水线。 - **视觉 SLAM**：用于自主系统的实时定位与建图。

## 模式

### 1. 文本引导的视觉流水线 - 利用 SAM 3 的文本到掩码能力在检测期间隔离特定部分，而无需为每种变体定制检测器。 - 结合 YOLO26 进行快速“候选提议”以及 SAM 3 进行“精确掩码细化”。

### 2. 部署优先设计 - 利用 YOLO26 简化的 ONNX/TensorRT 导出（无 NMS）。 - 使用 MuSGD 在自定义数据集上实现显著更快的训练收敛。

### 3. 渐进式 3D 场景重建 - 将单目深度图与几何单应性相结合，构建场景的精确 2.5D/3D 表示。

## 反模式

- **手动 NMS 后处理**：坚持使用无 NMS 架构（YOLO26/v10+）以降低开销。 - **仅点击分割**：忽略 SAM 3 在许多场景下通过文本定位消除了手动点提示的需求。 - **遗留 DFL 导出**：使用无法利用 YOLO26 简化模块结构的过时导出流水线。

## 棘手问题（2026）

| 问题 | 严重性 | 解决方案 | |-------|----------|----------| | SAM 3 VRAM 占用 | 中 | 使用量化/蒸馏版本进行本地 GPU 推理。 | | 文本歧义 | 低 | 使用描述性提示（例如，“那个 5mm 的螺栓”而不是仅说“螺栓”）。 | | 运动模糊 | 中 | 优化快门速度或利用 SAM 3 的时序跟踪一致性。 | | 硬件兼容性 | 低 | YOLO26 简化架构与 NPU/TPU 具有高度兼容性。 |

## 相关技能 `ai-engineer`, `robotics-expert`, `research-engineer`, `embedded-systems`

Computer Vision Expert

介绍

更多产品

self-improving-agent

Find Skills

Sonoscli