Deep Scraper

介绍

# Skill: deep-scraper

## 概述

一款用于深度网页抓取的高性能工程工具。它使用容器化的 Docker + Crawlee (Playwright) 环境，以突破 YouTube 和 X/Twitter 等复杂网站上的保护措施，提供“拦截级”的原始数据。

## 环境要求

1. **Docker**：必须在主机上安装并运行。 2. **镜像**：使用标签 `clawd-crawlee` 构建环境。 * 构建命令：`docker build -t clawd-crawlee skills/deep-scraper/`

## 集成指南

只需将 `skills/deep-scraper` 目录复制到您的 `skills/` 文件夹中。确保 Dockerfile 保留在技能目录内，以便进行独立部署。

## 标准接口 (CLI)

```bash docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL] ```

## 输出规范 (JSON)

抓取结果以 JSON 字符串的形式打印到 stdout： - `status`：SUCCESS | PARTIAL | ERROR - `type`：TRANSCRIPT | DESCRIPTION | GENERIC - `videoId`：（针对 YouTube）已验证的视频 ID。 - `data`：核心文本内容或字幕文本。

## 核心规则

1. **ID 验证**：所有 YouTube 任务必须验证视频 ID，以防止缓存污染。 2. **隐私**：严格禁止抓取受密码保护或非公开的个人信息。 3. **聚焦核心内容**：自动去除广告和噪音，提供针对 LLM 处理优化的纯净数据。

介绍

更多产品

self-improving-agent

Find Skills

Sonoscli