介绍
# Skill: deep-scraper
## 概述
一款用于深度网页抓取的高性能工程工具。它使用容器化的 Docker + Crawlee (Playwright) 环境,以突破 YouTube 和 X/Twitter 等复杂网站上的保护措施,提供“拦截级”的原始数据。
## 环境要求
1. **Docker**:必须在主机上安装并运行。 2. **镜像**:使用标签 `clawd-crawlee` 构建环境。 * 构建命令:`docker build -t clawd-crawlee skills/deep-scraper/`
## 集成指南
只需将 `skills/deep-scraper` 目录复制到您的 `skills/` 文件夹中。确保 Dockerfile 保留在技能目录内,以便进行独立部署。
## 标准接口 (CLI)
```bash docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [TARGET_URL] ```
## 输出规范 (JSON)
抓取结果以 JSON 字符串的形式打印到 stdout: - `status`:SUCCESS | PARTIAL | ERROR - `type`:TRANSCRIPT | DESCRIPTION | GENERIC - `videoId`:(针对 YouTube)已验证的视频 ID。 - `data`:核心文本内容或字幕文本。
## 核心规则
1. **ID 验证**:所有 YouTube 任务必须验证视频 ID,以防止缓存污染。 2. **隐私**:严格禁止抓取受密码保护或非公开的个人信息。 3. **聚焦核心内容**:自动去除广告和噪音,提供针对 LLM 处理优化的纯净数据。