ClawSkills logoClawSkills

Firecrawler

使用 Firecrawl API 进行网页抓取和爬取。以 markdown 格式获取网页内容,截取屏幕截图,提取结构化数据,搜索网络,并爬取文档。

介绍

# Firecrawl Web Skill

使用 [Firecrawl](https://firecrawl.dev) 抓取、搜索和爬取网页。

## 设置

1. 从 [firecrawl.dev/app/api-keys](https://www.firecrawl.dev/app/api-keys) 获取您的 API 密钥 2. 设置环境变量: ```bash export FIRECRAWL_API_KEY=fc-your-key-here ``` 3. 安装 SDK: ```bash pip3 install firecrawl ```

## 使用方法

所有命令都使用该技能目录中附带的 `fc.py` 脚本。

### 获取 Markdown 格式的页面

获取任意 URL 并转换为干净的 Markdown。支持处理 JavaScript 渲染的内容。

```bash python3 fc.py markdown "https://example.com" python3 fc.py markdown "https://example.com" --main-only # skip nav/footer ```

### 截取屏幕截图

截取任意 URL 的完整页面屏幕截图。

```bash python3 fc.py screenshot "https://example.com" -o screenshot.png ```

### 提取结构化数据

使用 JSON 架构从页面中提取特定字段。

**架构示例** (`schema.json`): ```json { "type": "object", "properties": { "title": { "type": "string" }, "price": { "type": "number" }, "features": { "type": "array", "items": { "type": "string" } } } } ```

```bash python3 fc.py extract "https://example.com/product" --schema schema.json python3 fc.py extract "https://example.com/product" --schema schema.json --prompt "Extract the main product details" ```

### 网页搜索

搜索网络并从结果中获取内容(可能需要付费等级)。

```bash python3 fc.py search "Python 3.13 new features" --limit 5 ```

### 爬取文档

爬取整个文档站点。非常适合学习新框架。

```bash python3 fc.py crawl "https://docs.example.com" --limit 30 python3 fc.py crawl "https://docs.example.com" --limit 50 --output ./docs ```

**注意:** 每个页面消耗 1 个积分。请设置合理的限制。

### 映射网站 URL

在决定抓取内容之前,发现网站上的所有 URL。

```bash python3 fc.py map "https://example.com" --limit 100 python3 fc.py map "https://example.com" --search "api" ```

## 示例提示词

- *"抓取 https://blog.example.com/post 并对其进行总结"* - *"截取 stripe.com 的屏幕截图"* - *"从这个产品页面中提取名称、价格和功能"* - *"爬取 Astro 文档,以便你能帮我构建网站"* - *"映射 docs.stripe.com 上的所有 URL"*

## 价格

免费版包含 500 个积分。1 个积分 = 1 个页面/屏幕截图/搜索查询。

更多产品