PyMuPDF PDF Parser Clawdbot Skill

介绍

# PyMuPDF PDF

## 概述

使用 PyMuPDF 在本地解析 PDF，默认快速、轻量地提取为 Markdown，并可在每个文档的目录中输出可选的 JSON 和图片/表格。

## 前置条件 / 何时阅读参考资料

如果遇到导入错误（未安装 PyMuPDF）或 Nix `libstdc++` 问题，请阅读： - `references/pymupdf-notes.md`

## 快速开始（单个 PDF） ```bash # Run from the skill directory ./scripts/pymupdf_parse.py /path/to/file.pdf \ --format md \ --outroot ./pymupdf-output ```

## 选项

- `--format md|json|both`（默认：`md`） - `--images` 提取图片 - `--tables` 提取简单的基于行的表格 JSON（快速/粗略） - `--outroot DIR` 更改输出根目录 - `--lang` 将语言提示添加到 JSON 输出的元数据中

## 输出约定

- 默认创建 `./pymupdf-output/<pdf-basename>/`。 - Markdown 输出：`output.md` - JSON 输出：`output.json`（包含 `lang`） - 图片：`images/` 子目录 - 表格：`tables.json`（基于行的粗略结果）

## 注意事项

- PyMuPDF 速度很快，但在处理复杂 PDF 时稳健性较差。 - 若需要更稳健的解析，如果已安装重型 OCR 解析器（如 MinerU），请使用它。

PyMuPDF PDF Parser Clawdbot Skill

介绍

更多产品

Summarize

Ontology

Nano Pdf