ClawSkills logoClawSkills

PyMuPDF PDF Parser Clawdbot Skill

使用 PyMuPDF (fitz) 快速本地解析 PDF,生成 Markdown/JSON 输出以及可选的图像/表格。当速度比健壮性更重要时,或作为备用

介绍

# PyMuPDF PDF

## 概述

使用 PyMuPDF 在本地解析 PDF,默认快速、轻量地提取为 Markdown,并可在每个文档的目录中输出可选的 JSON 和图片/表格。

## 前置条件 / 何时阅读参考资料

如果遇到导入错误(未安装 PyMuPDF)或 Nix `libstdc++` 问题,请阅读: - `references/pymupdf-notes.md`

## 快速开始(单个 PDF) ```bash # Run from the skill directory ./scripts/pymupdf_parse.py /path/to/file.pdf \ --format md \ --outroot ./pymupdf-output ```

## 选项

- `--format md|json|both`(默认:`md`) - `--images` 提取图片 - `--tables` 提取简单的基于行的表格 JSON(快速/粗略) - `--outroot DIR` 更改输出根目录 - `--lang` 将语言提示添加到 JSON 输出的元数据中

## 输出约定

- 默认创建 `./pymupdf-output/<pdf-basename>/`。 - Markdown 输出:`output.md` - JSON 输出:`output.json`(包含 `lang`) - 图片:`images/` 子目录 - 表格:`tables.json`(基于行的粗略结果)

## 注意事项

- PyMuPDF 速度很快,但在处理复杂 PDF 时稳健性较差。 - 若需要更稳健的解析,如果已安装重型 OCR 解析器(如 MinerU),请使用它。

更多产品