介绍
# PyMuPDF PDF
## 概述
使用 PyMuPDF 在本地解析 PDF,默认快速、轻量地提取为 Markdown,并可在每个文档的目录中输出可选的 JSON 和图片/表格。
## 前置条件 / 何时阅读参考资料
如果遇到导入错误(未安装 PyMuPDF)或 Nix `libstdc++` 问题,请阅读: - `references/pymupdf-notes.md`
## 快速开始(单个 PDF) ```bash # Run from the skill directory ./scripts/pymupdf_parse.py /path/to/file.pdf \ --format md \ --outroot ./pymupdf-output ```
## 选项
- `--format md|json|both`(默认:`md`) - `--images` 提取图片 - `--tables` 提取简单的基于行的表格 JSON(快速/粗略) - `--outroot DIR` 更改输出根目录 - `--lang` 将语言提示添加到 JSON 输出的元数据中
## 输出约定
- 默认创建 `./pymupdf-output/<pdf-basename>/`。 - Markdown 输出:`output.md` - JSON 输出:`output.json`(包含 `lang`) - 图片:`images/` 子目录 - 表格:`tables.json`(基于行的粗略结果)
## 注意事项
- PyMuPDF 速度很快,但在处理复杂 PDF 时稳健性较差。 - 若需要更稳健的解析,如果已安装重型 OCR 解析器(如 MinerU),请使用它。