Office Oxide CLI — 快速上手
office-oxide 是一个本地、高速的 Office 文档处理命令行工具。它内置与库相同的 Rust 内核 — 零云端、零依赖。
安装
Cargo(任何平台):
cargo install office_oxide_cli
cargo-binstall(预编译二进制):
cargo binstall office_oxide_cli
从源码:
git clone https://github.com/yfedoseev/office_oxide
cd office_oxide
cargo install --path crates/office_oxide_cli
安装后的二进制名为 office-oxide。
快速上手
# 提取纯文本
office-oxide text report.docx
# 转 Markdown
office-oxide markdown data.xlsx -o data.md
# 转 HTML
office-oxide html slides.pptx -o slides.html
# 把与格式无关的 IR 导出为 JSON
office-oxide ir document.docx -o document.ir.json
# 把旧版 DOC 转为现代 DOCX
office-oxide convert old.doc modern.docx
全部选项见 office-oxide --help,单个命令见 office-oxide <command> --help。
命令
| 命令 | 说明 |
|---|---|
text |
提取 UTF-8 纯文本 |
markdown |
转 GitHub Flavored Markdown |
html |
转语义 HTML |
ir |
把与格式无关的 IR 导出为 JSON |
convert |
在格式之间转换(旧版 → OOXML、OOXML → OOXML) |
info |
显示格式、页/工作表/幻灯片数量及元数据 |
所有命令都接受六种格式: .docx、.xlsx、.pptx、.doc、.xls、.ppt。
全局选项
-o, --output <PATH> 输出文件(文本输出默认 stdout)
-v, --verbose 显示计时信息
-q, --quiet 抑制非必要输出
--json 把输出包装在 JSON 信封内
示例
从电子表格提取文本:
office-oxide text quarterly.xlsx
并行迁移旧版 .doc 语料:
find legacy/ -iname '*.doc' | \
parallel 'office-oxide convert {} modern/{/.}.docx'
为 LLM 流水线转换演示文稿:
office-oxide markdown deck.pptx -o deck.md
检查文件:
office-oxide info mystery.bin
# format: xlsx, sheets: 4, named_ranges: 12, ...
通过 jq 进一步处理:
office-oxide ir report.docx | jq '.sections[].title'
stdin / stdout
text、markdown、html、ir 默认写到 stdout — 适合管道:
office-oxide text report.docx | grep -i "executive summary"
指定 --output 时改写到该文件。
相关链接
- Rust crate — 把同一引擎当作库使用
- MCP 服务器 — 让 AI 助手使用同一工具集
- 性能基准