Skip to content

Office Oxide CLI — 快速上手

office-oxide 是一个本地、高速的 Office 文档处理命令行工具。它内置与库相同的 Rust 内核 — 零云端、零依赖。

安装

Cargo(任何平台):

cargo install office_oxide_cli

cargo-binstall(预编译二进制):

cargo binstall office_oxide_cli

从源码:

git clone https://github.com/yfedoseev/office_oxide
cd office_oxide
cargo install --path crates/office_oxide_cli

安装后的二进制名为 office-oxide

快速上手

# 提取纯文本
office-oxide text report.docx

# 转 Markdown
office-oxide markdown data.xlsx -o data.md

# 转 HTML
office-oxide html slides.pptx -o slides.html

# 把与格式无关的 IR 导出为 JSON
office-oxide ir document.docx -o document.ir.json

# 把旧版 DOC 转为现代 DOCX
office-oxide convert old.doc modern.docx

全部选项见 office-oxide --help,单个命令见 office-oxide <command> --help

命令

命令 说明
text 提取 UTF-8 纯文本
markdown 转 GitHub Flavored Markdown
html 转语义 HTML
ir 把与格式无关的 IR 导出为 JSON
convert 在格式之间转换(旧版 → OOXML、OOXML → OOXML)
info 显示格式、页/工作表/幻灯片数量及元数据

所有命令都接受六种格式: .docx.xlsx.pptx.doc.xls.ppt

全局选项

-o, --output <PATH>   输出文件(文本输出默认 stdout)
-v, --verbose         显示计时信息
-q, --quiet           抑制非必要输出
    --json            把输出包装在 JSON 信封内

示例

从电子表格提取文本:

office-oxide text quarterly.xlsx

并行迁移旧版 .doc 语料:

find legacy/ -iname '*.doc' | \
  parallel 'office-oxide convert {} modern/{/.}.docx'

为 LLM 流水线转换演示文稿:

office-oxide markdown deck.pptx -o deck.md

检查文件:

office-oxide info mystery.bin
# format: xlsx, sheets: 4, named_ranges: 12, ...

通过 jq 进一步处理:

office-oxide ir report.docx | jq '.sections[].title'

stdin / stdout

textmarkdownhtmlir 默认写到 stdout — 适合管道:

office-oxide text report.docx | grep -i "executive summary"

指定 --output 时改写到该文件。

相关链接