Skip to content

Office Oxide CLI — Schnellstart

office-oxide ist ein Kommandozeilen-Tool für schnelle, lokale Verarbeitung von Office-Dokumenten. Es bringt denselben Rust-Kern mit wie die Library — keine Cloud, keine Abhängigkeiten.

Installation

Cargo (alle Plattformen):

cargo install office_oxide_cli

cargo-binstall (vorgefertigte Binary):

cargo binstall office_oxide_cli

Aus dem Source:

git clone https://github.com/yfedoseev/office_oxide
cd office_oxide
cargo install --path crates/office_oxide_cli

Die installierte Binary heißt office-oxide.

Schnellstart

# Reinen Text extrahieren
office-oxide text report.docx

# In Markdown konvertieren
office-oxide markdown data.xlsx -o data.md

# In HTML konvertieren
office-oxide html slides.pptx -o slides.html

# Formatunabhängige IR als JSON ausgeben
office-oxide ir document.docx -o document.ir.json

# Legacy DOC → modernes DOCX konvertieren
office-oxide convert old.doc modern.docx

Alle Flags via office-oxide --help, pro Befehl office-oxide <command> --help.

Befehle

Befehl Beschreibung
text Reinen UTF-8-Text extrahieren
markdown In GitHub-flavored Markdown konvertieren
html In semantisches HTML konvertieren
ir Formatunabhängige IR als JSON ausgeben
convert Konvertiert zwischen Formaten (Legacy → OOXML, OOXML → OOXML)
info Zeigt Format, Anzahl Seiten/Sheets/Folien und Metadaten

Alle Befehle nehmen jedes der sechs unterstützten Formate: .docx, .xlsx, .pptx, .doc, .xls, .ppt.

Globale Optionen

-o, --output <PATH>   Ausgabedatei (default: stdout bei Textausgaben)
-v, --verbose         Timing-Info anzeigen
-q, --quiet           Unwichtige Ausgaben unterdrücken
    --json            Ausgabe in JSON-Hülle verpacken

Beispiele

Text aus einer Tabelle extrahieren:

office-oxide text quarterly.xlsx

Legacy-.doc-Korpus parallel migrieren:

find legacy/ -iname '*.doc' | \
  parallel 'office-oxide convert {} modern/{/.}.docx'

Ein Deck für eine LLM-Pipeline konvertieren:

office-oxide markdown deck.pptx -o deck.md

Datei inspizieren:

office-oxide info mystery.bin
# format: xlsx, sheets: 4, named_ranges: 12, ...

Mit jq weiterverarbeiten:

office-oxide ir report.docx | jq '.sections[].title'

stdin / stdout

text, markdown, html und ir schreiben standardmäßig nach stdout — praktisch für Pipelines:

office-oxide text report.docx | grep -i "executive summary"

Mit --output wandert das Ergebnis in die angegebene Datei.

Siehe auch