Office Oxide CLI — 빠른 시작
office-oxide는 빠르고 로컬에서 동작하는 Office 문서 처리 명령줄 도구입니다. 라이브러리와 같은 Rust 코어를 탑재합니다 — 클라우드 불필요, 의존성 없음.
설치
Cargo (모든 플랫폼):
cargo install office_oxide_cli
cargo-binstall (사전 빌드 바이너리):
cargo binstall office_oxide_cli
소스에서:
git clone https://github.com/yfedoseev/office_oxide
cd office_oxide
cargo install --path crates/office_oxide_cli
설치되는 바이너리는 office-oxide입니다.
빠른 시작
# 일반 텍스트 추출
office-oxide text report.docx
# Markdown 변환
office-oxide markdown data.xlsx -o data.md
# HTML 변환
office-oxide html slides.pptx -o slides.html
# 형식 무관 IR을 JSON으로 덤프
office-oxide ir document.docx -o document.ir.json
# 레거시 DOC → 모던 DOCX 변환
office-oxide convert old.doc modern.docx
전체 플래그는 office-oxide --help, 특정 명령은 office-oxide <command> --help로 확인하세요.
명령
| 명령 | 설명 |
|---|---|
text |
UTF-8 일반 텍스트 추출 |
markdown |
GitHub Flavored Markdown 변환 |
html |
시맨틱 HTML 변환 |
ir |
형식 무관 IR을 JSON으로 덤프 |
convert |
형식 간 변환(레거시 → OOXML, OOXML → OOXML) |
info |
형식, 페이지/시트/슬라이드 수와 메타데이터 표시 |
모든 명령은 여섯 가지 형식을 받습니다: .docx, .xlsx, .pptx, .doc, .xls, .ppt.
전역 옵션
-o, --output <PATH> 출력 파일(텍스트 출력은 기본 stdout)
-v, --verbose 타이밍 정보 표시
-q, --quiet 불필요한 출력 억제
--json 출력을 JSON 봉투로 감쌈
예시
스프레드시트에서 텍스트 추출:
office-oxide text quarterly.xlsx
레거시 .doc 코퍼스를 병렬 마이그레이션:
find legacy/ -iname '*.doc' | \
parallel 'office-oxide convert {} modern/{/.}.docx'
LLM 파이프라인용 덱 변환:
office-oxide markdown deck.pptx -o deck.md
파일 검사:
office-oxide info mystery.bin
# format: xlsx, sheets: 4, named_ranges: 12, ...
jq로 가공:
office-oxide ir report.docx | jq '.sections[].title'
stdin / stdout
text, markdown, html, ir는 기본적으로 stdout에 씁니다 — 파이프라인에 유용합니다:
office-oxide text report.docx | grep -i "executive summary"
--output을 주면 해당 파일에 씁니다.