Question 1

What is the fastest Python library for DOCX, XLSX, and PPTX?

Accepted Answer

Office Oxide is the fastest. DOCX text extraction averages 0.8ms (vs 11.8ms for python-docx — 14× faster). XLSX averages 5.0ms (vs 94.5ms for openpyxl — 18× faster). PPTX averages 0.7ms (vs 32.5ms for python-pptx — 46× faster). Benchmarked on 6,062 real-world files.

Question 2

Is Office Oxide free for commercial use?

Accepted Answer

Yes. Office Oxide is dual-licensed MIT OR Apache-2.0 — free for all uses including commercial products, SaaS, and proprietary software. No license fees, no sales calls, no AGPL or copyleft restrictions.

Question 3

Does Office Oxide handle legacy .doc, .xls, and .ppt files?

Accepted Answer

Yes. Office Oxide reads all six formats: DOCX, XLSX, PPTX, plus legacy DOC, XLS, PPT. It is the only Rust or Python library that supports all three legacy formats without a JVM (Apache Tika) or external binaries (catdoc, antiword).

Question 4

Can Office Oxide convert documents to Markdown?

Accepted Answer

Yes. Every supported format has built-in to_markdown() that preserves headings, tables, lists, and structure — ideal for LLM and RAG pipelines. No separate package needed.

Question 5

How does Office Oxide compare to calamine and openpyxl for XLSX?

Accepted Answer

On 1,802 XLSX files: Office Oxide averages 5.0ms (97.8% pass rate). python-calamine averages 13.9ms (96.6%). openpyxl averages 94.5ms (96.2%). Office Oxide is 2.8× faster than calamine and 18× faster than openpyxl, with the highest pass rate.

Question 6

Does Office Oxide work in the browser?

Accepted Answer

Yes. Office Oxide ships a WASM build (office-oxide-wasm on npm) that runs in any browser or bundler. Process Office documents client-side with no server round-trips — useful for privacy-sensitive workloads.

Formato	Saída
DOCX	Texto do corpo na ordem do documento + cabeçalhos e rodapés; hífens “soft” são removidos
XLSX	Valores das células em todas as planilhas, separados por tab dentro da linha, linha vazia entre planilhas
PPTX	Título do slide, placeholders de corpo, células de tabela e notas — um bloco por slide
DOC	Mesma forma do DOCX — parse direto da piece-table do CFB
XLS	Mesma forma do XLSX — parse direto dos registros BIFF8
PPT	Mesma forma do PPTX — parse a partir do stream PowerPoint Document

Formato	Média	p99	Taxa de sucesso
DOCX (2.538 arquivos)	0,8 ms	3,9 ms	98,9%
XLSX (1.802 arquivos)	5,0 ms	40 ms	97,8%
PPTX (806 arquivos)	0,7 ms	3,9 ms	98,4%
DOC (246 arquivos)	0,3 ms	3,4 ms	94,7%
XLS (494 arquivos)	2,8 ms	75 ms	99,2%
PPT (176 arquivos)	0,7 ms	6,6 ms	100%

Extrair texto de documentos Office

Helper de uma chamada

Rust

Python

JavaScript

Go

C#

Handle reutilizável

Rust

Python

JavaScript

O que sai por formato

A partir de bytes (sem arquivo temporário)

Python

JavaScript

Rust

Performance

Veja também