Extraer texto de documentos Office
Office Oxide ofrece una sola función de entrada — extract_text() (o Document.open(...).plain_text()) — que se comporta igual para DOCX, XLSX, PPTX, DOC, XLS y PPT. Sin caminos por formato.
Helper de un solo paso
La forma más rápida: una sola función abre el archivo, ejecuta el extractor del formato y devuelve un string.
Rust
use office_oxide::extract_text;
let text = extract_text("report.docx")?;
println!("{text}");
Python
import office_oxide
text = office_oxide.extract_text("report.docx")
print(text)
JavaScript
import { extractText } from 'office-oxide';
console.log(extractText('report.docx'));
Go
import officeoxide "github.com/yfedoseev/office_oxide/go"
text, err := officeoxide.ExtractText("report.docx")
C#
using OfficeOxide;
string text = OfficeOxide.ExtractText("report.docx");
Handle reutilizable
Si necesitas texto y también otras salidas (Markdown, HTML, IR), abre el documento una vez y reutiliza el handle:
Rust
use office_oxide::Document;
let doc = Document::open("report.docx")?;
let text = doc.plain_text();
let md = doc.to_markdown();
Python
from office_oxide import Document
with Document.open("report.docx") as doc:
text = doc.plain_text()
md = doc.to_markdown()
JavaScript
import { Document } from 'office-oxide';
using doc = Document.open('report.docx');
const text = doc.plainText();
const md = doc.toMarkdown();
Qué obtienes por formato
| Formato | Salida |
|---|---|
| DOCX | Texto del cuerpo en orden + cabeceras y pies; se eliminan los guiones suaves |
| XLSX | Valores de celdas de todas las hojas, separados por tab en la fila y línea vacía entre hojas |
| PPTX | Título de la diapositiva, placeholders de cuerpo, celdas de tabla y notas — un bloque por diapositiva |
| DOC | Misma forma que DOCX — parseado directo desde la piece-table del CFB |
| XLS | Misma forma que XLSX — parseado directo desde registros BIFF8 |
| PPT | Misma forma que PPTX — parseado desde el stream PowerPoint Document |
Desde bytes (sin archivo temporal)
Útil en pipelines serverless y de streaming.
Python
import requests
from office_oxide import Document
data = requests.get("https://example.com/report.docx").content
with Document.from_bytes(data, "docx") as doc:
print(doc.plain_text())
JavaScript
import { Document } from 'office-oxide';
const res = await fetch('https://example.com/report.docx');
const data = new Uint8Array(await res.arrayBuffer());
using doc = Document.fromBytes(data, 'docx');
console.log(doc.plainText());
Rust
use std::io::Cursor;
use office_oxide::{Document, DocumentFormat};
let data = std::fs::read("report.docx")?;
let doc = Document::from_reader(Cursor::new(data), DocumentFormat::Docx)?;
let text = doc.plain_text();
Rendimiento
| Formato | Media | p99 | Tasa de éxito |
|---|---|---|---|
| DOCX (2.538 archivos) | 0,8 ms | 3,9 ms | 98,9% |
| XLSX (1.802 archivos) | 5,0 ms | 40 ms | 97,8% |
| PPTX (806 archivos) | 0,7 ms | 3,9 ms | 98,4% |
| DOC (246 archivos) | 0,3 ms | 3,4 ms | 94,7% |
| XLS (494 archivos) | 2,8 ms | 75 ms | 99,2% |
| PPT (176 archivos) | 0,7 ms | 6,6 ms | 100% |
Metodología completa en Rendimiento.
Véase también
- Extracción de Markdown — misma API, salida GitHub Flavored
- Extracción de HTML — HTML semántico para previsualizar e incrustar
- IR independiente del formato — JSON estructurado para pipelines y LLM
- Tablas — filas estructuradas desde XLSX, DOCX, PPTX