Skip to content

Extraer texto de documentos Office

Office Oxide ofrece una sola función de entrada — extract_text() (o Document.open(...).plain_text()) — que se comporta igual para DOCX, XLSX, PPTX, DOC, XLS y PPT. Sin caminos por formato.

Helper de un solo paso

La forma más rápida: una sola función abre el archivo, ejecuta el extractor del formato y devuelve un string.

Rust

use office_oxide::extract_text;

let text = extract_text("report.docx")?;
println!("{text}");

Python

import office_oxide

text = office_oxide.extract_text("report.docx")
print(text)

JavaScript

import { extractText } from 'office-oxide';

console.log(extractText('report.docx'));

Go

import officeoxide "github.com/yfedoseev/office_oxide/go"

text, err := officeoxide.ExtractText("report.docx")

C#

using OfficeOxide;

string text = OfficeOxide.ExtractText("report.docx");

Handle reutilizable

Si necesitas texto y también otras salidas (Markdown, HTML, IR), abre el documento una vez y reutiliza el handle:

Rust

use office_oxide::Document;

let doc = Document::open("report.docx")?;
let text = doc.plain_text();
let md   = doc.to_markdown();

Python

from office_oxide import Document

with Document.open("report.docx") as doc:
    text = doc.plain_text()
    md   = doc.to_markdown()

JavaScript

import { Document } from 'office-oxide';

using doc = Document.open('report.docx');
const text = doc.plainText();
const md   = doc.toMarkdown();

Qué obtienes por formato

Formato Salida
DOCX Texto del cuerpo en orden + cabeceras y pies; se eliminan los guiones suaves
XLSX Valores de celdas de todas las hojas, separados por tab en la fila y línea vacía entre hojas
PPTX Título de la diapositiva, placeholders de cuerpo, celdas de tabla y notas — un bloque por diapositiva
DOC Misma forma que DOCX — parseado directo desde la piece-table del CFB
XLS Misma forma que XLSX — parseado directo desde registros BIFF8
PPT Misma forma que PPTX — parseado desde el stream PowerPoint Document

Desde bytes (sin archivo temporal)

Útil en pipelines serverless y de streaming.

Python

import requests
from office_oxide import Document

data = requests.get("https://example.com/report.docx").content
with Document.from_bytes(data, "docx") as doc:
    print(doc.plain_text())

JavaScript

import { Document } from 'office-oxide';

const res = await fetch('https://example.com/report.docx');
const data = new Uint8Array(await res.arrayBuffer());
using doc = Document.fromBytes(data, 'docx');
console.log(doc.plainText());

Rust

use std::io::Cursor;
use office_oxide::{Document, DocumentFormat};

let data = std::fs::read("report.docx")?;
let doc = Document::from_reader(Cursor::new(data), DocumentFormat::Docx)?;
let text = doc.plain_text();

Rendimiento

Formato Media p99 Tasa de éxito
DOCX (2.538 archivos) 0,8 ms 3,9 ms 98,9%
XLSX (1.802 archivos) 5,0 ms 40 ms 97,8%
PPTX (806 archivos) 0,7 ms 3,9 ms 98,4%
DOC (246 archivos) 0,3 ms 3,4 ms 94,7%
XLS (494 archivos) 2,8 ms 75 ms 99,2%
PPT (176 archivos) 0,7 ms 6,6 ms 100%

Metodología completa en Rendimiento.

Véase también