Конвертация Office-документов в HTML
У каждого handle Office Oxide есть to_html(), который выдаёт чистый семантический HTML5 из любого поддерживаемого формата. Подходит для preview в браузере, рендера писем и быстрых визуальных диффов.
Одноразовый вызов
Python
import office_oxide
html = office_oxide.to_html("report.docx")
open("report.html", "w").write(html)
Rust
use office_oxide::to_html;
let html = to_html("report.docx")?;
std::fs::write("report.html", html)?;
JavaScript
import { toHtml } from 'office-oxide';
import { writeFileSync } from 'node:fs';
writeFileSync('report.html', toHtml('report.docx'));
Go
html, err := officeoxide.ToHTML("report.docx")
os.WriteFile("report.html", []byte(html), 0o644)
C#
File.WriteAllText("report.html", OfficeOxide.ToHtml("report.docx"));
Переиспользуемый handle
Python
from office_oxide import Document
with Document.open("slides.pptx") as doc:
html = doc.to_html()
JavaScript
using doc = Document.open('slides.pptx');
const html = doc.toHtml();
Rust
let doc = office_oxide::Document::open("slides.pptx")?;
let html = doc.to_html();
Что получается
HTML выдаётся в фрагментном виде — без оберток <html>, <head>, <body>. Куда монтировать и какой стиль применять, решаете вы.
| Источник | HTML-элемент |
|---|---|
| Заголовок | <h1> … <h6> соответствующего уровня |
| Абзац | <p> |
| Жирный / курсив / подчёркивание | <strong>, <em>, <u> |
| Список | <ul> / <ol> с дочерними <li> |
| Таблица | <table> с <thead>, <tbody>, <tr>, <th>, <td> |
| Гиперссылка | <a href="..."> |
| Изображение | <img src="..." alt="..."> |
| XLSX-лист | <section data-sheet="имя"> + <table> |
| PPTX-слайд | <section data-slide="N"> + body + опциональный <aside> под заметки |
Вывод экранирован: пользовательский контент внутри документа HTML-эскейпится, поэтому встраивать результат на страницу безопасно по умолчанию.
Обёртка для самостоятельной страницы
from office_oxide import Document
with Document.open("report.docx") as doc:
body = doc.to_html()
page = f"""<!DOCTYPE html>
<html><head><meta charset="utf-8"><title>Отчёт</title>
<link rel="stylesheet" href="docs.css">
</head><body>{body}</body></html>"""
open("report.html", "w").write(page)
Сценарии
- Preview в браузере для загруженных документов (
<input type="file">→ WASM →<iframe srcdoc>). - Рендер писем для сгенерированных отчётов.
- Diff-вьюхи — HTML-диффы осмысленно отображаются в инструментах ревью.
- Индексация поиском с сохранением структуры (заголовки могут бустить результаты).
Смотрите также
- Извлечение Markdown — когда нужен «текстовый» вывод
- Извлечение IR — структурированный JSON, когда вы рендерите сами
- Быстрый старт WASM — для конвертации прямо в браузере