RetainPDF保留排版翻译

#it那些事儿# 你有没有要读的论文？你有没有想原封不动看图表和样式不变的翻译后的论文？见证奇迹的时刻到了！

隆重推荐：RetainPDF！！！现在有一千颗星星。

翻译一段 PDF 很容易。
任何大模型都能做到。把英文贴进去，中文吐出来。
保留排版翻译，很难。
翻译完之后，公式还在原来的位置，表格没有散架，图片没有移位，页眉页脚还在，参考文献编号没有乱，页码还能对上。
这比翻译本身难十倍。看图一。

░▒PDF 的陷阱▒░
PDF 看起来像排版文件。
它不是。
PDF 的全称是 Portable Document Format。可移植文档格式。它的核心设计目标不是排版，是“在任何设备上看起来一样”。

实现方式：把每一页当成一张画布，然后在画布上精确绘制每个字符的位置。

PDF 不关心段落结构。不关心标题层级。不关心公式和正文的关系。它只关心：在这个坐标，画这个字符。
就像给你一张照片，让你反推出 Word 文档的段落、标题、表格、图片位置。
这就是 RetainPDF 要干的事。

░▒流水线▒░
RetainPDF 的本质是一条流水线。

四层。
第一层：总调度。RetainPDF 本身。控制流程，协调各个环节。
第二层：OCR。看懂 PDF 的结构。段落在哪里，公式在哪里，表格在哪里，图片在哪里。
第三层：翻译。DeepSeek API。把英文变成中文。
第四层：排版。Typst。把翻译好的文本重新排版，生成新的 PDF。
四层，缺一不可。

但它们的角色不一样。

一、OCR：3D 扫描仪
PDF 里可能有文字层。也可能没有。扫描件根本没有文字层，只有图片。
OCR 的任务是：从 PDF 里"扫描"出结构信息。
不只是识别字符。还要识别：
这段文字是标题还是正文？
这个区域是表格还是段落？
这个公式是行内还是独立？
这张图片的边界在哪里？
页眉页脚在哪一页的哪个位置？
OCR 相当于 3D 扫描仪。把 PDF 这艘沉船的结构扫描出来，生成一份蓝图。
OCR 可以用 PaddleOCR、Tesseract、EasyOCR。都能用。效果有差异，但不影响整体架构。

二、翻译：DeepSeek API
这一步最简单。
OCR 扫描出来的文本，喂给 DeepSeek API。英文进，中文出。
为什么用 DeepSeek？成本。翻译整本 PDF 需要大量 API 调用。DeepSeek 便宜啊！
当然也可以用 GPT、Claude。效果可能更好，但贵。
翻译这一步是 commodity。市场上有很多选择。谁便宜用谁。

三、Typst：总装车间
翻译完了。你得到一堆中文文本。
现在，把它变回 PDF。
但不是随便一个 PDF。是保留原始排版的 PDF。公式还在原来的位置。表格没有散架。图片没有移位。页码还能对上。
这一步，靠 Typst。
Typst 是一个基于标记语言的排版系统。对标 LaTeX，但语法更简洁，编译更快。
GitHub 上 350+ 贡献者，45K stars。开源社区维护。
Typst 能做什么？
精确控制每个字符的坐标。
支持循环内省布局——排版引擎可以多次编译，每次根据上次的结果调整布局。
处理公式、表格、图片、参考文献、页眉页脚。
生成最终 PDF。

Typst 相当于总装车间。把翻译好的文本、OCR 扫描的结构信息、原始 PDF 的布局数据，全部组装在一起，生成最终产品。

░▒为什么 Typst 不可替代▒░
OCR 可以换。PaddleOCR、Tesseract、EasyOCR，都能用。

翻译可以换。DeepSeek、GPT、Claude，都能用。

Typst 不能换。

没有 Typst 这种级别的排版引擎，前面所有工作的成果只是一堆纯文本。

纯文本没有段落结构。没有公式位置。没有表格。没有图片。没有页眉页脚。

纯文本就是一行一行的字。

要把纯文本变回“保留排版的 PDF”，需要一个能精确控制布局的排版引擎。

LaTeX 能做到。但它太重、太慢、语法太复杂。

Word 能做到。但它不适合自动化。

HTML/CSS 能做到。但控制精度不够，公式排版弱。

Typst 是目前唯一满足所有条件的：精确控制、自动化友好、公式排版强、编译快、语法简洁。

所以 RetainPDF 选 Typst。

不是因为 Typst 最好。是因为 Typst 是唯一能用的。

░▒瓶颈▒░
一条流水线的产能取决于最慢的那个环节。

RetainPDF 的瓶颈在排版。

OCR 很快。几秒搞定。

翻译很快。API 调用，几十秒。

排版很慢。Typst 要多次编译，每次都要计算所有元素的位置，处理公式、表格、图片的布局，生成 PDF。

而且排版还容易出错。公式编号不对、表格跨页断裂、图片位置偏移——都需要人工调整。

OCR 和翻译是 commodity。排版引擎是 bottleneck。

░▒壁垒▒░
RetainPDF 的技术壁垒不在翻译。

在排版。

OCR 和翻译谁都能做。但把翻译好的文本变回“保留排版的 PDF”，需要 Typst 这种级别的排版引擎。

Typst 不是 RetainPDF 发明的。是开源社区做的。

但 RetainPDF 把 OCR、翻译、Typst 串成了一条完整的流水线。

这条流水线本身，就是壁垒。

OCR 看懂结构。翻译转换语言。Typst 重建排版。

三层，缺一不可。

翻译一段 PDF 很容易。

保留排版翻译，很难。

难在排版。

来，见证奇迹的一刻！见图二！见图三！见图四！

发布于北京