#it那些事儿# 你有没有要读的论文?你有没有想原封不动看图表和样式不变的翻译后的论文?见证奇迹的时刻到了!
隆重推荐:RetainPDF!!!现在有一千颗星星。
翻译一段 PDF 很容易。
任何大模型都能做到。把英文贴进去,中文吐出来。
保留排版翻译,很难。
翻译完之后,公式还在原来的位置,表格没有散架,图片没有移位,页眉页脚还在,参考文献编号没有乱,页码还能对上。
这比翻译本身难十倍。看图一。
░▒PDF 的陷阱▒░
PDF 看起来像排版文件。
它不是。
PDF 的全称是 Portable Document Format。可移植文档格式。它的核心设计目标不是排版,是“在任何设备上看起来一样”。
实现方式:把每一页当成一张画布,然后在画布上精确绘制每个字符的位置。
PDF 不关心段落结构。不关心标题层级。不关心公式和正文的关系。它只关心:在这个坐标,画这个字符。
就像给你一张照片,让你反推出 Word 文档的段落、标题、表格、图片位置。
这就是 RetainPDF 要干的事。
░▒流水线▒░
RetainPDF 的本质是一条流水线。
四层。
第一层:总调度。RetainPDF 本身。控制流程,协调各个环节。
第二层:OCR。看懂 PDF 的结构。段落在哪里,公式在哪里,表格在哪里,图片在哪里。
第三层:翻译。DeepSeek API。把英文变成中文。
第四层:排版。Typst。把翻译好的文本重新排版,生成新的 PDF。
四层,缺一不可。
但它们的角色不一样。
一、OCR:3D 扫描仪
PDF 里可能有文字层。也可能没有。扫描件根本没有文字层,只有图片。
OCR 的任务是:从 PDF 里"扫描"出结构信息。
不只是识别字符。还要识别:
这段文字是标题还是正文?
这个区域是表格还是段落?
这个公式是行内还是独立?
这张图片的边界在哪里?
页眉页脚在哪一页的哪个位置?
OCR 相当于 3D 扫描仪。把 PDF 这艘沉船的结构扫描出来,生成一份蓝图。
OCR 可以用 PaddleOCR、Tesseract、EasyOCR。都能用。效果有差异,但不影响整体架构。
二、翻译:DeepSeek API
这一步最简单。
OCR 扫描出来的文本,喂给 DeepSeek API。英文进,中文出。
为什么用 DeepSeek?成本。翻译整本 PDF 需要大量 API 调用。DeepSeek 便宜啊!
当然也可以用 GPT、Claude。效果可能更好,但贵。
翻译这一步是 commodity。市场上有很多选择。谁便宜用谁。
三、Typst:总装车间
翻译完了。你得到一堆中文文本。
现在,把它变回 PDF。
但不是随便一个 PDF。是保留原始排版的 PDF。公式还在原来的位置。表格没有散架。图片没有移位。页码还能对上。
这一步,靠 Typst。
Typst 是一个基于标记语言的排版系统。对标 LaTeX,但语法更简洁,编译更快。
GitHub 上 350+ 贡献者,45K stars。开源社区维护。
Typst 能做什么?
精确控制每个字符的坐标。
支持循环内省布局——排版引擎可以多次编译,每次根据上次的结果调整布局。
处理公式、表格、图片、参考文献、页眉页脚。
生成最终 PDF。
Typst 相当于总装车间。把翻译好的文本、OCR 扫描的结构信息、原始 PDF 的布局数据,全部组装在一起,生成最终产品。
░▒为什么 Typst 不可替代▒░
OCR 可以换。PaddleOCR、Tesseract、EasyOCR,都能用。
翻译可以换。DeepSeek、GPT、Claude,都能用。
Typst 不能换。
没有 Typst 这种级别的排版引擎,前面所有工作的成果只是一堆纯文本。
纯文本没有段落结构。没有公式位置。没有表格。没有图片。没有页眉页脚。
纯文本就是一行一行的字。
要把纯文本变回“保留排版的 PDF”,需要一个能精确控制布局的排版引擎。
LaTeX 能做到。但它太重、太慢、语法太复杂。
Word 能做到。但它不适合自动化。
HTML/CSS 能做到。但控制精度不够,公式排版弱。
Typst 是目前唯一满足所有条件的:精确控制、自动化友好、公式排版强、编译快、语法简洁。
所以 RetainPDF 选 Typst。
不是因为 Typst 最好。是因为 Typst 是唯一能用的。
░▒瓶颈▒░
一条流水线的产能取决于最慢的那个环节。
RetainPDF 的瓶颈在排版。
OCR 很快。几秒搞定。
翻译很快。API 调用,几十秒。
排版很慢。Typst 要多次编译,每次都要计算所有元素的位置,处理公式、表格、图片的布局,生成 PDF。
而且排版还容易出错。公式编号不对、表格跨页断裂、图片位置偏移——都需要人工调整。
OCR 和翻译是 commodity。排版引擎是 bottleneck。
░▒壁垒▒░
RetainPDF 的技术壁垒不在翻译。
在排版。
OCR 和翻译谁都能做。但把翻译好的文本变回“保留排版的 PDF”,需要 Typst 这种级别的排版引擎。
Typst 不是 RetainPDF 发明的。是开源社区做的。
但 RetainPDF 把 OCR、翻译、Typst 串成了一条完整的流水线。
这条流水线本身,就是壁垒。
OCR 看懂结构。翻译转换语言。Typst 重建排版。
三层,缺一不可。
翻译一段 PDF 很容易。
保留排版翻译,很难。
难在排版。
来,见证奇迹的一刻!见图二!见图三!见图四!
