在AI时代介绍手写文字识别软件Transkribus落伍了吗
作者:微信文章在写本文之前,Mia在微信上搜了一下,发现Transkribus已经有很多介绍文字了(见文后扩展阅读部分),并且似乎是历史学界大家都知道的一款软件,因此我在犹豫自己要不要再来介绍,介绍哪些方面。
我打算从以下几个方面聊两句。
1. 我为什么要介绍手写文字识别软件
2. 我为什么要介绍Transkribus
3. 目前各种AI当道,Transkribus是否还具有优势
最后,我会给出一些参考文献,如果大家希望我后续出更加详细的使用教程,可以留言。
1. 为什么要介绍手写文字识别软件
因为最近刷到一位老师去世的推文(R.I.P.),其中提到历史学研究需要做手稿识别。我本身不是历史学专业的,想想确实应该有不少一手资料是手稿形式的,于是打算介绍一下,望能减轻部分学者的工作。
2. 为什么要介绍Transkribus
因为我只用过这一款手写识别软件。几年前曾经帮一位网友处理过一个手写文档,用的就是这个。当时的体验还是不错的,但是没顾上在推文里介绍。它的官网是https://www.transkribus.org,见图1。
图1 Transkribus官网(图源:https://www.transkribus.org)
3. 目前各种AI当道,Transkribus是否还具有优势
这个问题我认为是最有价值的。并且对很多传统的“智能”软件都可以提这个问题,例如与手写文字识别(HTR)很接近的光学字符识别(OCR)领域,也有一些老牌强势软件比如ABBYY。
我在为写这篇推文的简单调研中,看到一篇文章《旧文本的新透镜——跨学科应用案例研究(AI4SS系列之十)》,其中有如下这段话:
“LLMs对历史研究的第一个革命性贡献在于“手稿转写”(Transcription)。长久以来,将手写历史文献转化为机器可读的文本,是一项极其耗时且需要专业技能的工作。尽管专门的“手写文本识别”(Handwritten Text Recognition, HTR)软件(如Transkribus)已取得一定进展,但它们通常需要针对特定笔迹进行大量训练,且成本不菲。而最新的多模态LLMs,如GPT-4o,能够直接“阅读”手稿图片并进行转写,其表现令人瞩目。一项研究表明,在处理18、19世纪的英文手稿时,LLMs不仅在准确率上显著超越了Transkribus(字符错误率低至1.8%,接近人类水平),而且速度和成本都仅为后者的几十分之一 51。这被誉为档案数字化领域的“分水岭时刻”,它极大地降低了历史学者利用一手档案的门槛。”
红字为Mia所标出。如果各位最近使用“豆包”这类大语言模型,会发现它特别喜欢把数字说的很精确,这里的“错误率低至1.8%”、“速度和成本都仅为后者的几十分之一”就很符合这一特征。事实上,这句话最后有一个“51”我认为或许是所提到的这项研究的文献编号,可在该推文中也没有发现参考文献列表。
Mia特地去使用“HTR+Transkribus+llm”搜索相关文献,找到了2025年较新的两篇文章(文献与文献)。相信这两篇相对更加权威的文章的内容会带来更准确的判断。
文献对比了手写文字识别的四款引擎(PyLaia、HTR+、IDA和TrOCR),其中被集成在Transkribus中的有PyLaia和基于TrOCR开发的Titan引擎(这被Transkribus称为“超级模型”)。文中提到,TrOCR最初由Microsoft开发,基于Vision和LLM-Transformer架构。它将视觉功能与大语言模型(LLM)相结合,可实现高效的手写文本识别。从这一点看,说Transkribus不如LLM就很荒谬了,因为Transkribus里已经有基于LLM的识别引擎了。
文献专门考察了现有的多模态大语言模型(GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet、MiniCPMV- 2 6、Qwen2-vl-7B、Pixtral12B、InternVL2-8B和Phi-3-mini-instruct-128k)在手写文字识别上的效能,并与Transkribus进行了比较。具体地,参与比较的数据集如表1所示。
表1 文献所测试的数据集
接下来依照表1中数据集的顺序汇报文献的测试结果:
(1)现代英文手稿数据上,Transkribus超级模型的识别准确性远低于绝大多数多模态LLM模型;
(2)现代法文手稿数据上,Transkribus超级模型的识别准确性远低于商业多模态LLM模型。
(3)历史意大利文资料方面,Claude-3-5-sonnet-20240620一枝独秀,错误率大致在20~30%,Transkribus(文献研究进行时目前没有意大利语的超级模型,故而这里是基于PyLaia的“Italian Handwriting M1”)则与我国的Qwen2-VL-7B类似,表现略逊一筹,错误率大致在25~50%;
(4)历史英文手稿上,Transkribus则与我国的Qwen2-VL-7B一起拔得头筹,错误率很好地控制在10%左右;
(5)在最后两个数据集上,Transkribus则遥遥领先。
基于文献的测试结果来看,相对于当前火爆的多模态大语言模型,Transkribus的优势主要体现在英、德、法文的历史手稿上。在Mia撰稿时(2025-9-30),Transkribus的超级模型中已经涵盖了意大利文(甚至更多文字),如图2,因此或许可以对其在意大利文(以及其他文字)历史手稿上的效果进行进一步考察。
图2当前Transkribus的超级模型“The Text Titan I ter”已支持意大利文(图源:https://beta.transkribus.org/models/public)
面对目前各种AI当道,Transkribus在历史手稿识别任务上仍具有优势和保持优势的潜力。这在全行业传统软件上都具有启发意义,如语音应用、图像编辑工具、视频剪辑软件、物理仿真软件、游戏制作软件等,也许以前也或多或少使用了机器学习算法,但是要想在AI大潮中保持自己的优势,可能最好是积极考虑新的结合可能性。
希望本文能对读者有所帮助,如果大家希望我后续出更加详细的使用教程,可以留言。
参考文献
数图笔记. 旧文本的新透镜——跨学科应用案例研究(AI4SS系列之十). (2025-09-22). https://mp.weixin.qq.com/s/Zt-RuE4vDw5q_iow71f9qA.
Romein, C. A., Rabus, A., Leifert, G., & Ströbel, P. B. (2025). Assessing advanced handwritten text recognition engines for digitizing historical documents.International Journal of Digital Humanities,7,115–134. https://doi.org/10.1007/s42803-025-00100-0
Crosilla, G., Klic, L., & Colavizza, G. (2025). Benchmarking large language models for handwritten text recognition.Journal of Documentation,1–21. https://doi.org/10.1108/JD-03-2025-0082
扩展阅读
1
科学史图书馆,公众号:科学史图书馆识别手稿准确率95%的人工智能:Transkribus与人文研究的前景
2
科学史图书馆,公众号:科学史图书馆用AI识读中世纪拉丁手稿:Transkribus训练课程
3
新智元,公众号:新智元全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
4
番石榴AI,公众号:番石榴AI基于 Transformer 模型的历史手稿手写文本识别
5
公众号:ERGIC Team顶刊编译 | 人工智能在人文科学研究中的应用综述
6
公众号:图书情报研究理论探讨 |于英香:基于“AI+ 众包”的文献数字化实践探析
7
公众号:DH数字人文研讨会|文本处理工具Transkribus 的使用
8
李春郁,公众号:国际翻译动态热点追踪 | 揭开手写文本识别“最先进”的秘密
9
兰台小子,公众号:兰台小子海外采风丨比利时:梅赫伦档案馆利用AI数字化数百万古籍手稿,革新历史保存方式
页:
[1]