Text entziffert
KI-gestützte Handschriftenerkennung macht Akten deutscher Kolonialgeschichte durchsuchbar
von Dr. Esther-Maria Lemmerz
September 2025
Das Bundesarchiv digitalisiert immer mehr seiner Bestände und stellt diese den Nutzer:innen auf seiner Rechercheplattform invenio nach Ablauf gesetzlicher Schutzfristen zur Verfügung. Auch der für die Erforschung der deutschen Kolonialgeschichte zentrale Bestand R 1001 Reichskolonialamt ist digitalisiert und somit für Nutzer:nnen über das Internet vollständig einsehbar. Recherchierbar sind allerdings nur die Digitalisate selbst und manuell erfasste Metadaten wie z.B. der Titel einer Akte. Somit mussten Nutzer:innen bisher von Hand durch den digitalisierten Bestand blättern und die größtenteils in deutscher Kurrentschrift verfassten Akten im Original lesen.

Den Zugang zu diesem für die deutsche Kolonialgeschichte so wichtigen Bestand wollte das Bundesarchiv mit seinem ersten KI-Projekt gerade auch für Personen ohne Kenntnisse deutscher Kurrentschrift ermöglichen. Abhilfe schaffen sollten durchsuchbare Transkriptionen aller knapp 10.000 Akten des Bestandes R 1001 Reichskolonialamt.
In Zusammenarbeit mit den Unternehmen adesso und Planet AI hat das Projektteam zunächst ein Modell zu Handschriftenerkennung an die Besonderheiten des Bestandes R 1001 angepasst. Für dieses Finetuning haben Archivar:innen des Bundesarchivs etwa 170 Aktenseiten manuell abgeschrieben. Diese 170 geprüften Seiten bildeten die Grundlage für das Finetuning, die sogenannte Groundtruth. 85 Prozent der Groundtruth wurden für das Finetuning verwendet. Mit den anderen 15 Prozent, den Validierungsdaten, wurde anschließend die Verbesserung des Modells evaluiert. Um das Modell differenziert zu bewerten, teilte das Projektteam die Validierungsdaten in drei Kategorien aufsteigender Schwierigkeit. Je schlechter lesbar die Schrift und je mehr Überlappungen oder Durchstreichungen, desto höher der Schwierigkeitsgrad. Insgesamt konnte das Finetuning das Modell stark verbessern. Transkriptionen der Kategorien 1 und 2 sind nach dem Finetuning gut lesbar und enthalten nur wenige Fehler. Allein bei Transkriptionen der schwierigsten Kategorie ist die Lesbarkeit auch nach dem Finetuning noch eingeschränkt.
Nach dem erfolgreichen Finetuning des Modells entwickelte die Firma adesso für das Bundesarchiv eine Anwendung, die die Transkriptionen aller Aktenseiten des Bestandes R 1001 durchsuchen kann. Nun können Nutzer:innen die Information, die sie im Bestand recherchieren möchten, einfach in einer Suchmaske eingeben. Die Suche liefert, je nach Einstellung, auch unscharfe Treffer, die dem Suchbegriff nur ähnlich sind. So können Fehler in den Transkriptionen teilweise ausgeglichen werden.

Haben Nutzer:innen einen Treffer ausgewählt, können sie diesen im Kontext der Akte lesen. Die Suchanwendung zeigt neben der Transkription auch das Digitalisat der zugehörigen Aktenseite an, sodass die automatisch erzeugte Transkription immer auch am Original überprüft werden kann. Möchten Nutzer:innen tiefer in die gefundene Akte eintauchen, können sie die Akte öffnen und seitenweise durch Digitalisat und Transkription blättern.
Die Suchanwendung R 1001 Reichskolonialamt steht allen Interessierten im Lesesaal des Bundesarchivs am Berliner Standort Lichterfelde nach Anmeldung zur Verfügung.
Das Bundesarchiv digitalisiert immer mehr seiner Bestände und stellt die Digitalisate, soweit rechtlich möglich, Nutzer:innen auf seinen Rechercheanwendungen zur Verfügung. Mit der Suchanwendung R 1001 Reichskolonialamt stehen für einen ersten Bestand nicht nur die Bilder selbst, sondern der gesamte Text aller Aktenseiten zur Verfügung. So ermöglicht das Bundesarchiv einen tieferen Zugang zu seinen Quellen und ermächtigt gleichzeitig seine Nutzer:innen noch stärker zu eigenständiger Recherche. Diesen Weg setzt das Bundesarchiv mit den laufenden KI-Projekten fort: Momentan werden sowohl Modelle für die Erkennung weiterer Aktenbestände erprobt als auch die Transkription des gesprochenen Wortes aus Filmen getestet. Gleichzeitig stellt sich das Bundesarchiv mit den aktuellen Projekten auch der Herausforderung, die erzeugten Transkriptionen zukünftig nicht mehr in einer Einzelanwendung bereitzustellen, sondern in die für alle seine Quellen entwickelte Rechercheanwendung – den Digitalen Lesesaal – zu integrieren. So sollen langfristig weitere Bestände vollständig durchsuchbar und später auch online zugänglich gemacht werden.

Dr. Esther Lemmerz studierte englische Sprach- und Literaturwissenschaften, Geschichte und Mittelalterstudien an den Universitäten Bonn, Belfast und Leeds. 2021 wurde sie an der Georg-August-Universität Göttingen im Fach Englische Philologie promoviert. Von 2018 bis 2022 wirkte sie als wissenschaftliche Mitarbeiterin am dortigen ERC-Projekt „Electronic Corpus of Anonymous Homilies in Old English“ (ECHOE) an der digitalen Edition aller vor 1200 verfassten Textzeugen anonymer englischsprachiger Predigten mit und führte Lehrveranstaltungen zu Sprach- und Literaturgeschichte, Paläographie und Techniken der digitalen Edition durch.
Seit Juni 2022 ist sie im Bundesarchiv als Programmleiterin für das dortige KI-Programm zuständig und übernimmt auch die fachliche Projektleitung der KI-Projekte zur Werte-Extraktion von Karteikarten, Volltexterkennung in R 43 Reichskanzlei sowie zur Sprechertexterkennung in Filmen. Das Pilotprojekt zur Suchanwendung R 1001 Reichskolonialamt wird ebenfalls von ihr betreut.