Accuracy Isn’t All: Testing KuroNet for Kanbun OCR

20250 citationsJournal Articlediamond Open Access

Authors

James Harry Morris · National Museum of Japanese History

Abstract

This paper tests the open-source OCR software KuroNet’s performance on printed texts written in kanbun, comparing the results to other freely available off-the-shelf OCR solutions. Kanbun, a literary standard using Chinese characters and syntax to represent Japanese textual content, was employed widely throughout Japan from the classical into the modern period. Its peculiarities with regard to layout and characters present a challenge to standard OCR software that has not been tackled to date. KuroNet was developed for a different purpose, namely, to help decipher literature written in cursive Japanese characters; its idiosyncratic approach to irregular layouts, however, commends KuroNet for kanbun as well. The survey shows that due to its unique approach to kanji detection, KuroNet’s output surpasses that of programs with higher transcription accuracy rates on pages with a difficult layout. The present paper provides the background to the study, compares the results between KuroNet and comparable OCR programs, and closes with an analysis of KuroNet’s weaknesses, with recommendations for further improvements. Cet article évalue les performances du logiciel open-source de Reconnaissance Optique de Caractères (ROC), KuroNet, sur des textes imprimés écrits en kanbun, en comparant les résultats à ceux d'autres solutions ROC disponibles gratuitement. Le kanbun, une norme littéraire utilisant des caractères et une syntaxe chinoise pour représenter du contenu textuel japonais, a été largement utilisé au Japon de la période classique à la période moderne. Ses particularités en matière de mise en page et de caractères posent un défi aux logiciels ROC standards, un défi qui n’a pas encore été relevé jusqu’à présent. KuroNet a été développé dans un autre but : aider à déchiffrer la littérature écrite en caractères cursifs japonais. Toutefois, son approche particulière des mises en page irrégulières le rend également pertinent pour le kanbun. L’étude montre que, grâce à son approche unique de la détection des kanji, les résultats de KuroNet surpassent ceux de programmes ayant des taux de précision de transcription plus élevés, notamment sur des pages à mise en page complexe. Le présent article fournit le contexte de l’étude, compare les résultats entre KuroNet et d’autres programmes de ROC comparables, et se termine par une analyse des faiblesses de KuroNet, accompagnée de recommandations pour des améliorations futures.

Topics & Keywords

Intellectual Property Law

Publication Details

Published in: Digital Studies / Le champ numérique

Volume 15, Issue 1

DOI: 10.16995/dscn.17257

Field-Weighted Citation Impact: 0.00

Command Palette

Accuracy Isn’t All: Testing KuroNet for Kanbun OCR

Authors

Abstract

Topics & Keywords

Publication Details