关注公众号,发现CV技术之美
导读: 随着汉字数字化、古籍保护和智能应用的兴起,如何精准识别海量、稀有、甚至生僻的汉字,成为人工智能领域的一大挑战。现有数据集受限于类别数量和样本分布,远远无法满足对“超大类”汉字的研究需求。华南理工大学全新发布的 MegaHan97K 数据集,首次覆盖了97,455类中文字符,完整支持GB18030-2022标准,并兼顾手写、历史与合成多源样本,极大缓解了长尾分布难题。相关基准测试结果也揭示了在超大类别场景下模型面临的新挑战与机遇。
欢迎关注和下载数据集,共同推动中文字符识别技术的突破与发展!
资源获取:
论文名称:MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories
论文地址:https://arxiv.org/abs/2506.04807
代码仓库:https://github.com/SCUT-DLVCLab/MegaHan97K
现有数据集的不足与挑战为更好地满足古籍文献数字化、科技应用、地名人名等社会用字需求,国家标准GB18030-2022将汉字收录数量从GB18030-2005的27,533个大幅提升至87,887个。尽管近年来中文字符识别(CCR)取得了长足进步,但随着标准的升级,现有汉字数据集的不足愈发突出:
类别覆盖有限:主流数据集多聚焦常用汉字,极少包含生僻、异体或历史字符。例如,当前最大的数据集仅覆盖约1.6万类汉字,远不能满足最新国家标准的需求。
长尾分布问题严重:以M5HisDoc为例,约20%的字符类别样本数不足3个,造成数据极度不均衡。大量罕见汉字(包括古籍中的异体、生僻字)样本极为有限,模型难以充分学习、泛化和评估。
古籍文献数字化支持不足:现有数据集主要集中于现代常用字,对于古籍文献中频繁出现的丰富异体字、生僻字支持有限,难以满足古籍数字化、文化遗产保护等实际场景对高覆盖率和多样性用字的需求,制约了相关技术的创新与应用。
MegaHan97K:超大类别汉字识别数据集为突破现有数据集的局限,研究者们精心打造了 MegaHan97K ——当前类别数最多、覆盖最广的中文字符识别数据集。该数据集具有以下显著特点:
超大规模,全面覆盖:MegaHan97K包含97,455类汉字,是首个完全支持最新GB18030-2022标准的数据集,类别数量是现有最大数据集的6倍以上,覆盖了现代常用、生僻、异体和历史汉字。MegaHan97K可能是当前模式识别领域类别数量最多的数据集。
多源样本,真实多样:数据集由三大子集组成:手写、历史和合成样本,涵盖志愿者手写、古籍文献图片、AI合成字体等多种数据来源,极大丰富了字形、风格与场景的多样性。
均衡分布,缓解长尾:针对长尾分布问题,MegaHan97K为每个类别均衡提供了充足样本,有效支持模型在常用字与稀有字上的全面训练和评估。
模型现状与关键发现研究团队对多种主流的中文字符识别方法进行了系统性基准评测。实验结果不仅验证了数据集的价值,也揭示了在“超大类别”场景下模型面临的全新挑战:
存储与计算需求大幅提升:类别数极大扩展导致模型参数量和存储空间需求急剧增加,所有模型存储需求平均增加60%。其中SideNet模型存储需求增长82.79%,达到11GB。
结构相似字与复杂字识别更具挑战:MegaHan97K中大量结构相近或笔画复杂的汉字,使得误识率显著提升。分析结果显示,38.34%的错误样本涉及形态相似字符(IDS编辑距离≤3),74.18%的错误样本为复杂字符(笔画数≥10)。
合成数据可以有效提升识别率:所有模型在使用合成子集后性能显著提升,平均提升22.43%!其中HierCode模型准确率从66.58%跃升至92.32%,提升幅度达25.74%
CCR-CLIP在零样本实验中表现突出:零样本识别准确率79.04%,超越第二名31.36%
基于字形方法在零样本实验中效果显著:OpenCCD达到76.06%,验证了印刷体模板的有效性
基于部首嵌入的方法储存需求小:HierCode在超大类别的情况下模型储存大小仅有283.3MB,适合实际应用,但是性能有限。
实验结果如图所示:
跨数据集验证研究团队还进行了跨数据集验证,结果显示,基于MegaHan97K对模型进行训练,可以有效提升生僻字、异体字以及相似字的识别准确率(使用类别平均准确率进行计算,即Macro acc)。这表明,MegaHan97K能够有效支持古籍数字化、古籍修复、科技用字和社会用字等多元应用需求。
实验结果如图所示:
引用场景古籍修复场景:在古代文献受损的情况下,传统的文本级识别方法往往失效,而基于MegaHan97K训练的字符级识别模型能够有效识别残存的清晰字符,为史学家的进一步数字化和修复工作提供重要支持。
需要异体字识别的场景:数据集包含大量异体字和生僻字,显著提升了模型对罕见字符的识别能力,macro准确率相比单独使用现有数据集提升显著。
结语MegaHan97K作为首个覆盖近十万类汉字的超大规模识别数据集,不仅显著提升了模型在生僻字、异体字和相似字等复杂场景下的识别性能,也为古籍数字化、古籍修复、科技用字和社会用字等多元应用提供了有力支撑。未来,MegaHan97K有望进一步推动汉字识别、古籍数字化及相关领域的发展,助力中华优秀传统文化的数字化传承与创新。
最新 AI 进展报道请联系:amos@52cv.net
END
欢迎加入「汉字识别」交流群👇备注:OCR