使用PyTorch炼丹的过程中,我们最怕的就是在DataLoader里debug,原因无他:多进程驱动的DataLoader很难给出清晰的traceback报错,即便将num_worker设为0不启用多进程,有时一个DataLoader Worker PID XXX is killed by signal: Killed或者Segmentation Fault还是能让用户一脸懵逼。新手炼丹师...
表格OCR任务,隶属于Document Analysis and Recognition领域,相关顶会有ICDAR。本文主要记录在Github上开源的个人项目Hyper-Table-OCR的整个开发历程,如标题所说,Hyper-Table-OCR的创新点主要在为有表格线的表格OCR识别与重建提供了流水线,我们将全过程分为:预处理,包括四点透视变换(可选)与表格角度调整(可选);表格检测(可选...