Current document parsing methods compete primarily on model architecture innovation, while systematic engineering of training data remains underexplored.
大多数人认为文档解析性能的提升主要依赖于模型架构的创新和规模的扩大,但作者认为训练数据的系统性工程优化才是关键瓶颈,因为不同架构的SOTA模型在相同困难样本上表现出高度一致的失败模式,这表明问题在于数据质量而非架构本身。