评测GPT-4V(ision)在各种OCR相关任务上的性能。
场景文字识别(Scene Text Recognition,STR)旨在识别自然场景图片中的文字信息。
手写文本识别(Handwritten Text Recognition,HTR)旨在识别手写体文字。
手写数学公式识别(Handwritten Mathematical Expression Recognition,HMER)旨在识别手写数学公式。例如,给定一张手写公式图像,HMER算法将会把图像转换为latex格式。
了解更多关于视觉信息抽取的信息,请参考Document-AI-Recommendations.
视觉信息抽取(Visual Information Extraction, VIE)旨在挖掘、分析和提取视觉富文档中包含的关键信息字段。例如,给定一张收据的图像,VIE算法将告诉诸如商店名称、产品详情、价格等信息。对于表格等文档,VIE算法将抽取出其包含的键值对。