计算机视觉尚不及人类水平

计算机视觉尚不及人类水平 | AI生成和翻译

Home 2025.06

王垠的博客文章指出，即便是2019年的先进计算机视觉系统，也远未达到人类水平。文章认为这些系统在基础物体识别（如识别汽车）方面存在困难，且容易受到对抗样本或细微图像修改的干扰，而人类却能轻松识别物体。王垠提出该领域过度夸大进展，由于系统处理和理解图像的根本性局限，真正的人类级计算机视觉仍然难以实现。

事实果真如此吗？

截至2019年10月文章发表时，王垠的论点基于当时计算机视觉的发展状况是成立的：

泛化能力有限：卷积神经网络等计算机视觉模型严重依赖训练数据中的模式匹配。正如王垠所述，它们往往难以泛化到新场景或妥善处理边缘案例。例如当光照、角度或背景发生显著变化时，模型可能错误分类物体。
对抗性攻击脆弱性：关于经过细微修改就能误导模型的对抗样本，王垠的观点是准确的。Goodfellow等人（2014）的研究表明，微小且难以察觉的扰动就能导致模型以高置信度误判图像，这凸显了人类与机器视觉间的差距。
过度宣传质疑：文章批评了计算机视觉领域的夸大宣传。2019年，虽然ResNet、YOLO及早期Transformer等模型在ImageNet等基准测试中表现亮眼，但这些均属受控数据集。自动驾驶、人脸识别等实际应用常暴露出系统缺陷。

但文章语气过于绝对，声称“根本不存在人类级别的计算机视觉”，这忽略了特定任务取得的进展：

专项任务成功：截至2019年，在糖尿病视网膜病变检测等医疗影像分类任务中，计算机视觉系统已超越人类表现。
2019年后的进展：到2025年，视觉Transformer、CLIP等视觉模型以及GPT-4o、DALL·E 3等多模态模型显著缩小了差距。这些模型能处理更复杂的输入，提升跨场景泛化能力，并通过语言-视觉融合增强推理能力。不过仍未能完全复现人类视觉的鲁棒性、情境意识和直觉理解。

关键评估

王垠的核心主张——2019年的计算机视觉未达人类水平——基本符合事实。当时的模型确实缺乏人类视觉的泛化能力、鲁棒性和直觉理解。但其对技术进步的否定可能过于悲观：

情境推理：人类能轻松融合感官数据与世界知识，机器则难以实现
边缘案例：面对罕见或全新场景时，模型容易失效而人类能快速适应
能效比：人类视觉的能效远高于计算模型

这篇文章作为对AI能力过度宣传的批判至今仍具参考价值，但未充分考量该领域的飞速发展。截至2025年，虽无单一信源确认已实现“人类级”视觉，但两者间的差距已显著缩小。

Back Donate