具身智能正从“实验室演示”走向“真实世界服役”,2025 年《政府工作报告》首次把具身智能列入未来产业。然而,产业落地遭遇最后一公里的落地瓶颈:真实世界的雨雾、暗光、抖动、带宽抖动等底层视觉失真,均会导致抓取失败或交互迟滞。
学术界现有的底层视觉算法主要为“以人为中心”的范式。考虑到人类与机器视觉系统的巨大差异,传统的底层视觉信号处理方法主要面向人类视觉感知,在具身任务上尚不具备可靠性。人类对图像的考量的因素主要为亮度、色度、对比度等,而非操作与导航等下游任务的表现,其结果难以满足具身智能在动态、多任务场景下的特殊需求。因此,有必要研究以具身智能为中心的压缩编码、图像增强、以及质量评价等底层视觉信号处理算法,将具身智能从理想的实验室环境,推广至真实世界的复杂失真中。