深度生成模型的最新进展极大地推动了图像生成、增强和修复技术的发展。本次演讲的第一部分介绍了智能图像处理模型的一系列发展,涵盖图像生成、低级编辑和修复。演讲从早期的超分辨率和图像修复方法入手,追溯了从特定任务解决方案向更统一、更具通用性框架的演变过程,最终聚焦于从SUPIR到HYPIR的最新进展,这些进展捕捉了丰富的视觉先验知识,并支持广泛的低级视觉任务。
演讲的第二部分将重点从单个模型转向系统级设计,探讨低级视觉如何向视觉媒体的智能体人工智能(Agentic AI)演进。虽然单个模型在独立运行时表现出色,但现实世界的视觉工作流程需要语义理解、任务分解、自适应决策和灵活的工具组合。演讲勾勒了一个智能体低级视觉系统的愿景,在该系统中,人工智能代理将多个生成和处理模型进行协调,以实现自主的视觉推理和编辑。最后,讨论了大型语言模型和多模态智能体在构建智能、可控且可扩展的视觉媒体系统中所发挥的作用。