状态

已结束

网站缩略图.jpg

Talk-第4期 直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

具身智能正从“实验室演示”走向“真实世界服役”,2025 年《政府工作报告》首次把具身智能列入未来产业。然而,产业落地遭遇最后一公里的落地瓶颈:真实世界的雨雾、暗光、抖动、带宽抖动等底层视觉失真,均会导致抓取失败或交互迟滞。 学术界现有的底层视觉算法主要为“以人为中心”的范式。考虑到人类与机器视觉系统的巨大差异,传统的底层视觉信号处理方法主要面向人类视觉感知,在具身任务上尚不具备可靠性。人类对图像的考量的因素主要为亮度、色度、对比度等,而非操作与导航等下游任务的表现,其结果难以满足具身智能在动态、多任务场景下的特殊需求。因此,有必要研究以具身智能为中心的压缩编码、图像增强、以及质量评价等底层视觉信号处理算法,将具身智能从理想的实验室环境,推广至真实世界的复杂失真中。

Talk-第4期 直播回放 | 上海人工智能实验室李春一: 面向具身智能的底层视觉信号处理

具身智能正从“实验室演示”走向“真实世界服役”,2025 年《政府工作报告》首次把具身智能列入未来产业。然而,产业落地遭遇最后一公里的落地瓶颈:真实世界的雨雾、暗光、抖动、带宽抖动等底层视觉失真,均会导致抓取失败或交互迟滞。 学术界现有的底层视觉算法主要为“以人为中心”的范式。考虑到人类与机器视觉系统的巨大差异,传统的底层视觉信号处理方法主要面向人类视觉感知,在具身任务上尚不具备可靠性。人类对图像的考量的因素主要为亮度、色度、对比度等,而非操作与导航等下游任务的表现,其结果难以满足具身智能在动态、多任务场景下的特殊需求。因此,有必要研究以具身智能为中心的压缩编码、图像增强、以及质量评价等底层视觉信号处理算法,将具身智能从理想的实验室环境,推广至真实世界的复杂失真中。

了解更多

已结束

网站缩略图.jpg

Talk-第2期 直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

让AI智能体真正融入工作与生活——从工具到伙伴的范式革命。核心理念:AI不应只是工具,而应成为理解你、协助你的智能伙伴,在人工智能飞速发展的今天,我们面临一个关键问题:如何让AI真正融入用户的工作与生活,而不仅仅停留在"工具"层面? 我的研究聚焦于多模态垂类智能体的设计与实现,致力于通过AI智能体改变传统的交互方式、提升工作范式、重塑用户体验。从两个维度突破传统AI应用的边界,传统AI应用往往是"单点式"的——用户需要明确知道使用什么工具、如何调参、怎样组合功能。这种模式将复杂度转嫁给了用户,AI仍然是"被动的工具"。而智能体范式的核心在于:让AI主动理解意图、自主推理决策、协调多种能力,成为用户的"智能协作伙伴"。

Talk-第2期 直播回放 | 厦门大学林云龙: JarvisX多模态智能体系列工作介绍

让AI智能体真正融入工作与生活——从工具到伙伴的范式革命。核心理念:AI不应只是工具,而应成为理解你、协助你的智能伙伴,在人工智能飞速发展的今天,我们面临一个关键问题:如何让AI真正融入用户的工作与生活,而不仅仅停留在"工具"层面? 我的研究聚焦于多模态垂类智能体的设计与实现,致力于通过AI智能体改变传统的交互方式、提升工作范式、重塑用户体验。从两个维度突破传统AI应用的边界,传统AI应用往往是"单点式"的——用户需要明确知道使用什么工具、如何调参、怎样组合功能。这种模式将复杂度转嫁给了用户,AI仍然是"被动的工具"。而智能体范式的核心在于:让AI主动理解意图、自主推理决策、协调多种能力,成为用户的"智能协作伙伴"。

了解更多

已结束

第一期网站缩略图.jpg

Talk-第1期 直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

近些年,随着一系列基础大模型的迅速发展,计算机视觉研究正从任务特定模型迈向统一的通用视觉智能体现。在底层视觉领域,传统的图像复原与增强任务长期依赖各自独立的网络设计,而基础模型的提出,使多任务协同、多退化学习成为可能。报告将重点介绍图像复原基础模型以数据缩放定量为核心的FoundIR-v1和以数据混合定律为核心的FoundIR-v2,并展望通用底层视觉基础模型的未来发展方向和研究挑战。最后,报告将介绍底层视觉社区服务平台的建设工作规划及新功能彩蛋预告。

Talk-第1期 直播回放 | 南京理工大学陈翔: 图像复原基础模型的研究与展望

近些年,随着一系列基础大模型的迅速发展,计算机视觉研究正从任务特定模型迈向统一的通用视觉智能体现。在底层视觉领域,传统的图像复原与增强任务长期依赖各自独立的网络设计,而基础模型的提出,使多任务协同、多退化学习成为可能。报告将重点介绍图像复原基础模型以数据缩放定量为核心的FoundIR-v1和以数据混合定律为核心的FoundIR-v2,并展望通用底层视觉基础模型的未来发展方向和研究挑战。最后,报告将介绍底层视觉社区服务平台的建设工作规划及新功能彩蛋预告。

了解更多

已结束

6ccd7853cbf39d688f10b84d2e928dc0.jpg

PRCV 2025 | 可控多模态内容生成:驱动精准创造的技术革新

多模态视觉内容生成是融合人工智能、计算机视觉与跨模态交互理论的核心前沿领域。以大模型技术为代表的创新方法,为多模态视觉内容生成提供了高效可控、跨域融合、低资源适配的解决方案,推动了内容生产、工业设计、自动驾驶、虚拟现实等领域的技术革新与产业落地。一方面,多模态视觉内容生成已成为计算机视觉与 AI 领域的核心研究方向,其技术突破直接引领生成式 AI 的应用升级;另一方面,该技术与数字经济、智能制造、元宇宙建设等国家战略需求深度契合,是解决内容生产效率低、跨模态协同难、场景适配性差等关键问题的重要手段。本论坛报告将围绕多模态视觉内容生成的核心技术与前沿应用,邀请领域内顶尖专家学者分享最新研究成果与未来发展方向。

PRCV 2025 | 可控多模态内容生成:驱动精准创造的技术革新

多模态视觉内容生成是融合人工智能、计算机视觉与跨模态交互理论的核心前沿领域。以大模型技术为代表的创新方法,为多模态视觉内容生成提供了高效可控、跨域融合、低资源适配的解决方案,推动了内容生产、工业设计、自动驾驶、虚拟现实等领域的技术革新与产业落地。一方面,多模态视觉内容生成已成为计算机视觉与 AI 领域的核心研究方向,其技术突破直接引领生成式 AI 的应用升级;另一方面,该技术与数字经济、智能制造、元宇宙建设等国家战略需求深度契合,是解决内容生产效率低、跨模态协同难、场景适配性差等关键问题的重要手段。本论坛报告将围绕多模态视觉内容生成的核心技术与前沿应用,邀请领域内顶尖专家学者分享最新研究成果与未来发展方向。

了解更多

已结束

6ccd7853cbf39d688f10b84d2e928dc0.jpg

PRCV 2025 | 智能成像与探测

本专题论坛聚焦“智能成像与探测”的前沿科学与技术挑战,核心内容涵盖三大方向。其一将深入红外成像与探测等关键应用,针对成像机制向高分、多谱、微型化演进带来的新挑战,重点研讨红外弱小目标智能检测、复杂场景鲁棒感知及轻量化模型设计等关键技术;其二则回归智能成像与计算的本源,交流与探讨提升成像质量、拓展技术应用边界的新范式与新进展;其三为跨模态计算成像与增强,探讨如何通过多模态数据的协同分析与智能重建,突破单一传感器的信息瓶颈,实现从微观到宏观的全方位感知增强,为科学发现与产业升级提供新质生产力。

PRCV 2025 | 智能成像与探测

本专题论坛聚焦“智能成像与探测”的前沿科学与技术挑战,核心内容涵盖三大方向。其一将深入红外成像与探测等关键应用,针对成像机制向高分、多谱、微型化演进带来的新挑战,重点研讨红外弱小目标智能检测、复杂场景鲁棒感知及轻量化模型设计等关键技术;其二则回归智能成像与计算的本源,交流与探讨提升成像质量、拓展技术应用边界的新范式与新进展;其三为跨模态计算成像与增强,探讨如何通过多模态数据的协同分析与智能重建,突破单一传感器的信息瓶颈,实现从微观到宏观的全方位感知增强,为科学发现与产业升级提供新质生产力。

了解更多
1 2 3 跳转到