人形机器人加快先进AI机器人开发

物理AI的新时代

通用人形机器人专为快速适应现有的以人类为中心的城市和工业工作空间而构建,用以承担枯燥、重复性或对体力要求高的工作任务。这些机器人正在从工厂车间走向医疗健康机构,通过自动化帮助人类工作,缓解劳动力短缺问题。

图片

但是,构建人形机器人涉及多层复杂性并面临艰巨的工程挑战。这些挑战涵盖模拟人类的感知、自由度、灵巧性、移动性、认知功能和全身协调控制等方面。

这需要加快机器人研究领域和技术的发展,推动人工智能 (AI)、机器学习、基于物理仿真、传感器技术和机电一体化等关键技术的突破。

技术运用-推进人形机器人开发

NVIDIA正在开发加速系统、blueprints、工具、服务、算法和其他机器人技术,以构建符合人类形态规格的通用机器人。

三台计算机解决方案

人形机器人需具备在特定环境中自主感知、规划与行动的能力,这要求其能实时处理海量数据。这需要训练支撑机器人大脑的基础模型,对机器人大脑进行模拟和验证,并最终将优化后的大脑和相关软件部署到实体机器人上。 

这三种 AI 系统为: 

  • 一台 NVIDIA AI 超级计算机— NVIDIA DGX™ 搭载 NVIDIA H100 或 B100 处理器—用于训练强大的生成式 AI 模型和机器人基础模型。 

  • 一台 NVIDIA OVX™ 计算机,搭载 NVIDIA RTX™GPU,用于合成数据生成、机器学习和仿真测试以及基于 NVIDIA Omniverse™构建的仿真框架,比如 NVIDIA Isaac Sim™and Isaac™Lab。 

  • 一台安装在机器人本体上的实时计算机,比如NVIDIA Jetson Thor™— 构建于NVIDIA’s Blackwell架构之上—可以运行低延迟和高吞吐量推理。

图片

NVIDIA Isaac GR00T

GR00T是一个专注于通用机器人基础模型和数据工作流的研究计划和开发平台,可加速人形机器人开发进程。

机器人基础模型

人形机器人需要不同的技能来完成各种任务,传统上需要单独的、昂贵的 AI 模型。机器人基础模型通过基于广泛数据进行训练、开发通用技能来解决这一问题。这使得机器人能够适应不同的任务和环境。

NVIDIA Isaac GR00T N是全球首个用于通用人形机器人推理和技能的开源基础模型。这种跨具身本体模型接受包括语言和图像在内的多模态输入,在不同环境中执行操作任务。GR00T N基于庞大的人形数据集上训练,该数据集由真实捕获的数据、使用NVIDIA Isaac GR00T-Mimic blueprint组件生成的合成数据和互联网级视频数据组成。它可以通过后训练针对特定实施、任务和环境进行调整。

图片

机器人学习和仿真框架

仿真对于开发者来说至关重要,在将人形机器人部署到现实世界中之前,能够在各种物理精确的环境和条件下对其进行训练。

机器人学习和仿真框架,比如NVIDIA Isaac Sim 和 NVIDIA Isaac Lab—基于 Omniverse平台构建 — 实现物理精确仿真,以并行训练和验证多个人形机器人智能体。 

Isaac Lab是一个基于Isaac Sim构建的开源统一机器人学习框架,为机器人策略训练提供高效的学习技术支持。然后,训练后的机器人策略可以在Isaac Sim中进行验证Isaac Sim是一个基于物理的虚拟环境平台,专用于构建、模拟和测试人形机器人参考应用。

图片

GR00T工作流

数据生成和处理

收集大量高质量的真实数据集可能极具挑战性,成本高昂且耗时。基于物理精确仿真生成的合成数据可以加速数据收集,并提供泛化机器人学习模型所需的多样性,从而应对这一挑战。

NVIDIA Isaac GR00T-Dreams blueprint帮助生成大量合成运动,可以教会机器人新的行为以及如何适应不断变化的环境。

开发人员可以先为他们的机器人进行Cosmos Predict 2世界基础模型 (WFM) 的后训练。然后,使用单张图片作为输入,GR00T-Dreams可以帮助生成机器人在新环境中执行新任务的多个视频。之后,该 blueprint 会提取动作 token—这些经过压缩、易于理解的数据片段,用于教导机器人如何执行这些新任务。

GR00T-Dreams blueprint是对Isaac GR00T-Mimic blueprint的补充。GR00T-Mimic使用NVIDIA Omniverse和Cosmos增强现有数据,而GR00T-Dreams则使用 Cosmos生成全新数据。

图片

灵巧操作

人形机器人抓取功能需具备类似人类的灵巧操作技能,能够同时执行粗略抓取和精细操作任务。GR00T-Dexterity是一套基于强化学习的全面模型和策略框架,通过与参考工作流深度结合,可实现这些高级灵巧功能的开发。

移动性

在复杂且动态环境中实现通用导航功能需要进行大量广泛调整。借助GR00T-Mobility 参考工作流,您可以构建一个通用移动工作流,可在不同设置和机器人具身之间实现无缝导航。

图片

全身控制

在人形机器人中实现全身控制具有挑战性,需同时满足稳定操作和强劲运动要求。GR00T-Control通过一整套先进运动规划和控制模型、策略和参考工作流来解决这一问题,从而简化高效控制系统的开发。

通过使用模仿学习和远程操作数据集,GR00T-Control有助于训练强大的全身运动策略,从而使人形机器人能够学习灵巧的操作和运动技能。

图片

基于AI的机器人感知

为了提高态势感知和交互效率,人形机器人需具备长期记忆,对事件、空间、个性化设置和上下文感知做出精确响应。 

GR00T-Perception借助基于 Isaac Sim 和 Isaac ROS构建的强大感知库、基础模型和参考工作流实现这一目标。这些工具集成了视觉语言模型和检索增强内存等先进技术,能提升人形机器人的感知、认知和适应能力。

新一代机器人本机计算平台

机器人硬件对于运行多模态 AI 模型集群也至关重要,这些模型可在不同条件下为人形机器人提供所需的性能、低延迟和功能安全保障。 

基于NVIDIA Blackwell GPU架构的NVIDIA Jetson AGX Thor可提供卓越AI计算性能并搭载新型Transformer引擎。这为边缘计算提供必要的AI超级能力,从而实现新一代人形机器人开发。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/90430.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/90430.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI 驱动开发效能跃升:企业级智能开发全流程优化方案​

企业软件开发正面临 “三高困境”:需求变更频率高、人力成本占比高、线上故障风险高。破解这些难题的核心在于构建 AI 驱动的全流程智能开发体系,通过系统化效能优化实现开发能力升级。​ 需求分析作为开发起点,常因理解偏差导致后期返工。A…

时序数据库 TDengine × Ontop:三步构建你的时序知识图谱

在做设备预测性维护或能源管理分析时,你是否也曾思考过:如何才能让机器“理解”我们收集的大量时序数据?工业现场的数据是结构化的,而语义分析、知识推理却往往需要 RDF 等图谱格式。换句话说,“会说话”的数据更聪明&…

Android启动图不拉伸且宽占满屏幕

Android启动图不拉伸且宽占满屏幕 一般启动图的做法&#xff1a; start_app_bg.xml <?xml version"1.0" encoding"utf-8"?> <layer-list xmlns:android"http://schemas.android.com/apk/res/android"><item><shape>&l…

rust-方法语法

方法语法 方法类似于函数&#xff1a;我们用 fn 关键字和一个名称来声明它们&#xff0c;它们可以有参数和返回值&#xff0c;并且包含一些在从其他地方调用该方法时运行的代码。与函数不同&#xff0c;方法是在结构体&#xff08;或枚举、trait 对象&#xff0c;分别在第6章和…

【C++】C++ 的入门语法知识1

本文主要讲解C语言的入门知识&#xff0c;包括命名空间、C的输入与输出、缺省参数以及函数重载。 目录 1 C的第一个程序 2 命名空间 1&#xff09; 命名空间存在的意义 2&#xff09; 命名空间的定义 3&#xff09; 命名空间的使用 3 C的输出与输入 1&#xff09; C中…

SpringBoot6-10(黑马)

JWT令牌简介&#xff1a;1.JWT全称:JSON Web Token(https://iwt.io/)定义了一种简洁的、自包含的格式&#xff0c;用于通信双方以json数据格式安全的传输信息。2.组成: >第一部分:Header(头)&#xff0c;记录令牌类型、签名算法等。例如:("alg":“HS256",“t…

智能制造场景195个术语的16个分类

说明&#xff1a;《智能制造典型场景参考指引&#xff08;2025年版&#xff09;》日前&#xff0c;由工信部办公厅正式发布&#xff0c;将成为众多制造型企业的工作纲领 1. 工厂数字化规划设计&#xff08;1.1&#xff09;&#xff1a;在电脑上用专业软件设计工厂布局、规划生产…

[论文阅读] 人工智能 + 软件工程 | 微信闭源代码库中的RAG代码补全:揭秘工业级场景下的检索增强生成技术

微信闭源代码库中的RAG代码补全&#xff1a;揭秘工业级场景下的检索增强生成技术 论文标题&#xff1a;A Deep Dive into Retrieval-Augmented Generation for Code Completion: Experience on WeChatarXiv:2507.18515 A Deep Dive into Retrieval-Augmented Generation for Co…

RabbitMQ—仲裁队列

上篇文章&#xff1a; RabbitMQ集群搭建https://blog.csdn.net/sniper_fandc/article/details/149312481?fromshareblogdetail&sharetypeblogdetail&sharerId149312481&sharereferPC&sharesourcesniper_fandc&sharefromfrom_link 目录 1 Raft一致性算法…

[2025CVPR-目标检测方向] CorrBEV:多视图3D物体检测

1. ​研究背景与动机​ 论文关注自动驾驶中相机仅有的多视图3D物体检测&#xff08;camera-only multi-view 3D object detection&#xff09;问题。尽管基于鸟瞰图&#xff08;BEV&#xff09;的建模近年来取得显著进展&#xff08;如BEVFormer和SparseBEV等基准模型&#xf…

oracle 数据库批量变更数据 将a表字段批量更新为b表字段

需求&#xff1a;将excel表中的数据批量更新到 taccoinfo表中vc_broker字段0、备份&#xff1a;create table taccoinfo0724 as select vc_custno ,vc_broker from taccoinfo 1、创建临时表&#xff1a; create table taccoinfo0724_1 as select vc_custno ,vc_broker from…

vim-xcode 项目常见问题解决方案

vim-xcode 项目常见问题解决方案 项目基础介绍 vim-xcode 是一个开源项目&#xff0c;旨在通过 Vim 编辑器与 Xcode 项目进行交互。该项目允许开发者在 Vim 中直接构建、测试和运行 Xcode 项目&#xff0c;从而提高开发效率。vim-xcode 主要使用 Vimscript 编写&#xff0c;并依…

个性化网页计数器

需要一个服务器环境来存放我们的计数器脚本和数据库。对于初学者来说&#xff0c;PHP和MySQL是一个不错的组合&#xff0c;因为它们易于学习且广泛应用。接下来&#xff0c;我们开始编写PHP脚本。这个脚本的主要任务是接收来自网页的请求&#xff0c;并将访问信息存储到数据库中…

详解力扣高频SQL50题之1683. 无效的推文【入门】

传送门&#xff1a;1683. 无效的推文 题目 表&#xff1a;Tweets ----------------------- | Column Name | Type | ----------------------- | tweet_id | int | | content | varchar | ----------------------- 在 SQL 中&#xff0c;tweet_id 是这个表的主键。 content 只…

Spring Boot与Python的联动:实战案例解析

目录一、背景与需求二、技术准备2.1 Spring Boot 基础2.2 Python 环境搭建三、基于 RESTful API 的调用3.1 创建 Python Flask 应用3.2 创建 Spring Boot 应用3.3 测试与验证四、通过 ProcessBuilder 调用 Python 脚本4.1 创建 Python 脚本4.2 Spring Boot 中调用脚本4.3 注意事…

力扣刷题(第九十七天)

灵感来源 - 保持更新&#xff0c;努力学习- python脚本学习密钥格式化解题思路移除原字符串中的所有破折号&#xff0c;并将小写字母转换为大写。从后向前遍历处理后的字符串&#xff0c;每 K 个字符为一组。最后将各组逆序拼接&#xff0c;并用破折号分隔。class Solution:def…

ESP32入门实战:PC远程控制LED灯完整指南

引言&#xff1a;物联网远程控制基础 远程控制是物联网应用的基础功能之一&#xff0c;通过ESP32实现PC远程控制LED灯不仅是一个经典入门项目&#xff0c;更是理解网络通信、嵌入式开发和物联网交互的绝佳实践。本文将详细介绍如何通过WiFi和UDP协议&#xff0c;从零开始构建一…

主流摄像头协议及其开源情况,GB/T 28181协议介绍

一、主流摄像头协议及开源情况 1. RTSP&#xff08;Real Time Streaming Protocol&#xff09; 技术特性&#xff1a;基于TCP/UDP的实时流传输协议&#xff0c;支持双向通信&#xff08;如暂停、播放控制&#xff09;。应用场景&#xff1a;摄像头实时监控、视频点播系统。开源…

「iOS」——RunLoop学习

底层学习iOS--RunLoop学习RunLoop的概念RunLoop与线程的关系RunLoop的结构ModeObserverTimerSourceRunLoop 执行流程RunLoop 的应用1.AutoreleasePool是什么时候释放的2.触控事件的响应3.刷新界面4.线程保活小知识mach Port**Toll-Free Bridging&#xff08;对象桥接&#xff0…

从零构建 Node20+pnpm+pm2 环境镜像:基于 Dockerfile 的两种方案及持久化配置指南

前言&#xff1a;在Node.js项目部署中&#xff0c;环境一致性和服务自动恢复是运维的核心需求。无论是本地开发还是生产部署&#xff0c;使用Docker封装Node20、pnpm&#xff08;高效包管理&#xff09;和pm2&#xff08;进程守护&#xff09;环境&#xff0c;能避免“本地能跑…