DeepSeek 今年早些时候凭借其 R1 AI 模型备受广泛关注。据《The Information》报道,R2 模型的工作似乎因 H20 处理器而停滞不前。
DeepSeek尚未透露其R2 模型的具体上市时间。
DeepSeek 使用 5 万块 Hopper GPU(包括 3 万块 H20、1 万块 H800 和 1 万块 H100)组成的庞大集群来训练其 R1 模型。
目前尚不清楚 R2 是否已经完成了全面的预训练工作。
《The Information》报道称,DeepSeek 团队一直在深入研究开发 R2 模型,但 CEO 梁文锋对其性能尚不满意。团队仍在内部努力提升性能。
据《The Information》报道,如果 DeepSeek 即将推出的 R2 模型其性能超过目前市面上的开放替代模型,预计使用量将激增,超出中国云平台的处理能力。
据称,大多数依赖早期R1 模型的组织都使用H20 来运行该模型,而这款处理器已经被美国限制,目前出现了供应短缺的局面。
经@大单网 查询,目前 DeepSeek 相关的招投标项目达 1000 + 个。