九坤团队新作!一条数据训练AI超越上万条数据 一 仅需一条无标签数据和10步优化 九坤团队训练了13,440个大模型,发现熵最小化 (EM) 仅需一条无标签数据和10步优化,就能实现与强化学习中使用成千上万条数据和精心设计的奖励机制所取得的性能提升相当甚至更优的效果。One-shot EM 会重塑整个大模型后训练格局,使研究人员重新思考强化学习的必要性。