合成数据更“科研驱动”,强调 controllability 和 generalization evaluation:
之前往往直接采用经典数据集如OGB和OGB-large提供的经典数据集和数据划分思路
该思想从现有真实数据中学习参数,再构造类似但分布略异的数据集,验证模型泛化性能。(Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop),在生成时调节各项参数以更全面的反映模型性能
graphworld则是提供了一个完全合成的数据集来反省模型效果(作者成为fake data)
NeurIPS 2024 Datasets and Benchmarks Track 更“产业/应用驱动”,强调 task relevance 和 community standard:
DrivAerNet++ 多模态汽车数据集,结合计算流体力学模拟与深度学习基准,用于自动驾驶研究。
DomainGallery 少样本图像生成数据集,强调属性驱动的微调方法。
Bench2Drive 封闭式端到端自动驾驶任务的多能力基准测试框架。
FEDMEKI 联邦学习场景下的医学基础模型扩展基准,注重知识注入。
GTSinger 面向歌唱任务的全球多技术语料库,包含真实音乐分数。
SolarCube 卫星与地面观测融合的大规模太阳能预测数据集。
CARE 酶分类与检索任务的基准套件,支持生物信息学研究。
VRSBench 面向遥感图像理解的多模态视觉语言基准数据集。
Sim2Real-Fire 森林火灾预测与回溯的多模态模拟数据集。
SciInstruct 科学语言模型训练用的自反式指令注释数据集。
HelpSteer 2 用于训练奖励模型的开源数据集,支持对齐与安全性研究。
WildPPG 长时间连续记录的真实世界脉搏波数据集,支持健康监测。
CRAG 综合检索增强生成(RAG)任务的基准数据集。
CVQA 多文化多语言视觉问答基准,覆盖全球多种语言与文化背景。
MMM-RS 多模态、多分辨率、多场景遥感图像生成基准。
UrbanDataLayer 城市科学研究的统一数据处理管道,支持多源数据融合。
DrivingDojo Dataset 交互式、知识丰富的自动驾驶世界模型数据集。
专门的NeurIPS 2024 Track Datasets and Benchmarks中:
DevBench 面向语言学习的多模态发展性基准,关注儿童语言习得过程
MedCalc-Bench 医学计算能力评估基准,用于测试 LLM 在医学推理中的表现
PRISM Alignment Dataset 多文化人类反馈数据集,用于研究 LLM 的主观性与对齐问题(best paper)
Brain Treebank 基于自然语言刺激的大规模脑电记录数据集,连接语言与神经活动
ChaosBench 用于气候预测的物理建模基准,支持多通道季节性预测任务
OpenMathInstruct-1 包含180万条数学指令的微调数据集,提升 LLM 数学能力
Embodied Agent Interface 用于评估 LLM 在具身决策任务中的表现,连接语言与行动
AgentBoard 多轮 LLM Agent 的分析性评估平台,支持行为与策略分析
LINGOLY 奥林匹克级语言推理题库,涵盖濒危语言与低资源语言
A Taxonomy of Challenges to Curating Fair Datasets 公平数据集构建挑战的系统分类,关注偏见与代表性问题
我们关注的是泛化与稳健性,不只是某个具体应用,同时 参考 DB Track 的设计理念,可以从 synthetic dataset generation 切入