评测系统构建

合成数据更“科研驱动”，强调 controllability 和 generalization evaluation：
之前往往直接采用经典数据集如OGB和OGB-large提供的经典数据集和数据划分思路
该思想从现有真实数据中学习参数，再构造类似但分布略异的数据集，验证模型泛化性能。（Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop），在生成时调节各项参数以更全面的反映模型性能
graphworld则是提供了一个完全合成的数据集来反省模型效果（作者成为fake data）

NeurIPS 2024 Datasets and Benchmarks Track 更“产业/应用驱动”，强调 task relevance 和 community standard：
DrivAerNet++ 多模态汽车数据集，结合计算流体力学模拟与深度学习基准，用于自动驾驶研究。
DomainGallery 少样本图像生成数据集，强调属性驱动的微调方法。
Bench2Drive 封闭式端到端自动驾驶任务的多能力基准测试框架。
FEDMEKI 联邦学习场景下的医学基础模型扩展基准，注重知识注入。
GTSinger 面向歌唱任务的全球多技术语料库，包含真实音乐分数。
SolarCube 卫星与地面观测融合的大规模太阳能预测数据集。
CARE 酶分类与检索任务的基准套件，支持生物信息学研究。
VRSBench 面向遥感图像理解的多模态视觉语言基准数据集。
Sim2Real-Fire 森林火灾预测与回溯的多模态模拟数据集。
SciInstruct 科学语言模型训练用的自反式指令注释数据集。
HelpSteer 2 用于训练奖励模型的开源数据集，支持对齐与安全性研究。
WildPPG 长时间连续记录的真实世界脉搏波数据集，支持健康监测。
CRAG 综合检索增强生成（RAG）任务的基准数据集。
CVQA 多文化多语言视觉问答基准，覆盖全球多种语言与文化背景。
MMM-RS 多模态、多分辨率、多场景遥感图像生成基准。
UrbanDataLayer 城市科学研究的统一数据处理管道，支持多源数据融合。
DrivingDojo Dataset 交互式、知识丰富的自动驾驶世界模型数据集。

专门的NeurIPS 2024 Track Datasets and Benchmarks中：

DevBench 面向语言学习的多模态发展性基准，关注儿童语言习得过程
MedCalc-Bench 医学计算能力评估基准，用于测试 LLM 在医学推理中的表现
PRISM Alignment Dataset 多文化人类反馈数据集，用于研究 LLM 的主观性与对齐问题（best paper）
Brain Treebank 基于自然语言刺激的大规模脑电记录数据集，连接语言与神经活动
ChaosBench 用于气候预测的物理建模基准，支持多通道季节性预测任务
OpenMathInstruct-1 包含180万条数学指令的微调数据集，提升 LLM 数学能力
Embodied Agent Interface 用于评估 LLM 在具身决策任务中的表现，连接语言与行动
AgentBoard 多轮 LLM Agent 的分析性评估平台，支持行为与策略分析
LINGOLY 奥林匹克级语言推理题库，涵盖濒危语言与低资源语言
A Taxonomy of Challenges to Curating Fair Datasets 公平数据集构建挑战的系统分类，关注偏见与代表性问题

我们关注的是泛化与稳健性，不只是某个具体应用，同时参考 DB Track 的设计理念，可以从 synthetic dataset generation 切入

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/bicheng/93680.shtml
繁体地址，请注明出处：http://hk.pswp.cn/bicheng/93680.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！