这是课上做的笔记,因此很多记得比较急,之后会逐步完善,每节课的逻辑流程写在大纲部分。
成功率(SR)
导航误差(NE)
成功加权路径长度(SucceedPLength)
轨迹长度(TL)
先知成功率(OS)
评估环境
1. SEEN VS. UNSEEN ENVIRONMENTS
SEEN ENVIRONMENTS
- 定义:这些是用于训练和验证的场景。
- 目的:确保模型在熟悉的数据上能够很好地拟合和表现。
- 特点:模型在训练过程中已经见过这些环境,因此对它们有较好的理解和预测能力。
UNSEEN ENVIRONMENTS
- 定义:这些是模型在训练中从未见过的场景,用于评估其泛化能力。
- 目的:检验模型是否能够在未见过的新环境中保持良好的性能,这反映了模型的真实应用潜力。
- 特点:由于模型没有见过这些环境,因此可以更真实地反映其在实际应用中的表现。
2. TEST ENVIRONMENTS
- 定义:与UNSEEN ENVIRONMENTS类似,同样是完全未见过的环境,但它是最终的、最权威的评测标准。
- 目的:为了保证公平性和客观性,测试集的正确答案(路径)通常是不公开的,以防止研究者通过逆向工程等方式获取优势。
- 流程:
- 研究者需要将训练好的模型提交到官方的评测服务器上。
- 由服务器来计算并返回最终成绩,这样可以确保评估过程的公正性和准确性。