知识点回顾:
- Dataset类的__getitem__和__len__方法(本质是python的特殊方法)
- Dataloader类
- minist手写数据集的了解
作业:了解下cifar数据集,尝试获取其中一张图片
一、首先加载CIFAR数据集
import torch
import torchvision
import torchvision.transforms as transforms
from matplotlib import pyplot as plt# 定义数据转换
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
])# 加载训练集
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,download=True, transform=transform
)
二、创建DataLoader并获取单张图片
# 创建DataLoader
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,shuffle=True
)# 获取一个batch的数据
dataiter = iter(trainloader)
images, labels = next(dataiter)# 显示第一张图片
def imshow(img):img = img / 2 + 0.5 # 反归一化npimg = img.numpy()plt.imshow(np.transpose(npimg, (1, 2, 0)))plt.show()imshow(images[0])
print('Label:', trainset.classes[labels[0]])
三、直接通过Dataset获取单张图片
# 直接通过Dataset获取第100张图片
image, label = trainset[100]# 显示图片
imshow(image)
print('Label:', trainset.classes[label])
说明:
1. Dataset 类的两个核心方法:
- __len__ : 返回数据集大小
- __getitem__ : 根据索引返回单个样本
2. DataLoader 主要参数:
- batch_size : 每次加载的样本数
- shuffle : 是否打乱数据顺序
3. CIFAR-10数据集包含10个类别:
classes = ['airplane', 'automobile', 'bird', 'cat', 'deer','dog', 'frog', 'horse', 'ship', 'truck']