Large Model-learning(4)

张开发

• 2026/6/1 12:01:56 • 15 分钟阅读

分享文章

Day 4-小土堆2.0日只要在进步就是好样的1. 科研进展忙了一下比赛的事情论文还剩下两个实验没做了。2. 小土堆 6/10h2.1 torchvision.datasets的使用本节致力于学习将 transform 和数据集结合在一起新建文件 P11_dataset_transform.py 用于学习import torchvision from torch.utils.tensorboard import SummaryWriter dataset_transform torchvision.transforms.Compose([ torchvision.transforms.ToTensor(), ]) train_set torchvision.datasets.CIFAR10(root./dataset,trainTrue,transformdataset_transform,downloadTrue) test_set torchvision.datasets.CIFAR10(root./dataset, trainFalse,transformdataset_transform,downloadTrue) # print(test_set[0]) # print(test_set.classes) # # img, target test_set[0] # print(img) # print(target) # print(test_set.classes[target]) # img.show() # print(train_set[0]) writer SummaryWriter(P11) for i in range(10): img,target train_set[i] writer.add_image(test_set,img,i) writer.close()2.2 DataLoader的使用新建文件 P11_dataloader.py主要是学习如何加载数据集学习DataLoader里面的一些参数。在遍历 DataLoader 时使用 writer.add_image() 会报错原因在于数据维度的不匹配。import torchvision.datasets from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriter # 准备的测试数据集 test_data torchvision.datasets.CIFAR10(root./dataset,trainFalse,transformtorchvision.transforms.ToTensor()) test_loader DataLoader(datasettest_data,batch_size64,shuffleTrue,num_workers0,drop_lastFalse) # 测试集中第一张图片及target img,target test_data[0] print(img.shape) print(target) writer SummaryWriter(DataLoader) step 0 for data in test_loader: imgs,targets data # print(imgs.shape) # print(targets) writer.add_images(test_data,imgs,step) step 1 writer.close()DataLoader 里面的 shuffle 参数决定每个 epoch 运行的时候是否要打乱。import torchvision.datasets from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriter # 准备的测试数据集 test_data torchvision.datasets.CIFAR10(root./dataset,trainFalse,transformtorchvision.transforms.ToTensor()) test_loader DataLoader(datasettest_data,batch_size64,shuffleFalse,num_workers0,drop_lastFalse) # 测试集中第一张图片及target img,target test_data[0] print(img.shape) print(target) writer SummaryWriter(DataLoader) for epoch in range(2): step 0 for data in test_loader: imgs,targets data # print(imgs.shape) # print(targets) writer.add_images(Epoch:{}.format(epoch),imgs,step) step 1 writer.close()此时再打开刷新 TensorBoard 会发现两轮运行结果是一样的。如果将 shuffle 改为 True 的话就会发现结果被打乱不一致了2.3 神经网络的基本骨架nn.Module的使用常用的的包torch.nn官方介绍torch.nn — PyTorch 2.11 documentationnn 是Neural Network 的缩写。神经网络的基类Module定义的模型都需要集成该类nn.Module。自己定义的模型需要实现__init__和forward函数新建文件 nn_moudle.py用于本小节的学习。import torch from torch import nn class Reina(nn.Module): def __init__(self): super(Reina,self).__init__() def forward(self,input): output input 1 return output reina Reina() x torch.tensor(1.0) output reina(x) print(output)reina(x)这种写法实际上是调用了reina.__call__(x)。nn.Module的__call__方法内部会执行一些前置和后置操作例如注册 hook、处理梯度等并最终调用用户定义的forward方法。因此执行reina(x)等效于执行reina.forward(x)但不推荐直接调用forward因为会绕过__call__提供的额外机制。代码的执行流程可通过Pycharm进行debug 使用Step into My Code进行查看。2.4 卷积操作补充一下基础还是很有必要的。。。以上是torch.nn.functional.conv2d的参数要求新建文件 nn_conv.py按照这个表格写卷积代码。import torch import torch.nn.functional as F input torch.tensor([[1,2,0,3,1], [0,1,2,3,1], [1,2,1,0,0], [5,2,3,1,1], [2,1,0,1,1]]) kernel torch.tensor([[1,2,1], [0,1,0], [2,1,0]]) input torch.reshape(input,(1,1,5,5)) # 变换input维度使其满足torch.nn.functional.conv2d的参数要求 kernel torch.reshape(kernel,(1,1,3,3)) print(input.shape) print(kernel.shape) output F.conv2d(input,kernel,stride1) print(output) output2 F.conv2d(input,kernel,stride2) print(output2) output3 F.conv2d(input,kernel,stride1,padding1) print(output3)padding 1 意味着四个边边都向外扩充一行/列默认填充数值为0所以最终计算得到的维度也变大了。2.5 神经网络-卷积层官网链接torch.nn — PyTorch 2.11 documentation比较常用的其实只有 nn.Conv2d 所以本节重点讲解它的使用。进一步促进理解建议直接去链接里面看动图卷积操作可视化链接dilation是空洞卷积默认值是1接下来尝试理解 in_channels 和 out_channels out_channels是指经过卷积核之后输出的特征图的通道数输入特征图的通道数卷积核的通道数输出特征图的通道数卷积核的个数解释卷积核的通道数一定和输入的通道数相等输入对应的每个通道与卷积核对应的每个通道进行计算再求和得到一个通道的卷积输出而输出特征图的通道数与卷积核的个数相关有多少个卷积核最终就有多少个输出通道接下来开始练习代码创建文件 nn_conv2d.py。输入通道in_channels3CIFAR-10 中的图片是RGB 三通道彩色图像因此卷积层的输入必须匹配图像的通道数即3。输出通道out_channels6表示使用6 个不同的卷积核滤波器每个卷积核会对输入的三通道进行卷积并求和最终输出6 张特征图。卷积核尺寸kernel_size33×3 卷积核是卷积神经网络中最常用的尺寸之一现代深度学习框架对 3×3 卷积有专门优化。import torch import torchvision from torch import nn from torch.utils.tensorboard import SummaryWriter dataset torchvision.datasets.CIFAR10(root./dataset, trainFalse, downloadTrue, transformtorchvision.transforms.ToTensor()) dataloader torch.utils.data.DataLoader(dataset, batch_size64) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.conv1 nn.Conv2d(in_channels3, out_channels6, kernel_size3, stride1, padding0) def forward(self, x): x self.conv1(x) return x reina Reina() # print(reina) writer SummaryWriter(./conve2d) step 0 for data in dataloader: imgs,targets data output reina(imgs) print(imgs.shape) print(output.shape) writer.add_images(input,imgs,step) writer.add_images(output,output,step) step 1 writer.close()报错原因TensorBoard 的 add_images 要求输入图像的通道数必须是 1灰度、3RGB或 4RGBA而卷积输出张量形状为 [64, 6, 30, 30]即 6 通道的特征图不符合图像显示的常规格式因此触发了 AssertionError。解决方案将形状为 [64, 6, 30, 30] 的张量强制变形为 [-1, 3, 30, 30]。原始形状output.shape [64, 6, 30, 30]-1 的含义让 PyTorch 自动计算该维度的大小使得总元素数保持不变。变形后形状[128, 3, 30, 30]新张量被解释为 128 张三通道的 30×30 图像。import torch import torchvision from torch import nn from torch.utils.tensorboard import SummaryWriter dataset torchvision.datasets.CIFAR10(root./dataset, trainFalse, downloadTrue, transformtorchvision.transforms.ToTensor()) dataloader torch.utils.data.DataLoader(dataset, batch_size64) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.conv1 nn.Conv2d(in_channels3, out_channels6, kernel_size3, stride1, padding0) def forward(self, x): x self.conv1(x) return x reina Reina() # print(reina) writer SummaryWriter(./conve2d) step 0 for data in dataloader: imgs,targets data output reina(imgs) print(imgs.shape) print(output.shape) writer.add_images(input,imgs,step) output torch.reshape(output,(-1,3,30,30)) # #不严谨操作 ---对output进行reshape 增大batchsize的数量减少通道数 writer.add_images(output,output,step) step 1 writer.close()注意 reshape 技巧仅是为了让程序不报错而进行的欺骗性操作它会让 TensorBoard 上显示的“output”图像变成一堆无意义的乱码。2.6 神经网络-最大池化层官方文档torch.nn — PyTorch 2.11 documentation说来惭愧我的文档中还用到了部分卷积和池化的知识可是我都没怎么认真理解底层原理。。。最大池化层保留输入的特征同时减少数据量加快训练速度最常用的MaxPool2d最大池化层的步长默认大小为kernel_sizeceil_mode ceil向上取整floor向下取整ceil 允许有出界部分floor 不允许ceil_mode True时为ceil池化层有三个特点1.没有需要学习的参数2.通道数保持不变3.对微小位置的变化具有鲁棒性理论学完开始练习代码新建文件 nn_maxpool.py。2.6.1 ceil_modeTrue 的运行结果import torch from torch import nn from torch.nn import MaxPool2d input torch.tensor([[1, 2, 0, 3, 1], [0, 1, 2, 3, 1], [1, 2, 1, 0, 0], [5, 2, 3, 1, 1], [2, 1, 0, 1, 1]]) input torch.reshape(input, (-1, 1, 5, 5)) # nn.Conv2d 和 nn.MaxPool2d 等二维操作层的输入要求必须是 4 维张量 print(input.shape) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.maxpool1 MaxPool2d(kernel_size3, ceil_modeTrue) def forward(self, input): output self.maxpool1(input) return output reina Reina() output reina(input) print(output)2.6.2 ceil_modeFalse 的运行结果import torch from torch import nn from torch.nn import MaxPool2d input torch.tensor([[1, 2, 0, 3, 1], [0, 1, 2, 3, 1], [1, 2, 1, 0, 0], [5, 2, 3, 1, 1], [2, 1, 0, 1, 1]]) input torch.reshape(input, (-1, 1, 5, 5)) # nn.Conv2d 和 nn.MaxPool2d 等二维操作层的输入要求必须是 4 维张量 print(input.shape) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.maxpool1 MaxPool2d(kernel_size3, ceil_modeFalse) def forward(self, input): output self.maxpool1(input) return output reina Reina() output reina(input) print(output)两种结果和之前手动计算的结果都对上了最大池化参数部分学习完毕。最大池化的目的保留输入数据主要特征的同时减少参数和计算量增强模型鲁棒性防止过拟合2.6.3 结合图片处理的展示效果池化是纯空间维度的降采样操作设计目标就是压缩特征图的分辨率减少计算量、增大感受野而不改变特征的种类通道数。如果需要改变通道数必须使用卷积层1×1 卷积或全连接层。卷积像一台调色板把 RGB 三通道的像素按不同权重混合成多个新颜色通道例如 6 个。池化像一台缩小复印机把每张单色图纸每个通道单独缩小颜色数量不变。import torch import torchvision from torch import nn from torch.nn import MaxPool2d from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriter dataset torchvision.datasets.CIFAR10(root./dataset,trainFalse,transformtorchvision.transforms.ToTensor(),downloadTrue) dataloader DataLoader(dataset,batch_size64) # input torch.tensor([[1, 2, 0, 3, 1], # [0, 1, 2, 3, 1], # [1, 2, 1, 0, 0], # [5, 2, 3, 1, 1], # [2, 1, 0, 1, 1]]) # input torch.reshape(input, (-1, 1, 5, 5)) # nn.Conv2d 和 nn.MaxPool2d 等二维操作层的输入要求必须是 4 维张量 # print(input.shape) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.maxpool1 MaxPool2d(kernel_size3, ceil_modeFalse) def forward(self, input): output self.maxpool1(input) return output reina Reina() # output reina(input) # print(output) writer SummaryWriter(maxpool) step 0 for data in dataloader: imgs,targets data writer.add_images(input,imgs,step) output reina(imgs) writer.add_images(output,output,step) # 池化不改变channel数 step 1 writer.close()2.7 神经网络-非线性激活非线性激活层引入非线性的特性使得神经网络具有更强的表达能力和适应能力padding层的使用概率是比较低的主要是用于填充数据的所以跳过这里直接开始学习非线性激活层torch.nn — PyTorch 2.11 documentation比较常用的就是ReLUSigmod确实这两个我的论文里面也都有涉及。。。2.7.1 ReLU 的使用inplace参数的含义为True时对原输入进行激活函数的计算计算结果赋给原输入为False时返回对原输入进行激活函数的计算的结果原输入不发生改变保留原始数据默认为Falseimport torch from torch import nn from torch.nn import ReLU input torch.tensor([[1, -0.5], [-1, 3]]) input torch.reshape(input, (-1, 1, 2, 2)) # 增加一个batchsize维 print(input.shape) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.relu1 ReLU() def forward(self, input): output self.relu1(input) return output reina Reina() output reina(input) print(output)2.7.2Sigmoid的使用import torch import torchvision from torch import nn from torch.nn import ReLU from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriter from P8_Tensorboard import writer input torch.tensor([[1, -0.5], [-1, 3]]) input torch.reshape(input, (-1, 1, 2, 2)) # 增加一个batchsize维 print(input.shape) dataset torchvision.datasets.CIFAR10(./dataset, trainFalse, transformtorchvision.transforms.ToTensor(),downloadTrue) dataloader DataLoader(dataset, batch_size64) class Reina(nn.Module): def __init__(self): super(Reina, self).__init__() self.relu1 ReLU() self.sigmoid nn.Sigmoid() def forward(self, input): output self.sigmoid(input) return output reina Reina() # output reina(input) # print(output) writer SummaryWriter(./logs_ReLU) step 0 for data in dataloader: imgs,targets data writer.add_images(input,imgs,step) output reina(imgs) writer.add_images(output,output,step) step 1 writer.close()好啦今天小土堆就学到这里感觉很多原理的知识还是要去看一下吴恩达老师的视频后面有时间再补充吧。3. 灵神算法刷几节灵神的课醒醒脑就睡觉啦~撒花

Large Model-learning(4)

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

为什么你的AIAgent总在复杂任务中“突然失智”？深度拆解ReAct/CoT/ToT在多跳推理中的思维断裂点（含可视化Trace日志分析模板）

Rust的匹配中的模式守卫优化与编译器在布尔表达式中

职场沟通效率提升：话术宝工具实测与应用

Flutter 三方库 get\_it + injectable 的鸿蒙化适配指南：实现优雅的依赖注入

比迪丽LoRA模型Keil5嵌入式开发趣味应用：为项目文档生成主题角色

Godot PCK文件解包：高效提取游戏资源的专业工具

智能体开启电商领域万亿新赛道

看不懂 Agent？我花一下午写了个 mini-OpenClaw

从三极管到MOS管：一个硬件工程师的视角转换与实战避坑指南

用C语言链表实现一个简易图书管理系统（附完整代码和避坑指南）

JDK版本管理与环境配置：Phi-3-mini-128k-instruct一站式解答

如何快速使用BetterGI：面向新手的原神自动化助手完整指南