- 1万+
- 积分
- 602
- 粉丝
- 1407
- 获赞
- 632
- 评论
- 6007
- 收藏
分类专栏
【Pytorch】梯度累积原理与实现
理物迷: 泛化表示过度拟合??
不爱学习的小恐龙: 很好的解决了问题!我就是连着用了两个fit,导致预测结果没那么好
there2belief: 除可能相当于大概规范化到之前的数值,但不做这个也没影响,loss(梯度)按少量的倍数增加应该不会有太多影响,因为是整体性变化。例如,你不做梯度累积的时候,给loss整体增大或减小某个较小的倍数,不咋影响训练的
qq_51236212: 为什么我在参考他人的梯度累积代码的时候,在反向传播之前都要做一个loss = loss / accumulation_steps操作,为什么在您的代码中计算完损失之后直接执行loss.backward()? 这样优化器在更新参数的时候使用的不是accumulation_steps倍的梯度么?我在看transformers库源代码的时候他们也是计算完损失直接进行反向传播,我很不理解这里为什么会这样,还是说我有一些pytorch内部特性没有了解到,希望您能解答我的疑惑,谢谢!
2301_76150787: cv2.error: OpenCV(4.10.0) /io/opencv/modules/core/src/copy.cpp:71: error: (-215:Assertion failed) cn <= 4 in function 'scalarToRawData'