机器学习训练时,Mini-Batch 的大小优选为 2 的幂,如 256 或 513。它背后的原因是( )。
(A)Mini-Batch 为偶数的时候,梯度下降算法训练的更快
(B)Mini-Batch 设为 3 的幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理
(C)不使用偶数时,损失函数是不稳定的
(D)以上答案都不正确
参考答案
继续答题:下一题
(A)Mini-Batch 为偶数的时候,梯度下降算法训练的更快
(B)Mini-Batch 设为 3 的幂,是为了符合 CPU、GPU 的内存要求,利于并行化处理
(C)不使用偶数时,损失函数是不稳定的
(D)以上答案都不正确