Reference
- UC Berkeley CS267 Lecture 15
- UC Berkeley CS294-162 Lecture 4, 6
模型很大,memory放不下,需要使用多个GPU/Machine
- data parallel
- batch parallel (99% of data parallel)
- domain parallel
- model parallel
- pipeline parallel
总的目的并不是便利总data话费的时间,而是每单位时间内学习到的东西。有些时候当batch size大了以后,反而学到的东西变小。