TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning
Wen, Wei, et al. "Terngrad: Ternary gradients to reduce communication in distributed deep learning." Advances in neural information processing systems. 2017. Link Abstract 분산딥러닝에서 파라미터 동기화를 위한 커뮤니케이션으로 인해 병목현상이 주로 발생한다는 것은 잘 알려져있다. 이 논문에서는 통신비용을 줄이는 방법으로 gradient quantization을 사용하였다. Gradient를 3개의 level, {-1, 0, 1}로 quantize하여 통신 시간을 줄인다. 추가로, 수렴성을 높이기 위하여 layer-wise ternarizing과 gradient clippi..
Deep Learning/Distributed Deep Learning
2020. 6. 3.