[LLM] Floating Point Formats

AI 모델 학습과 추론에서 부동소수점(Floating Point) 형식은 성능과 정확도에 큰 영향을 준다. 특히, 연산 속도와 메모리 사용량을 줄이기 위해 다양한 정밀도의 부동소수점 형식이 사용되는데, 대표적으로 사용되는 BF16, FP32, FP16에 대해 간단히 정리해 본다.

  1. FP32 (Single Precision Floating Point)
    • Exponent – 8 Bit
    • Mantissa – 23 Bit
    • Sign – 1 Bit
    • Total 32 Bit
    • 높은 정밀도와 넓은 표현 범위를 모두 갖춘 표준 부동소수점 형식. 대부분의 AI 학습, 고정밀 연산이 필요한 경우 사용한다.
  2. FP16 (Half Precision Floating Point)
    • Exponent – 5 Bit
    • Mantissa – 10 Bit
    • Sign – 1 Bit
    • Total 16 Bit
    • 정밀도와 표현 범위 모두 FP32보다 줄어들지만, 메모리 절약과 연산 속도는 증가 시킬 수 있다.
  3. BF16 (bfloat16, Brain Floating Point Format)
    • Exponent – 8 Bit
    • Mantissa – 7 Bit
    • Sign – 1 Bit
    • Total 16 Bit
    • FP16과 마찬가지로 16 Bit를 사용하여 표현 범위가 줄어들었지만, FP32와 동일한 지수부를 가져서 표현 가능한 수의 범위가 넓다.

Published by

알 수 없음의 아바타

thenewth

AI Research Engineer & Cloud Platform Developer

댓글 남기기

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.