다음으로 손실 함수와
역전파 알고리즘에 대해 이야기를 나누어보자.
이전 포스트에서 이야기한바와 같이
손실 함수는 비용 함수는 사실상 같은 의미로 사용되어지고 있다.
나는 처음에 비용 함수를 선호했으나,
한국어에서는 손실 함수 쪽이 좀 더 의미가 정확하게 전달되기 때문에
이 후 비용 함수를 손실 함수 쪽으로 부르기로 하겠다.
이런 예측한 순전파에 대한 오류률을 나타내는
손실 함수 그리고 역전파까지 구현까지 가능하다면,
이제 기본적인 뉴런 네트워크 아키텍처를 구축했다고 볼 수 있을 것이다.
순(방향)전파를 진행해 예측 값을 얻어내고
손실 함수와 역전파를 이용해 오류률이 최소화된
값으로 각 노드를 최적화 해준다면
더 높은 정확도를 가지게 될 것이며
이로서 정말로 우리가 알고 싶은 판단을
머신 러닝이라는 의미대로 0과 1로 이루어진 기계가 내려주게 될 것이다.
이런 과정을 통해 최종적으로는
이 사진이 고양이인지 사람인지 등의 판단이 가능해지는 것 이다.
다만, 여기서 이야기하고 다루고자하는 내용은
자세한 수학적인 내용까지는 하지 않고,
이 솔루션이 왜 필요하게 되었는지를 중심으로 이야기할 것 이다.
수학적인 내용 과거 나의 Machine Learning by Andrew Ng 라벨을
의 포스트들을 참고하거나
나의 포스트 보다 훌륭한
다른 사람들이 작성한 포스트를 참고하기를 바란다.
그렇다면 이제 본격적으로 이야기를 시작해보자.
순전파를 통해 예측값을 구했지만..
앞서 우리는 입력 데이터로 예측 값을 구하고,
여기에 활성화 함수까지 더해
순전파를 통해 최적화된 값을 구할 수 있었다.
하지만,
이 값이 정말로 잘 계산된 값이라고 할 수 있을까?
이를 검증하지 않는다면,
그리고 이 검증 값을 기반으로 개선이 이루어지지 않는다면
이 뉴런 네트워크라는 것은 결국
신뢰성이 떨어질 수 밖에 없고, 유용성은 더더욱 떨어지게 될 것이다.
이런 검증 방법은 손실 함수(Loss Function) 혹은
비용 함수(Cost Function)라는 장치에서 오류률을 계산해 준다.
손실 함수에 대해
손실 함수, 영어로는 Loss Fuction은
순전파, 그러니깐 예측값과 활성화 함수를 통해 계산한 값들이
예측 가능한 결과 값을 기반으로 오류률을 계산해주는 장치(함수)를 말한다.
(위에서 언급해다시피, 수학적인 내용은 따로 언급하지 않겠다)
손실 함수로 부터 산출된 값이 높을 수록 오류률이 높으며,
이런 오류률을 낮추는 것이 순전파 이후의 해결해야만 하는 문제라고 할 수 있다.
이 오류률을 낮추는 것
즉, 순전파로 부터 산출되어지고,
이 산출된 값을 기반으로 손실 함수를 이용해
손실 값을 오류률을 최적화 하기 위해
과거에는 기울기 경사(Gradient Descent)를 사용했었다고 한다.
물론 좀 더 좋은 최적화 방법에 대한 아이디어는 있었지만
문제는 그 당시에는 미분 값을 계산할 방법이 없었다고 한다.
그리고 시간이 어느정도 지나
훌륭한 석/박사분들에 의해 솔루션이 제시되었고
그것이 바로 이번에 이야기하고자 하는 주 내용인
편미분을 이용한 역전파(Backpropagation)라는 것이다.
사실 이전에 계산한 예측값들을 정하기 전에
먼저 분류에 대한 이야기를 해야 한다.
왜냐하면, 머신 러닝을 이용하고자 하는 목적에 따라
예측값들의 형태가 바뀔 수 있고,
이에 따라 적절한 활성화 함수와 손실 함수도 다르다.
① 이진 분류에 대해
예컨데, 내가 손에 쥐고 있는 사진이
'개'인지 '고양이'인지를 판단하고 싶어 한다고 하고
충분히 훈련된 신경망을 가지고 있다고 가정해보자.
가지고 있는 이 사진을 입력 데이터로서 들어갈 것이고,
출력 데이터로서 '개' 아니면 '고양이'를 나타내는 값이 출력될 것이다.
즉, 0과 1이며 이 두 개를 분류하는 것을 이진 분류라고 한다.
이 경우의 적절한 손실 함수는
이항 교차 엔트로피(Binary Cross Entropy)라는 손실 함수가 적절하다.
② 멀티 클래스 분류에 대해
하지만, 사실 머신 러닝이 필요한 경우는
이진 분류의 문제보다는 다중 분류(멀티 클래스)의 경우가 많다.
예컨데, 이 사진이 '개' 아니면 '고양이' 인지를 분류하는게 문제가 되기 보다는
이를 떠나서 '사람'인지, '로봇'인지, '신호등'인지 등의
좀 더 복잡한 것을 분류해야하는 것이 실제 문제가 된다.
이런 다중 분류에 대한 신경망 아키텍처의
적절한 도구는
각 요소들의 값이 0~1사이에 있으며 총합이 1인 값을 출력해주는
소프트 맥스(Soft Max) 활성화 함수와
범주형 교차 엔트로피(Categorical Cross Entropy)라는 손실 함수가 적절하다.
나는 토이 프로젝트를 진행하기 앞서
이진 분류에 대한 이항 교차 엔트로피와
멀티 클래스 분류에 대한 범주형 교차 엔트로피
이 2개의 손실 함수를 구현하고자 한다.
역전파에 대해
역전파, 영어로는 Backpropagation은
순전파 최적화하기 위한 알고리즘이다.
한국에서는 동일한 의미로 오차 역전파(오류 역전파 등)라고 부르는듯 하다.
좀 더 정확히는 측정한 오류에 값을 기반으로
손실 함수로 계산된 값을 각 노드에 훈련시켜야 하는데,
가능한 최소화된 오류률을 가진 값들을 훈련 시키는 것이 좋을 것 이다.
역전파는 이 오류률을 최소화 시키기 위해 기존의 가중치 값을
미세하게 조정해주는 하나의 도구가 바로 역전파 알고리즘이다라고
나는 직감을 가지고 있다.
이 역전파는 순방향 전파에서도 사용되지만
다른 곳에서도 사용되는데,
위에서 잠깐 언급했지만 과거에는
기울기 경사(Gradient Descent)만을 이용해 최적화된 오류 값을 찾으려 했다고 한다
기울기 경사는 정해진 학습률이라는 상수를 곱함으로써
횟수를 거듭하면 거듭할 수록 최적화된 값에 도달할 수 있지만,
문제는 현재 이미지 분석을 위한 딥러닝 기술을 포함해
모든 뉴런 네트워크의 목표는 결국 많은 수의 데이터를 통해
학습률을 높임(혹은 오류률을 초소화 함)으로써
정답에 가까운 값을 도출해내는 것을 목표로 하기 때문에
단순히 기울기 경사만으로는
뉴런 네트워크에 입력으로 가고 또한
수 많은 노드들을 오류 값을 최소화하게 훈련시키기에는
시간이 너무 걸린다는 점이다.
역전파는 여기서 오류 값을 최소화 하기 위한 도구 중 하나로 사용된다.
그 중에 역전파는 바로 가중치의 값들을 미세 조정해준다.
따라서 기존 구현했던 순전파 이후에
역전파와 손실 함수를 구현해야하는 이유는 명쾌하다.
바로 순전파에서 계산한 값이 올바른지를
손실 함수에서 파악하고,
오류율이 낮아지게끔 가중치를 미세하게 조절하여
결과적으로 각 노드에 오류률이 낮은 값을
학습시키기 위해 역전파를 구현해야만 한다.
그 이후에 이 오류률이 낮은 기울기를 가진 도함수를
찾기 위해 기울기 경사와 같은 최적화 과정을 한번 더
거친다면, 비교적 빠르게 데이터들을 훈련시키고
값을 도출 할 수 있게 될 것 이다.
역전파에 대한 더욱 자세한 이야기나
수학적인 내용들은 다른 훌륭한 포스트를 찾아보기를 바란다.
마치며
처음에는 가능한 어떤 이론에 관한 내용은 되도록 스킵하고
이 손실 함수와 역전파에 대해서도 스킵하려고 했으나
인과관계를 더욱 확실하게 함과 동시에
한 번더 정리하는게 좋을 것 같아
구현에 대한 포스트를 작성하기 전에
먼저 이론에 대해 조금 설명하는 시간을 가지는 것이 좋다고 판단했다.
다음 포스트에서는
이 손실 함수와 역전파의 구현에 대해 이야기를 해보자.