이전 포스트에서 손실 함수와 역전파에 대해
왜 필요한지에 대한 솔루션 관점에서 이야기를 해 봤다.
어느 정도 뉴런 네트워크에 대한 이미지가 잡히는듯 하다.
이제 본격적으로 손실 함수와 구현에 대한 이야기를 해보자.
손실 함수의 구현
먼저 손실 함수의 구현을 해보자.
손실 함수를 구현할 수 있다면,
앞서 구현했던 예측 값들이 잘 계산되어졌는지를
이 손실 함수에서 보여줄 것이다.
여기서 구현한 코드가 정말로 잘 구현되었는지는
같은 input으로 구글의 tensorflow의 Keras에서 제공하는 모듈로
이진 교차 엔트로피와 범주형 교차 엔트로피의 결과물과 다른지를 확인해
구현이 올바른지를 증명하려고 한다.
또한 샘플 데이터로 사용하고 있는
실제 확률 분포가 일반적인 행렬로 되어있지 않고,
10진수로 표현되어 있는다.
예컨데, 아래와 같이 분류가 되어 있다고 가정해보자.
1은 고양이, 2는 개, 3은 새, 4는 소와 같이 분류하였다.
이를 ont hot encoding화 하면 아래와 같다.
즉, one hot encoding은 분류를 이진화 하는 것이라 말할 수 있다.
내가 이용하는 데이터는 이 처럼 이진화 되어있지 않아
정확히 수식 그대로 사용할 수 없기 때문에 이 계산하기 위한
convertY_true 클래스를 추가해 one hot encoding 처리를 하는 함수를 추가 했다.
기존 구현에서 추가된 코드는 아래와 같다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | class Loss: def BCE_calculate(self, output, y): #상속 받은 이진 교차 엔트로피를 계산 bce_matrix = self.BCE_forward(output,y) loss_bce = np.mean(bce_matrix) return loss_bce class Loss_BinaryCrossEntropy(Loss): def BCE_forward(self, y_pred, y_true): y_pred_clipped = np.clip(y_pred, 1e-7, 1-1e-7) p1 = (1-y_true) * np.log(1-y_pred_clipped + 1e-7) p2 = y_true * np.log(y_pred + 1e-7) loss_matrix = -np.mean(p1+p2, axis=0) return loss_matrix class convertY_true: def oneHotEncoding(self, y_true): rowLen = len(y_true) colLen = max(y_true)+1 array = [[0 for col in range(colLen)] for row in range(rowLen)] i = 0 for val in y_true: array[i][val]= 1 i +=1 return np.array(array) | cs |
Loss_BinaryCrossEntropy 클래스에서 이항 교차 엔트로피의 수식을 계산하며,
이 계산된 값들은 행렬의 형태를 유지하고 있기 때문에
Loss 클래스에서 한번 더 평균을 계산해
최종적으로 하나의 값이 산출 된다.
위에서 언급했다시피
convertY_true 클래스에서 계산을 위해
이진 분류 되어 있는 행렬 형태의 실제 확률 분포로 바꿔 준다.
물론 분류를 이진화 하지 않고도
코딩을 하는 것은 가능하지만,
코드의 직관성이 떨어지며 목표에도 벗어나기 때문에
나는 분류를 이진화하는 것을 선택했다.
올바른 행렬 형태의 데이터를 가지고 있다면
해당 클래스는 필요가 없다.
| import numpy as np import tensorflow as tf #keras의 이진 교차 엔트로피 객체를 불러옴 bce = tf.keras.losses.BinaryCrossentropy( from_logits=False , reduction=tf.keras.losses.Reduction.SUM_OVER_BATCH_SIZE ) #동일한 실제 확률 분포와 예측된 확률 분포를 입력 loss_keras = bce( y_true, y_pred) print("Loss keras", loss_keras) | cs |
위의 코드는 tensorflow 프레임 워크의
keras 패키지 안에 있는 이항 교차 엔트로피 객체를 불러오고
이를 실행해 출력하는 코드 이다.
y_true에는 실제 확률 분포와
y_pred에는 예측된 확률 분포 값들을 넣어주면
이항 교차 엔트로피의 값이 산출 된다.
|
구현한 이진 교차 엔트로피의 결과 값 |
|
Keras의 이진 교차 엔트로피의 결과 값 |
상단은 구현한 결과 값이고
하단은 Keras의 결과 값을 보여준다.
결과 값은 사실상 큰 차이를 보이지 않기 때문에
구현이 올바르게 이루어졌음 확인 할 수 있다.
범주형 교차 엔트로피의 구현
범주형 교차 엔트로피(Categorical Cross Entropy)는
소프트 맥스(Soft Max) 활성화 함수에
일반적인 교차 엔트로피 수식을 사용한 것을 말한다.
따라서 소프트 맥스 수식은 이미 이전에 구현되어 있어
해당 값이 계산되어 산출되기 때문에
단순히 교차 엔트로피 수식으로 값을 산출하는 코드를 작성하면 된다.
이번 구현에서 추가된 클래스는 아래와 같다.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | class Loss: def CCE_calculate(self, output, y): #예측된 확률 분포의 갯수 n = output.shape[0] #상속 받은 범주형 교차 엔트로피를 계산 cce_matrix = self.CCE_forward(output, y) loss_cce = cce_matrix/n return loss_cce class Loss_CategoricalCrossentropy(Loss): def CCE_forward(self, y_pred, y_true): #오버플로우 방지를 위해 값을 조정 y_pred_clipped = np.clip(y_pred, 1e-7, 1-1e-7) loss_cce = -np.sum(y_true*np.log(y_pred_clipped)) return loss_cce class convertY_true: def oneHotEncoding(self, y_true): rowLen = len(y_true) colLen = max(y_true)+1 array = [[0 for col in range(colLen)] for row in range(rowLen)] i = 0 for val in y_true: array[i][val]= 1 i +=1 return np.array(array) | cs |
이진 교차 엔트로피 수식에 비하면 간단해 보인다.
Loss_CategoricalCrossentropy 클래스 내부에서 np.sum을 통해
행렬 내부의 값을 이미 합하여 하나의 값으로 산출해주기 때문에
CCE_calculate 함수에서 추가적인 numpy 코드 없이
받아온 예측된 확률 분포의 갯수를 구해 직접 나누어 주어 값을 산출 했다.
|
구현한 범주형 교차 엔트로피의 결과값 |
|
Keras의 범주형 교차 엔트로피의 결과값 |
오차 값이 의미 있을 정도로 크지 않기 때문에
구현한 코드의 문제가 없다는 것을 확인 할 수 있다.
이것으로 구현하려 했던 이진, 범주형 교차 엔트로피의 구현을 완료 했으며,
동시에 구글 Tensorflow의 keras 프레임워크를 이용해
올바르게 구현되었는지 까지 확인 해봤다.
물론 나의 코드보다 좀 더 좋은 코드는 얼마든지 있을 것이다.
손실 함수에 대한 이해에 도움이 되길 바란다.
다음으로 역전파를 구현해보자.