[ Essay - Technology, Essay - Intuition ] Chat GTP시대의 도래와 생각하는 방식에 대해

이미지
올해도 드디어 끝이 보이는 듯 싶다. 최근에 회사의 망년회를 끝내고 이래저래 회식이 늘어나는 듯 하다. 지금 시점에서는 개인적인 스케쥴도 마무리 되었기 때문에 이제는 여유롭게 연말을 즐기며 올해를 마무리 하려고 한다. 비교적 최근에 이사한 곳 근처의 스타벅스가 대학 병원 안에 있고 근처에 공원이 있어서 그런지 개를 대리고 산책하는 노인이나  아이를 동반한 가족이 눈에 띄게 보인다. 꽤나 좋은 곳으로 이사한듯 하다. 개인적으로는 올해 드디어 미루고 미루었던 이직을 하였고  그 이후에 비약적인 성장을 이루었으니  분명 안좋은 일도 있었지만 만족할 수 있는 해를 보내지 않았나 싶다. 내가 도달하려고 하는 곳으로 가려면 아직 갈길이 멀지만  궤도에 오른 것만으로도 큰 성과라면 큰 성과 일 것 이다. 어쨋든 이직하고 많은 일들을 맡게 되었는데 그 과정에서 나는 의도적으로 Chat GTP를 활용하고자 하였고 몇 가지 직감을 얻게 되었는데  이 중 한 가지를 글로 작성하려고 한다. 따라서 올해의 마무리 글은 Chat GTP에 대한 이야기로 마무리 하려고 한다. 서론 불과 약 10년전 IT업계는 원하던 원치 않던간에  한번의 큰 패러다임의 변화를 맞이해야만 했다 바로 아이폰의 등장에 따른 스마트폰의 시대의 도래와  이에 따른 IT업계의 패러다임 변화가 그것이다. 내 기억으로는 아주 격변의 시대였던 걸로 기억하는데 왜냐하면 게임은 물론이고 웹과 백신을 비롯한 모든 솔루션의 변화가 이루어졌다. 이 뿐만 아니라 가볍고 한손의 들어오는 이 디바이스는  그 당시에는 조금 비싸다는 인식이 있었지만  감추려고 해도 감출 수 없는 뛰어난 유용성으로 회의론을 금세 종식시켰고 이에 대한 결과로 어린아이 부터 노인 까지 작은 컴퓨터를 가지게 되었고 이는 당연하게도 IT업계의 전체적인 호황을 가져다주었다.  그리고 질서는 다시 한번 재정렬되었다. 이러한 패러다임의 변화의 증거로 언어 또한 변하게 되었는데...

[ Neural Network, Python, Loss Function ] Python에서 뉴럴 네트워크는 어떻게 표현되는가? : 손실 함수의 구현



이전 포스트에서 손실 함수와 역전파에 대해
왜 필요한지에 대한 솔루션 관점에서 이야기를 해 봤다.

어느 정도 뉴런 네트워크에 대한 이미지가 잡히는듯 하다.

이제 본격적으로 손실 함수와 구현에 대한 이야기를 해보자.

손실 함수의 구현


먼저 손실 함수의 구현을 해보자.

손실 함수를 구현할 수 있다면,
앞서 구현했던 예측 값들이 잘 계산되어졌는지를 
이 손실 함수에서 보여줄 것이다.

여기서 구현한 코드가 정말로 잘 구현되었는지는 
같은 input으로 구글의 tensorflow의 Keras에서 제공하는 모듈로
이진 교차 엔트로피와 범주형 교차 엔트로피의 결과물과 다른지를 확인해
구현이 올바른지를 증명하려고 한다.

또한 샘플 데이터로 사용하고 있는
실제 확률 분포가 일반적인 행렬로 되어있지 않고,
10진수로 표현되어 있는다.

예컨데, 아래와 같이 분류가 되어 있다고 가정해보자.

1은 고양이, 2는 개, 3은 새, 4는 소와 같이 분류하였다.

이를 ont hot encoding화 하면 아래와 같다.

즉, one hot encoding은 분류를 이진화 하는 것이라 말할 수 있다.
 
내가 이용하는 데이터는 이 처럼 이진화 되어있지 않아
정확히 수식 그대로 사용할 수 없기 때문에 이 계산하기 위한 
convertY_true 클래스를 추가해 one hot encoding 처리를 하는 함수를 추가 했다.

이항 교차 엔트로피의 구현


기존 구현에서 추가된 코드는 아래와 같다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
class Loss:
    def BCE_calculate(self, output, y):
        #상속 받은 이진 교차 엔트로피를 계산
        bce_matrix = self.BCE_forward(output,y)
        loss_bce = np.mean(bce_matrix)
        return loss_bce
 
class Loss_BinaryCrossEntropy(Loss):
    def BCE_forward(self, y_pred, y_true):
        y_pred_clipped = np.clip(y_pred, 1e-71-1e-7)
 
        p1 = (1-y_true) * np.log(1-y_pred_clipped + 1e-7)
        p2 = y_true * np.log(y_pred + 1e-7)
 
        loss_matrix = -np.mean(p1+p2, axis=0)
        return loss_matrix
 
class convertY_true:
    def oneHotEncoding(self, y_true):
        rowLen = len(y_true)
        colLen = max(y_true)+1
        array = [[0 for col in range(colLen)] for row in range(rowLen)]
 
        i = 0
        for val in y_true:
            array[i][val]= 1
            i +=1
 
        return np.array(array)
cs

Loss_BinaryCrossEntropy 클래스에서 이항 교차 엔트로피의 수식을 계산하며,
이 계산된 값들은 행렬의 형태를 유지하고 있기 때문에
Loss 클래스에서 한번 더 평균을 계산해
최종적으로 하나의 값이 산출 된다.

위에서 언급했다시피 
convertY_true 클래스에서 계산을 위해 
이진 분류 되어 있는 행렬 형태의 실제 확률 분포로 바꿔 준다.

물론 분류를 이진화 하지 않고도
코딩을 하는 것은 가능하지만, 
코드의 직관성이 떨어지며 목표에도 벗어나기 때문에
나는 분류를 이진화하는 것을 선택했다.

올바른 행렬 형태의 데이터를 가지고 있다면
해당 클래스는 필요가 없다.

1
2
3
4
5
6
7
8
9
import numpy as np
import tensorflow as tf
 
#keras의 이진 교차 엔트로피 객체를 불러옴
bce = tf.keras.losses.BinaryCrossentropy( from_logits=False , reduction=tf.keras.losses.Reduction.SUM_OVER_BATCH_SIZE )
#동일한 실제 확률 분포와 예측된 확률 분포를 입력
loss_keras = bce( y_true, y_pred)
 
print("Loss keras", loss_keras)
cs

위의 코드는 tensorflow 프레임 워크의 
keras 패키지 안에 있는 이항 교차 엔트로피 객체를 불러오고
이를 실행해 출력하는 코드 이다.

y_true에는 실제 확률 분포와 
y_pred에는 예측된 확률 분포 값들을 넣어주면
이항 교차 엔트로피의 값이 산출 된다.


구현한 이진 교차 엔트로피의 결과 값


Keras의 이진 교차 엔트로피의 결과 값

상단은 구현한 결과 값이고
하단은 Keras의 결과 값을 보여준다.

결과 값은 사실상 큰 차이를 보이지 않기 때문에
구현이 올바르게 이루어졌음 확인 할 수 있다.

범주형 교차 엔트로피의 구현

범주형 교차 엔트로피(Categorical Cross Entropy)는
소프트 맥스(Soft Max) 활성화 함수에 
일반적인 교차 엔트로피 수식을 사용한 것을 말한다.

따라서 소프트 맥스 수식은 이미 이전에 구현되어 있어
해당 값이 계산되어 산출되기 때문에
단순히 교차 엔트로피 수식으로 값을 산출하는 코드를 작성하면 된다.

이번 구현에서 추가된 클래스는 아래와 같다.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
class Loss:
    def CCE_calculate(self, output, y):
        #예측된 확률 분포의 갯수
        n = output.shape[0]
        #상속 받은 범주형 교차 엔트로피를 계산
        cce_matrix = self.CCE_forward(output, y)
        loss_cce = cce_matrix/n
        return loss_cce
 
class Loss_CategoricalCrossentropy(Loss):
    def CCE_forward(self, y_pred, y_true):
        #오버플로우 방지를 위해 값을 조정
        y_pred_clipped = np.clip(y_pred, 1e-71-1e-7)
 
        loss_cce = -np.sum(y_true*np.log(y_pred_clipped))
 
        return loss_cce
 
class convertY_true:
    def oneHotEncoding(self, y_true):
        rowLen = len(y_true)
        colLen = max(y_true)+1
        array = [[0 for col in range(colLen)] for row in range(rowLen)]
 
        i = 0
        for val in y_true:
            array[i][val]= 1
            i +=1
 
        return np.array(array)
cs

이진 교차 엔트로피 수식에 비하면 간단해 보인다.

Loss_CategoricalCrossentropy 클래스 내부에서 np.sum을 통해 
행렬 내부의 값을 이미 합하여 하나의 값으로 산출해주기 때문에

CCE_calculate 함수에서 추가적인 numpy 코드 없이 
받아온 예측된 확률 분포의 갯수를 구해 직접 나누어 주어 값을 산출 했다.

구현한 범주형 교차 엔트로피의 결과값


Keras의 범주형 교차 엔트로피의 결과값

오차 값이 의미 있을 정도로 크지 않기 때문에
구현한 코드의 문제가 없다는 것을 확인 할 수 있다.

마치며

이것으로 구현하려 했던 이진, 범주형 교차 엔트로피의 구현을 완료 했으며,
동시에 구글 Tensorflow의 keras 프레임워크를 이용해 
올바르게 구현되었는지 까지 확인 해봤다.

물론 나의 코드보다 좀 더 좋은 코드는 얼마든지 있을 것이다.

손실 함수에 대한 이해에 도움이 되길 바란다. 

다음으로 역전파를 구현해보자.




이 블로그의 인기 게시물

[ Web ] 웹 애플리케이션 아키텍처 (Web Application Architecture)

[ Web ] 서버 사이드(Sever Side) ? 클라이언트 사이드(Client Side)? 1 [서론, 클라이언트 사이드(Client Side)]

[ Web ] 웹 애플리케이션 서버 아키텍처의 정의 및 유형 ( Define and Types of Web Application Server Architecture )