[DL] Backpropagation 역전파 이해하기

📌들어가며

본 포스팅에서는 Backpropagation 역전파에 대해서 알아봅니다. 혹여 잘못된 부분이 있거나 질문이 있으시면 댓글 남겨주세요.

Back Propagation(역전파)이란?

역전파는 신경망의 각 노드가 가지고 있는 가중치(Weight)와 편향(Bias)을 학습시키기 위한 알고리즘으로 목표(Target)와 모델의 예측 결과(Output)가 얼마나 차이 나는지 확인하고 그 오차를 바탕으로 가중치(Weight)와 편향(Bias)를 뒤에서 부터 앞으로 갱신해가는 것을 의미한다.

역전파를 이해하기 위해서 순전파를 우선적으로 설명한다.

Forward Propagation(순전파)

위 그림은 역전파의 이해를 위해서 3개의 층을 갖는 인공 신경망을 가져왔다. 해당 인공 신경망을 대략적으로 설명하면 두개의 입력, 두 개의 은닉층, 두개의 출력을 갖는 인공신경망이다. x1, x2가 입력으로 들어가고 각w들과 연산을 통해 은닉층의 z1, z2로 가게 된 후 활성화 함수를 거쳐 h1, h2를 통과하는 구조이다.

주어진 값이 위의 그림과 같을 때 순전파를 진행해본다. 위의 그림은 소수점 앞 0을 생략한 그림이며 .25는 0.25이다.

각 입력은 입력층에서 은닉층으로 가면서 가중치 w와 곱해지기 때문에

z1, z2가 다음과 같이 연산된다. z1, z2는 은닉층 뉴런에서 시그모이드 함수를 지나게 되는데 시그모이드 함수가 리턴하는 결과값은 은닉층 뉴런의 최 출력이다. 위 그림에서는 h1과 h2에 해당되며 결과는 아래 식과 같다.

어렵지 않은 식이기 때문에 쉽게 이해할 수 있을거라 생각된다.

위와 같은 방법으로

o1과 o2가 인공 신경망이 최종적으로 예측한 값이며 출력값 또는 예측값이라고 한다.

우리는 인공 신경망의 예측값과 실제값이 얼마나 차이를 갖고 있는지 계산을 해야된다. 따라서 오차(Error)를 계산하기 위해 선택된 손실 함수(Loss function)로는 평균 제곱 오차 MSE를 사용한다. 식에서는 실제값을 target이라고 표현하였으며, 순전파를 통해 나온 예측값을 output으로 표현한다.

이로써 순전파는 끝나게 된다. 어렵지 않은 수학으로 천천히 따라가며 연산을 해본다면 쉽게 이해할 수 있다. 포기하지 말고 도전해보기 바란다.

Back Propagation(역전파)

순전파가 입력층에서 출력층으로 향했다면 역전파는 순전파와 반대이므로 출력층에서 입력층 방향으로 가중치를 업데이트한다. 출력층과 은닉층 사이의 가중치를 업데이트하는 단계를 역전파 1단계 은닉층과 입력층 사이의 가중치를 역전파 2단계로 나누어 1단계만 설명한다.

역전파 1단계에서는 업데이트 해야 할 가중치가 w5, w6, w7, w8로 총 4개이다.

우선 w5에 대해 먼저 업데이트를 진행한다. 가중치 w5를 업데이트 하기 위해서는 아래 식을 계산해야 한다. 계산하기 위해 미분의 연쇄 법칙(Chain rule)에 따라서 아래와 같은 식이 나오게 된다.

위의 식에서 우변의 세 개의 각 항에 대해서 순서대로 계산해본다. 첫 번째 항에 대해서 계산해보면 아래식과 같다.

두번째 항으로 넘어가면 시그모이드 함수의 미분식에 의해 아래 식이 나온다.

(시그모이드 함수 미분 참고 링크 : https://en.wikipedia.org/wiki/Logistic_function#Derivative)

Logistic function - Wikipedia

From Wikipedia, the free encyclopedia S-shaped curve Standard logistic function where L = 1 , k = 1 , x 0 = 0 {\displaystyle L=1,k=1,x_{0}=0} A logistic function or logistic curve is a common S-shaped curve (sigmoid curve) with the equation f ( x ) = L 1 +

en.wikipedia.org

마지막 세번째 항은 아래와 같다.

이제 이 값을 모두 곱해주면 된다.

이제 경사 하강법을 통해 가중치를 업데이트 한다. 하이퍼파라미터에 해당되는 학습률(learning rate)를 0.5라고 가정한다.

다음과 같이 역전파를 2단계까지 완성하게 되면 1번의 역전파로 오차가 감소하게 된다.

결론

결국 인공 신경망의 학습은 오차를 최소화하는 가중치를 찾는 목적으로 순전파와 역전파를 반복하는 것을 말한다. 때문에 역전파는 꼭 학습해야 되고 익숙하게 다루기 위해 충분한 연습이 필요하다.

의견과 질문은 언제나 감사합니다.

저작자표시

'ML & DL > Deep Learning' 카테고리의 다른 글

[DL] CNN 합성곱 신경망 왕초보 기초 개념 (0)	2023.10.03
[DL] Chain Rule이란? (0)	2023.09.22

Glory's blog

[DL] Backpropagation 역전파 이해하기

📌들어가며

Back Propagation(역전파)이란?

Forward Propagation(순전파)

Back Propagation(역전파)

결론

'ML & DL > Deep Learning' 카테고리의 다른 글

티스토리툴바

[DL] Backpropagation 역전파 이해하기

📌들어가며

Back Propagation(역전파)이란?

Forward Propagation(순전파)

Back Propagation(역전파)

결론

'ML & DL > Deep Learning' 카테고리의 다른 글

관련글

티스토리툴바