๐๋ค์ด๊ฐ๋ฉฐ
๋ณธ ํฌ์คํ ์์๋ Backpropagation ์ญ์ ํ์ ๋ํด์ ์์๋ด ๋๋ค. ํน์ฌ ์๋ชป๋ ๋ถ๋ถ์ด ์๊ฑฐ๋ ์ง๋ฌธ์ด ์์ผ์๋ฉด ๋๊ธ ๋จ๊ฒจ์ฃผ์ธ์.
Back Propagation(์ญ์ ํ)์ด๋?
์ญ์ ํ๋ ์ ๊ฒฝ๋ง์ ๊ฐ ๋ ธ๋๊ฐ ๊ฐ์ง๊ณ ์๋ ๊ฐ์ค์น(Weight)์ ํธํฅ(Bias)์ ํ์ต์ํค๊ธฐ ์ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ชฉํ(Target)์ ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ(Output)๊ฐ ์ผ๋ง๋ ์ฐจ์ด ๋๋์ง ํ์ธํ๊ณ ๊ทธ ์ค์ฐจ๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ์ค์น(Weight)์ ํธํฅ(Bias)๋ฅผ ๋ค์์ ๋ถํฐ ์์ผ๋ก ๊ฐฑ์ ํด๊ฐ๋ ๊ฒ์ ์๋ฏธํ๋ค.
์ญ์ ํ๋ฅผ ์ดํดํ๊ธฐ ์ํด์ ์์ ํ๋ฅผ ์ฐ์ ์ ์ผ๋ก ์ค๋ช ํ๋ค.
Forward Propagation(์์ ํ)
์ ๊ทธ๋ฆผ์ ์ญ์ ํ์ ์ดํด๋ฅผ ์ํด์ 3๊ฐ์ ์ธต์ ๊ฐ๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๊ฐ์ ธ์๋ค. ํด๋น ์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋๋ต์ ์ผ๋ก ์ค๋ช ํ๋ฉด ๋๊ฐ์ ์ ๋ ฅ, ๋ ๊ฐ์ ์๋์ธต, ๋๊ฐ์ ์ถ๋ ฅ์ ๊ฐ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ด๋ค. x1, x2๊ฐ ์ ๋ ฅ์ผ๋ก ๋ค์ด๊ฐ๊ณ ๊ฐw๋ค๊ณผ ์ฐ์ฐ์ ํตํด ์๋์ธต์ z1, z2๋ก ๊ฐ๊ฒ ๋ ํ ํ์ฑํ ํจ์๋ฅผ ๊ฑฐ์ณ h1, h2๋ฅผ ํต๊ณผํ๋ ๊ตฌ์กฐ์ด๋ค.
์ฃผ์ด์ง ๊ฐ์ด ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ๋ ์์ ํ๋ฅผ ์งํํด๋ณธ๋ค. ์์ ๊ทธ๋ฆผ์ ์์์ ์ 0์ ์๋ตํ ๊ทธ๋ฆผ์ด๋ฉฐ .25๋ 0.25์ด๋ค.
๊ฐ ์ ๋ ฅ์ ์ ๋ ฅ์ธต์์ ์๋์ธต์ผ๋ก ๊ฐ๋ฉด์ ๊ฐ์ค์น w์ ๊ณฑํด์ง๊ธฐ ๋๋ฌธ์
z1, z2๊ฐ ๋ค์๊ณผ ๊ฐ์ด ์ฐ์ฐ๋๋ค. z1, z2๋ ์๋์ธต ๋ด๋ฐ์์ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ง๋๊ฒ ๋๋๋ฐ ์๊ทธ๋ชจ์ด๋ ํจ์๊ฐ ๋ฆฌํดํ๋ ๊ฒฐ๊ณผ๊ฐ์ ์๋์ธต ๋ด๋ฐ์ ์ต ์ถ๋ ฅ์ด๋ค. ์ ๊ทธ๋ฆผ์์๋ h1๊ณผ h2์ ํด๋น๋๋ฉฐ ๊ฒฐ๊ณผ๋ ์๋ ์๊ณผ ๊ฐ๋ค.
์ด๋ ต์ง ์์ ์์ด๊ธฐ ๋๋ฌธ์ ์ฝ๊ฒ ์ดํดํ ์ ์์๊ฑฐ๋ผ ์๊ฐ๋๋ค.
์์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก
o1๊ณผ o2๊ฐ ์ธ๊ณต ์ ๊ฒฝ๋ง์ด ์ต์ข ์ ์ผ๋ก ์์ธกํ ๊ฐ์ด๋ฉฐ ์ถ๋ ฅ๊ฐ ๋๋ ์์ธก๊ฐ์ด๋ผ๊ณ ํ๋ค.
์ฐ๋ฆฌ๋ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์์ธก๊ฐ๊ณผ ์ค์ ๊ฐ์ด ์ผ๋ง๋ ์ฐจ์ด๋ฅผ ๊ฐ๊ณ ์๋์ง ๊ณ์ฐ์ ํด์ผ๋๋ค. ๋ฐ๋ผ์ ์ค์ฐจ(Error)๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํด ์ ํ๋ ์์ค ํจ์(Loss function)๋ก๋ ํ๊ท ์ ๊ณฑ ์ค์ฐจ MSE๋ฅผ ์ฌ์ฉํ๋ค. ์์์๋ ์ค์ ๊ฐ์ target์ด๋ผ๊ณ ํํํ์์ผ๋ฉฐ, ์์ ํ๋ฅผ ํตํด ๋์จ ์์ธก๊ฐ์ output์ผ๋ก ํํํ๋ค.
์ด๋ก์จ ์์ ํ๋ ๋๋๊ฒ ๋๋ค. ์ด๋ ต์ง ์์ ์ํ์ผ๋ก ์ฒ์ฒํ ๋ฐ๋ผ๊ฐ๋ฉฐ ์ฐ์ฐ์ ํด๋ณธ๋ค๋ฉด ์ฝ๊ฒ ์ดํดํ ์ ์๋ค. ํฌ๊ธฐํ์ง ๋ง๊ณ ๋์ ํด๋ณด๊ธฐ ๋ฐ๋๋ค.
Back Propagation(์ญ์ ํ)
์์ ํ๊ฐ ์ ๋ ฅ์ธต์์ ์ถ๋ ฅ์ธต์ผ๋ก ํฅํ๋ค๋ฉด ์ญ์ ํ๋ ์์ ํ์ ๋ฐ๋์ด๋ฏ๋ก ์ถ๋ ฅ์ธต์์ ์ ๋ ฅ์ธต ๋ฐฉํฅ์ผ๋ก ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ค. ์ถ๋ ฅ์ธต๊ณผ ์๋์ธต ์ฌ์ด์ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๋ ๋จ๊ณ๋ฅผ ์ญ์ ํ 1๋จ๊ณ ์๋์ธต๊ณผ ์ ๋ ฅ์ธต ์ฌ์ด์ ๊ฐ์ค์น๋ฅผ ์ญ์ ํ 2๋จ๊ณ๋ก ๋๋์ด 1๋จ๊ณ๋ง ์ค๋ช ํ๋ค.
์ญ์ ํ 1๋จ๊ณ์์๋ ์ ๋ฐ์ดํธ ํด์ผ ํ ๊ฐ์ค์น๊ฐ w5, w6, w7, w8๋ก ์ด 4๊ฐ์ด๋ค.
์ฐ์ w5์ ๋ํด ๋จผ์ ์ ๋ฐ์ดํธ๋ฅผ ์งํํ๋ค. ๊ฐ์ค์น w5๋ฅผ ์ ๋ฐ์ดํธ ํ๊ธฐ ์ํด์๋ ์๋ ์์ ๊ณ์ฐํด์ผ ํ๋ค. ๊ณ์ฐํ๊ธฐ ์ํด ๋ฏธ๋ถ์ ์ฐ์ ๋ฒ์น(Chain rule)์ ๋ฐ๋ผ์ ์๋์ ๊ฐ์ ์์ด ๋์ค๊ฒ ๋๋ค.
์์ ์์์ ์ฐ๋ณ์ ์ธ ๊ฐ์ ๊ฐ ํญ์ ๋ํด์ ์์๋๋ก ๊ณ์ฐํด๋ณธ๋ค. ์ฒซ ๋ฒ์งธ ํญ์ ๋ํด์ ๊ณ์ฐํด๋ณด๋ฉด ์๋์๊ณผ ๊ฐ๋ค.
๋๋ฒ์งธ ํญ์ผ๋ก ๋์ด๊ฐ๋ฉด ์๊ทธ๋ชจ์ด๋ ํจ์์ ๋ฏธ๋ถ์์ ์ํด ์๋ ์์ด ๋์จ๋ค.
(์๊ทธ๋ชจ์ด๋ ํจ์ ๋ฏธ๋ถ ์ฐธ๊ณ ๋งํฌ : https://en.wikipedia.org/wiki/Logistic_function#Derivative)
Logistic function - Wikipedia
From Wikipedia, the free encyclopedia S-shaped curve Standard logistic function where L = 1 , k = 1 , x 0 = 0 {\displaystyle L=1,k=1,x_{0}=0} A logistic function or logistic curve is a common S-shaped curve (sigmoid curve) with the equation f ( x ) = L 1 +
en.wikipedia.org
๋ง์ง๋ง ์ธ๋ฒ์งธ ํญ์ ์๋์ ๊ฐ๋ค.
์ด์ ์ด ๊ฐ์ ๋ชจ๋ ๊ณฑํด์ฃผ๋ฉด ๋๋ค.
์ด์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ์ ํตํด ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ ํ๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ์ ํด๋น๋๋ ํ์ต๋ฅ (learning rate)๋ฅผ 0.5๋ผ๊ณ ๊ฐ์ ํ๋ค.
๋ค์๊ณผ ๊ฐ์ด ์ญ์ ํ๋ฅผ 2๋จ๊ณ๊น์ง ์์ฑํ๊ฒ ๋๋ฉด 1๋ฒ์ ์ญ์ ํ๋ก ์ค์ฐจ๊ฐ ๊ฐ์ํ๊ฒ ๋๋ค.
๊ฒฐ๋ก
๊ฒฐ๊ตญ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ํ์ต์ ์ค์ฐจ๋ฅผ ์ต์ํํ๋ ๊ฐ์ค์น๋ฅผ ์ฐพ๋ ๋ชฉ์ ์ผ๋ก ์์ ํ์ ์ญ์ ํ๋ฅผ ๋ฐ๋ณตํ๋ ๊ฒ์ ๋งํ๋ค. ๋๋ฌธ์ ์ญ์ ํ๋ ๊ผญ ํ์ตํด์ผ ๋๊ณ ์ต์ํ๊ฒ ๋ค๋ฃจ๊ธฐ ์ํด ์ถฉ๋ถํ ์ฐ์ต์ด ํ์ํ๋ค.
์๊ฒฌ๊ณผ ์ง๋ฌธ์ ์ธ์ ๋ ๊ฐ์ฌํฉ๋๋ค.
'ML & DL > Deep Learning' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL] CNN ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ์์ด๋ณด ๊ธฐ์ด ๊ฐ๋ (0) | 2023.10.03 |
---|---|
[DL] Chain Rule์ด๋? (0) | 2023.09.22 |