๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
ML & DL/Deep Learning

[DL] Backpropagation ์—ญ์ „ํŒŒ ์ดํ•ดํ•˜๊ธฐ

by Glory_Choi 2023. 9. 21.
๋ฐ˜์‘ํ˜•

๐Ÿ“Œ๋“ค์–ด๊ฐ€๋ฉฐ

๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” Backpropagation ์—ญ์ „ํŒŒ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ด…๋‹ˆ๋‹ค. ํ˜น์—ฌ ์ž˜๋ชป๋œ ๋ถ€๋ถ„์ด ์žˆ๊ฑฐ๋‚˜ ์งˆ๋ฌธ์ด ์žˆ์œผ์‹œ๋ฉด ๋Œ“๊ธ€ ๋‚จ๊ฒจ์ฃผ์„ธ์š”.

 

Back Propagation(์—ญ์ „ํŒŒ)์ด๋ž€?

์—ญ์ „ํŒŒ๋Š” ์‹ ๊ฒฝ๋ง์˜ ๊ฐ ๋…ธ๋“œ๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฐ€์ค‘์น˜(Weight)์™€ ํŽธํ–ฅ(Bias)์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๋ชฉํ‘œ(Target)์™€ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ(Output)๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ฐจ์ด ๋‚˜๋Š”์ง€ ํ™•์ธํ•˜๊ณ  ๊ทธ ์˜ค์ฐจ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ฐ€์ค‘์น˜(Weight)์™€ ํŽธํ–ฅ(Bias)๋ฅผ ๋’ค์—์„œ ๋ถ€ํ„ฐ ์•ž์œผ๋กœ ๊ฐฑ์‹ ํ•ด๊ฐ€๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

 

์—ญ์ „ํŒŒ๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด์„œ ์ˆœ์ „ํŒŒ๋ฅผ ์šฐ์„ ์ ์œผ๋กœ ์„ค๋ช…ํ•œ๋‹ค.

 

Forward Propagation(์ˆœ์ „ํŒŒ)

์œ„ ๊ทธ๋ฆผ์€ ์—ญ์ „ํŒŒ์˜ ์ดํ•ด๋ฅผ ์œ„ํ•ด์„œ 3๊ฐœ์˜ ์ธต์„ ๊ฐ–๋Š” ์ธ๊ณต ์‹ ๊ฒฝ๋ง์„ ๊ฐ€์ ธ์™”๋‹ค. ํ•ด๋‹น ์ธ๊ณต ์‹ ๊ฒฝ๋ง์„ ๋Œ€๋žต์ ์œผ๋กœ ์„ค๋ช…ํ•˜๋ฉด ๋‘๊ฐœ์˜ ์ž…๋ ฅ, ๋‘ ๊ฐœ์˜  ์€๋‹‰์ธต, ๋‘๊ฐœ์˜ ์ถœ๋ ฅ์„ ๊ฐ–๋Š” ์ธ๊ณต์‹ ๊ฒฝ๋ง์ด๋‹ค. x1, x2๊ฐ€ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด๊ฐ€๊ณ  ๊ฐw๋“ค๊ณผ ์—ฐ์‚ฐ์„ ํ†ตํ•ด ์€๋‹‰์ธต์˜ z1, z2๋กœ ๊ฐ€๊ฒŒ ๋œ ํ›„ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ๊ฑฐ์ณ h1, h2๋ฅผ ํ†ต๊ณผํ•˜๋Š” ๊ตฌ์กฐ์ด๋‹ค.

 

์ฃผ์–ด์ง„ ๊ฐ’์ด ์œ„์˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์„ ๋•Œ ์ˆœ์ „ํŒŒ๋ฅผ ์ง„ํ–‰ํ•ด๋ณธ๋‹ค. ์œ„์˜ ๊ทธ๋ฆผ์€ ์†Œ์ˆ˜์  ์•ž 0์„ ์ƒ๋žตํ•œ ๊ทธ๋ฆผ์ด๋ฉฐ .25๋Š” 0.25์ด๋‹ค.

 

๊ฐ ์ž…๋ ฅ์€ ์ž…๋ ฅ์ธต์—์„œ ์€๋‹‰์ธต์œผ๋กœ ๊ฐ€๋ฉด์„œ ๊ฐ€์ค‘์น˜ w์™€ ๊ณฑํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์—

z1, z2๊ฐ€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์—ฐ์‚ฐ๋œ๋‹ค. z1, z2๋Š” ์€๋‹‰์ธต ๋‰ด๋Ÿฐ์—์„œ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์ง€๋‚˜๊ฒŒ ๋˜๋Š”๋ฐ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๊ฐ€ ๋ฆฌํ„ดํ•˜๋Š” ๊ฒฐ๊ณผ๊ฐ’์€ ์€๋‹‰์ธต ๋‰ด๋Ÿฐ์˜ ์ตœ ์ถœ๋ ฅ์ด๋‹ค. ์œ„ ๊ทธ๋ฆผ์—์„œ๋Š” h1๊ณผ h2์— ํ•ด๋‹น๋˜๋ฉฐ ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜ ์‹๊ณผ ๊ฐ™๋‹ค.

์–ด๋ ต์ง€ ์•Š์€ ์‹์ด๊ธฐ ๋•Œ๋ฌธ์— ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์„๊ฑฐ๋ผ ์ƒ๊ฐ๋œ๋‹ค.

์œ„์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ 

 

o1๊ณผ o2๊ฐ€ ์ธ๊ณต ์‹ ๊ฒฝ๋ง์ด ์ตœ์ข…์ ์œผ๋กœ ์˜ˆ์ธกํ•œ ๊ฐ’์ด๋ฉฐ ์ถœ๋ ฅ๊ฐ’ ๋˜๋Š” ์˜ˆ์ธก๊ฐ’์ด๋ผ๊ณ  ํ•œ๋‹ค.

 

์šฐ๋ฆฌ๋Š” ์ธ๊ณต ์‹ ๊ฒฝ๋ง์˜ ์˜ˆ์ธก๊ฐ’๊ณผ ์‹ค์ œ๊ฐ’์ด ์–ผ๋งˆ๋‚˜ ์ฐจ์ด๋ฅผ ๊ฐ–๊ณ  ์žˆ๋Š”์ง€ ๊ณ„์‚ฐ์„ ํ•ด์•ผ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ์˜ค์ฐจ(Error)๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ์„ ํƒ๋œ ์†์‹ค ํ•จ์ˆ˜(Loss function)๋กœ๋Š” ํ‰๊ท  ์ œ๊ณฑ ์˜ค์ฐจ MSE๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์‹์—์„œ๋Š” ์‹ค์ œ๊ฐ’์„ target์ด๋ผ๊ณ  ํ‘œํ˜„ํ•˜์˜€์œผ๋ฉฐ, ์ˆœ์ „ํŒŒ๋ฅผ ํ†ตํ•ด ๋‚˜์˜จ ์˜ˆ์ธก๊ฐ’์„ output์œผ๋กœ ํ‘œํ˜„ํ•œ๋‹ค.

์ด๋กœ์จ ์ˆœ์ „ํŒŒ๋Š” ๋๋‚˜๊ฒŒ ๋œ๋‹ค. ์–ด๋ ต์ง€ ์•Š์€ ์ˆ˜ํ•™์œผ๋กœ ์ฒœ์ฒœํžˆ ๋”ฐ๋ผ๊ฐ€๋ฉฐ ์—ฐ์‚ฐ์„ ํ•ด๋ณธ๋‹ค๋ฉด ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค. ํฌ๊ธฐํ•˜์ง€ ๋ง๊ณ  ๋„์ „ํ•ด๋ณด๊ธฐ ๋ฐ”๋ž€๋‹ค.

 

Back Propagation(์—ญ์ „ํŒŒ)

์ˆœ์ „ํŒŒ๊ฐ€ ์ž…๋ ฅ์ธต์—์„œ ์ถœ๋ ฅ์ธต์œผ๋กœ ํ–ฅํ–ˆ๋‹ค๋ฉด ์—ญ์ „ํŒŒ๋Š” ์ˆœ์ „ํŒŒ์™€ ๋ฐ˜๋Œ€์ด๋ฏ€๋กœ ์ถœ๋ ฅ์ธต์—์„œ ์ž…๋ ฅ์ธต ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•œ๋‹ค. ์ถœ๋ ฅ์ธต๊ณผ ์€๋‹‰์ธต ์‚ฌ์ด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋‹จ๊ณ„๋ฅผ ์—ญ์ „ํŒŒ 1๋‹จ๊ณ„ ์€๋‹‰์ธต๊ณผ ์ž…๋ ฅ์ธต ์‚ฌ์ด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—ญ์ „ํŒŒ 2๋‹จ๊ณ„๋กœ ๋‚˜๋ˆ„์–ด 1๋‹จ๊ณ„๋งŒ ์„ค๋ช…ํ•œ๋‹ค.

 

์—ญ์ „ํŒŒ 1๋‹จ๊ณ„์—์„œ๋Š” ์—…๋ฐ์ดํŠธ ํ•ด์•ผ ํ•  ๊ฐ€์ค‘์น˜๊ฐ€ w5, w6, w7, w8๋กœ ์ด 4๊ฐœ์ด๋‹ค.

์šฐ์„  w5์— ๋Œ€ํ•ด ๋จผ์ € ์—…๋ฐ์ดํŠธ๋ฅผ ์ง„ํ–‰ํ•œ๋‹ค. ๊ฐ€์ค‘์น˜ w5๋ฅผ ์—…๋ฐ์ดํŠธ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์•„๋ž˜ ์‹์„ ๊ณ„์‚ฐํ•ด์•ผ ํ•œ๋‹ค. ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ๋ฏธ๋ถ„์˜ ์—ฐ์‡„ ๋ฒ•์น™(Chain rule)์— ๋”ฐ๋ผ์„œ ์•„๋ž˜์™€ ๊ฐ™์€ ์‹์ด ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค.

์œ„์˜ ์‹์—์„œ ์šฐ๋ณ€์˜ ์„ธ ๊ฐœ์˜ ๊ฐ ํ•ญ์— ๋Œ€ํ•ด์„œ ์ˆœ์„œ๋Œ€๋กœ ๊ณ„์‚ฐํ•ด๋ณธ๋‹ค. ์ฒซ ๋ฒˆ์งธ ํ•ญ์— ๋Œ€ํ•ด์„œ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด ์•„๋ž˜์‹๊ณผ ๊ฐ™๋‹ค.

 

๋‘๋ฒˆ์งธ ํ•ญ์œผ๋กœ ๋„˜์–ด๊ฐ€๋ฉด ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„์‹์— ์˜ํ•ด ์•„๋ž˜ ์‹์ด ๋‚˜์˜จ๋‹ค.

(์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜ ๋ฏธ๋ถ„ ์ฐธ๊ณ  ๋งํฌ : https://en.wikipedia.org/wiki/Logistic_function#Derivative)

 

Logistic function - Wikipedia

From Wikipedia, the free encyclopedia S-shaped curve Standard logistic function where L = 1 , k = 1 , x 0 = 0 {\displaystyle L=1,k=1,x_{0}=0} A logistic function or logistic curve is a common S-shaped curve (sigmoid curve) with the equation f ( x ) = L 1 +

en.wikipedia.org

๋งˆ์ง€๋ง‰ ์„ธ๋ฒˆ์งธ ํ•ญ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

์ด์ œ ์ด ๊ฐ’์„ ๋ชจ๋‘ ๊ณฑํ•ด์ฃผ๋ฉด ๋œ๋‹ค.

์ด์ œ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์„ ํ†ตํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธ ํ•œ๋‹ค. ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์— ํ•ด๋‹น๋˜๋Š” ํ•™์Šต๋ฅ (learning rate)๋ฅผ 0.5๋ผ๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์ด ์—ญ์ „ํŒŒ๋ฅผ 2๋‹จ๊ณ„๊นŒ์ง€ ์™„์„ฑํ•˜๊ฒŒ ๋˜๋ฉด 1๋ฒˆ์˜ ์—ญ์ „ํŒŒ๋กœ ์˜ค์ฐจ๊ฐ€ ๊ฐ์†Œํ•˜๊ฒŒ ๋œ๋‹ค.

 

๊ฒฐ๋ก 

๊ฒฐ๊ตญ ์ธ๊ณต ์‹ ๊ฒฝ๋ง์˜ ํ•™์Šต์€ ์˜ค์ฐจ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๋Š” ๋ชฉ์ ์œผ๋กœ ์ˆœ์ „ํŒŒ์™€ ์—ญ์ „ํŒŒ๋ฅผ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค. ๋•Œ๋ฌธ์— ์—ญ์ „ํŒŒ๋Š” ๊ผญ ํ•™์Šตํ•ด์•ผ ๋˜๊ณ  ์ต์ˆ™ํ•˜๊ฒŒ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด ์ถฉ๋ถ„ํ•œ ์—ฐ์Šต์ด ํ•„์š”ํ•˜๋‹ค.

 

์˜๊ฒฌ๊ณผ ์งˆ๋ฌธ์€ ์–ธ์ œ๋‚˜ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
๋ฐ˜์‘ํ˜•

'ML & DL > Deep Learning' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[DL] CNN ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง ์™•์ดˆ๋ณด ๊ธฐ์ดˆ ๊ฐœ๋…  (0) 2023.10.03
[DL] Chain Rule์ด๋ž€?  (0) 2023.09.22