티스토리 뷰
라는 의문에서 시작한 글이다.
사실 backpropagation을 사용하는 뉴럴 네트워크를 머리 속에 떠올려보니 MLE가 들어갈 틈이 없더라구.
그래서 검색해봤는데 웬걸 그냥 정답이 딱 이더라구.
머신러닝의 전반적인 흐름(에러 관점, 확률론적인 관점 그리고 MLE와 MAP차이 및 연관성)
네이버 d2에서 이활석님께서 아주아주 최근에 발표하신 영상과 슬라이드를 공유해 놓으셨다.(링크는 맨아래) 목적은 autoencoder를 설명하기 위함인데 이를 위해 초반부분에 deep Neural Network와 관련
blogyong.tistory.com
www.youtube.com/watch?v=o_peo6U7IRM&feature=youtu.be
위의 티스토리 글을 먼저 봤고, 충분히 이해가 되지 않아 출처로 남겨져있는 동영상을 봤다. 오토인코더에 대한 내용이지만 아직은 앞에서의 설명 부분만 필요해서 보고 정리해봤다.
네이버 영상이더라 내가 지금 하는것도 네이버 부캠이니가 이건 운명..? 은 장난이고 걍 네이버가 정말 트렌디한 기업이구나 새삼 느꼈다 하튼
여기 내용을 정리해서 딥러닝 관련 수학을 배우는데 왜 MLE가 튀어나왔는지 알아보자
결론부터 이야기하자면 MLE는 DNN(딥러닝 뉴럴 네트워크)를 확률론적인 관점에서 해석한거다. 무슨 뜻이냐고?
우리의 목적은 네트워크의 출력값이 데이터의 찐 정답이길 바라는거다. 자명하다. 이걸 두가지 방식으로 해석할 수 있다.
-
출력값과 실제 정답이 다른 정도를 loss function으로 구해서 최소화 시키길 바란다 -> backpropagation
-
출력값이 실제 정답일 확률이 높길 바란다. -> likelihood
DNN에서 사용할 수 있는 loss function은 두개 뿐이라고 한다. MSE와 CE
근데 loss function은 아직도 부캠에선 안배웠다... 설마 안배우려나..? 배운건기노름 1 2 정도..?CE는 건들이지도않앗음ummmm....
하튼 저저번 시간에 열심히 배운 backpropagation에서 대충 설명해놓은 과정 8을 보면

내가 요딴식으로 가볍게 정리해놨었다. 이 미분값을 바탕으로 업데이트 한다 -> 이게 손실함수를 최소화하기 위한 여정이다.
즉 손실 함수로 사용하는 MSE, CE 두개가 있는데, 손실함수를 정했을 때 이 값이 최소가 되는 지점을 찾아 가는 여정이 경사하강법이다.
결국 이 loss function을 최소화 시키는게 목표인데 이제 likelihoond 관점에서 바라보자

어떤 확률 분포를 따를건지 결정하고 모수(파라미터)를 적절한 값으로 추정하는게 MLE이다.
그 과정을 따라가보면 결국 MSE와 CE와 같다는걸 볼 수 있다!
wOw
부캠 강의에서는 쿨백-라이블러 발산을 이용해서 설명하셨는데 이게 결국 크로스 엔트로피를 최소화 하는 방법이다.
이번 주말은 이렇게 끝~!
'boostcamp AITech' 카테고리의 다른 글
[12일차]Optimization (1) | 2021.02.02 |
---|---|
[11일차] DL Basic / 베이즈 통계학 햘짝 (1) | 2021.02.01 |
[10일차] 최대가능도 MLE (0) | 2021.01.29 |
[9일차] 확률론 할짝 (1) | 2021.01.28 |
[8일차] pandas (부제 : 난 여태 판다랑 관련있는 줄 알았다 로고라도 판다로 만들어주지..) (0) | 2021.01.28 |