AI/ML DL 2

가중치가 크면 과적합(overfitting)이 발생하는 이유

일반적으로 가중치가 크면 과적합이 발생한다고 알려져 있다. 그래서 가중치의 크기를 규제하는 방법으로 L1-regularization, L2-regularization을 활용하곤 한다. (가중치 규제와 관련된 포스팅은 이 링크를 참고) https://ohsy0512.tistory.com/31 그러면 왜 가중치의 크기가 클 때 과적합이 발생할까? 이 주제에 대해서 한국어 자료부터 영어 자료까지 찾아봤지만 자세히 설명된 포스팅이 없었다. 그래서 나름 혼자 고민하면서 이해한 바를 설명해보려 한다. 다음의 예시를 보자. $x1$과 $x2$라는 feature가 있을 때, $x = x1 + x2$ 혹은 $x = 10x1 + 10x2$에 대하여 sigmoid(x)를 적용한 결과다. 두 그래프의 차이는 weight의 크..

AI/ML DL 2023.03.28

가중치 규제(Weight Regularization)

이번주 AlexNet 논문을 읽으면서 weight decay가 언급되었는데 이참에 제대로 개념을 잡고 가는 게 좋을 것 같아서 따로 글을 적는다. 과적합(Overfitting) 과적합이란 모델이 훈련 데이터에만 지나치게 적응하여 시험 데이터에 제대로 반응하지 못하는 현상을 말한다. 그 반대 개념으로는 모델이 훈련 데이터도 제대로 학습하지 못한 상태를 말하는 과소적합(Overfitting)이 있다. 그런데 일반적으로 딥러닝에서 과소적합보다 과적합에 대한 해결방법이 많이 연구되는 것을 볼 수 있다. 왜 그럴까? 그 이유로는 딥러닝 모델은 직접 raw data에서 feature를 만들어 낸다는 점을 꼽을 수 있다. 학습과정에서 모델이 스스로 feature를 가공하고 추출하기 때문에, 처음부터 Architect..

AI/ML DL 2023.03.19