일반적으로 가중치가 크면 과적합이 발생한다고 알려져 있다. 그래서 가중치의 크기를 규제하는 방법으로 L1-regularization, L2-regularization을 활용하곤 한다. (가중치 규제와 관련된 포스팅은 이 링크를 참고) https://ohsy0512.tistory.com/31 그러면 왜 가중치의 크기가 클 때 과적합이 발생할까? 이 주제에 대해서 한국어 자료부터 영어 자료까지 찾아봤지만 자세히 설명된 포스팅이 없었다. 그래서 나름 혼자 고민하면서 이해한 바를 설명해보려 한다. 다음의 예시를 보자. $x1$과 $x2$라는 feature가 있을 때, $x = x1 + x2$ 혹은 $x = 10x1 + 10x2$에 대하여 sigmoid(x)를 적용한 결과다. 두 그래프의 차이는 weight의 크..