Norm 은 벡터의 길이, 크기를 판단하는 데 쓰인다
\( L_p \) norm을 기본형으로, \(L1, L2, L_{\infty}\)까지 정리해보자
우선 \( L_p \)부터 보면
$$ L_p = ( \sum_i^n |x_i|^p)^{1/p} $$
- p는 Norm의 차수, p=1일 때 L1 norm, p=2일 때 L2 norm
- n은 벡터의 차원 수
먼저 가장 자주 쓰이고 쉽게 이해할 수 있는 L2 norm부터 보면
$$ L_2 = \sqrt{x_1^2+x_2^2+\cdots+x_n^2} $$
그냥 얘는 우리가 아는 n차원에서 벡터의 길이를 계산하는 공식이다
그러니까 \( \mathbb{R}^3 \)차원 유클리드 공간에서 \( v = (v_1, v_2, v_3)\) 일 때,
\( ||v|| = \sqrt{v_1^2+v_2^2+v_3^2} \) 가 된다.
L1 norm의 경우 더 단순하게 아래와 같이 계산된다
각 요소의 절대값을 더하면 된다
맨하탄 거리라고 한다
$$ L_1 = \sum_i^n |x_i| $$
L0 norm은 요소의 총 갯수를 확인할 수 있다.
즉 L0 norm이 3이면 0이 아닌 요소(차원)가 3개 있다는 뜻
$$ L_0 = |x_1|^0 + |x_2|^0 + \cdots + |x_n|^0 $$
문제의 \(L_p\) norm은 아래와 같다.
$$ L_\infty = max(|x_1|, |x_2|, \cdots, |x_n|) $$
어떻게 연산되고 근사되어 max가 나오는지는 모르겠다
성분 중에 최대값을 의미한다
즉 간간히 등장하는 \(||x-\hat{x}||_\infty \le \epsilon \)의 의미는,
변화값(\( \hat{x} \) 과 \(x\)의 차)이 최대 입실론보다는 작아야 한다는 의미이다
'CS > Deep learning' 카테고리의 다른 글
8. Logistic Regression (0) | 2022.01.03 |
---|---|
7. backpropagation 개념 (0) | 2021.12.24 |
5. Chain Rule (0) | 2021.12.19 |
4. 경사하강법, Gradient Descent (0) | 2021.12.18 |
3. Cost Function (0) | 2021.12.17 |
댓글