스칼라(scalar)를 행렬(matrix)로 미분 하는 방법


지나 글(스칼라(scalar)를 벡터(vector)로 미분 하는 방법) 에서 스칼라를 벡터로 미분하는 방법에 대해 알게되었다. 이번에는 이것을 확장해서 스칼라(scalar)를 행렬(matrix)로 미분 하는 방법에 대해 알아보자. 이 방법은 [1]에 잘 나와있어서 이것을 정리하였다.

스칼라에서 행렬로 가는 함수 미분

$f: \mathbf{R}^n \times \mathbf{R}^m \to \mathbf{R}$함수를 생각하자. 이 함수의 입력값은 $n \times m$ 크기를 갖는 행렬이다. 행렬 $X$에 대한 미분은 기호로는 $\frac{ \partial f}{\partial X}$로 표현하고 $n \times m$크기의 행렬이 나온다. $\frac{ \partial f}{\partial X}$의 각각의 원소는 아래와 같이 구할 수 있다.

$$\frac{ \partial f}{\partial X}_{ij} = \frac{ \partial f}{\partial X_{ij}}$$

[1] 혁펜하임 “[딥러닝] 5-2강. 벡터를 벡터로 미분 & 스칼라를 행렬로 미분,” YouTube, Apr. 20, 2020 [Video file]. [Accessed: Jul. 15, 2022].

Leave a Comment