Існує тонке, але сильне зловживання позначенням, яке робить багато кроків заплутаними. Давайте розглянемо це питання, повернувшись до визначень матричного множення, транспозиції, слідів та похідних. Для тих, хто бажає опустити пояснення, просто перейдіть до останнього розділу "Зробити все разом", щоб побачити, наскільки коротка і проста сувора демонстрація може бути.
Позначення та поняття
Розміри
Для виразу має сенс, коли - матриця , має бути (квадрат) матрицею, а має бути матрицею, звідки добуток є матриця . Для того, щоб взяти слід (який є сумою діагональних елементів, ім'я ), тоді , склавши квадратною матрицею.A m × n B n × nА Б А'САm × nБn × nm × p m × p Tr ( X ) = ∑ i X i i p = m CСm × pm × pТр( X) = ∑iХя iр = мС
Похідні
Позначення « » з'являється для позначення похідної виразу по відношенню до . Як правило, диференціація операція , яка виконується на функції . Похідною в точці є лінійним перетворенням . Вибираючи бази для цих векторних просторів, таке перетворення можна представити як матрицю Тут не так! A f : R N → R M x ∈ R N D f ( x ) : R N → R M M × N∇ААf: RN→ RМx ∈ RNД ф( х ) : RN→ RММ× N
Матриці як вектори
Натомість розглядається як елемент : його коефіцієнти розкручуються (як правило, рядком за рядком або стовпцем за стовпцем) у вектор довжиною . Функція має реальні значення, звідки . Отже, має бути матрицею : це рядковий вектор, що представляє лінійну форму на . Однак, обчислення у запитанні використовують інший спосіб подання лінійних форм: їх коефіцієнти згортаються в матриць.R m n N = m n f ( A ) = Tr ( A B A ′ C ) M = 1 D f ( x ) 1 × m n R m n m × nАRм нN= m nf( A ) = Tr(ABA′C)M=1Df(x)1×mnRmnm×n
Слід як лінійна форма
Нехай - константа матриці . Потім, за визначенням сліду та множення матриці,m × nωm×n
Tr(Aω′)=∑i=1m(Aω′)ii=∑i=1m(∑j=1nAij(ω′)ji)=∑i,jωijAij
Це виражає найбільш загальну можливу лінійну комбінацію коефіцієнтів : - це матриця тієї ж форми, що і а її коефіцієнт у рядку а стовпець - коефіцієнт у лінійній комбінації. Оскільки , ролі та можуть змінюватися, надаючи еквівалентний виразω A i j A i j ω i j A i j = A i j ω i j ω AAωAijAijωijAij=AijωijωA
∑i,jωijAij=Tr(Aω′)=Tr(ωA′).(1)
Ідентифікуючи постійну матрицю з будь-якою з функцій або , ми можемо представляти лінійну утворює на просторі матриць як матриць. (Не плутайте їх із похідними функцій від до !)A → Tr ( A ω ′ ) A → Tr ( ω A ′ ) m × n m × n R n R mωA→Tr(Aω′)A→Tr(ωA′)m×nm×nRnRm
Обчислення похідних
Визначення
Похідні багатьох матричних функцій, що зустрічаються в статистиці, найлегше і надійно обчислюються з визначення: вам не потрібно дійсно вдаватися до складних правил диференціації матриць. Це визначення говорить, що є диференційованим при якщо і лише тоді, коли є лінійне перетворення таке, щоx LfxL
f(x+h)−f(x)=Lh+o(|h|)
при як завгодно малих переміщень . Позначення мало-о означає, що помилка, допущена при наближенні різниці , довільно менша, ніж розмір для досить малих . Зокрема, ми завжди можемо ігнорувати помилки, пропорційні . f ( x + h ) - f ( x ) L h h h | ч | 2h∈RNf(x+h)−f(x)Lhhh|h|2
Розрахунок
Давайте застосуємо визначення до розглядуваної функції. Помножуючи, розширюючи та ігноруючи цей термін із продуктом двох у ньому,h
f( A + h ) - f( А )= Tr( ( A + h ) B ( A + h )'С) - Тр( А Б А'С)= Tr( год Б А'С) + Тр( А Б год'С) + о ( | год | ) .(2)
Для ідентифікації похідної ми повинні отримати це у формі . Перший член в правій частині є вже в такому вигляді, з . Інший термін праворуч має форму для . Давайте випишемо це:( 1 ) ω = B A ′ C Tr ( X h ′ C ) X = A BL = D f( А )( 1 )ω = B A'СТр( Xгод'С)Х= А Б
Тр( Xгод'С) = ∑i = 1м∑j = 1н∑k = 1мХi jгодk jСk i= ∑i , j , kгодk j( Сk iХi j) =Tr( ( СХ) h') .(3)
Згадуючи , можна переписати( 2 )Х= А Б( 2 )
f( A + h ) - f( A ) = Tr( годБ А'С) + Тр( СА Бгод') + о ( | год | ) .
Саме в цьому сенсі , що ми можемо вважати похідну на , щоб бути тому що ці матриці грають ролі у формулах слідів .A D f ( A ) = ( B A ′ C ) ′ + C A B = C ′ A B ′ + C A B , ω ( 1 )fА
Д ф( А ) = ( В А'С)'+ СA B = C'А Б'+ СA B ,
ω( 1 )
Збираємо це все разом
Ось тоді повне рішення.
Нехай бути матриці, в матриці, а матрицю. Нехай . Нехай - матриця з довільно малими коефіцієнтами. Тому що (за ідентичністю ) є диференційована та її похідна - це лінійна форма, що визначається матрицеюm × n B n × n C m × m f ( A ) = Tr ( A B A ′ C ) h m × n ( 3 ) f ( A + h ) - f ( A ) = Tr ( h B A ′ C ) + Tr ( A B h ′ C )Аm × nБn × nСм × мf( A ) = Tr( А Б А'С)годm × n( 3 )
f( A + h ) - f( А )= Tr( год Б А'С) + Тр( А Б год'С) + о ( | год | )= Tr( год ( С)'А Б')'+ ( СА Б ) год') + о ( | год | ) ,
fС'А Б'+ СБ .
Оскільки це займає лише близько половини роботи і передбачає лише основні маніпуляції з матрицями та слідами (множення та переміщення), це слід вважати простішою - і, можливо, більш виразною - демонстрацією результату. Якщо ви дійсно хочете зрозуміти окремі етапи в оригінальній демонстрації, вам може бути корисним порівняти їх із наведеними тут розрахунками.