Виведення негентропії. Застрягаючи


13

Отже, це питання дещо пов'язане, але я наполегливо намагався зробити це максимально відвертим.

Мета: Коротше кажучи, існує виведення негентропії, яка не передбачає кумулянтів вищого порядку, і я намагаюся зрозуміти, як це було отримано.

Довідка: (я все це розумію)

Я самостійно вивчаю книгу «Незалежний аналіз компонентів» , яку знайшов тут. (Це питання знаходиться у розділі 5.6, якщо у вас є книга - «Наближення ентропії за допомогою неполіноміальних функцій»).

Ми маємо , яка є випадковою величиною, і чия негентропії ми хочемо оцінити, з деяких спостережень ми маємо. PDF з x задається p x ( ζ ) . Негентропія - це просто різниця між диференційною ентропією стандартизованої гауссової випадкової величини та диференціальною ентропією x . Диференціальна ентропія тут задана Н таким, що:xxpx(ζ)xH

H(x)=px(ζ)log(px(ζ))dζ

і так, негентропія задана

J(x)=H(v)H(x)

де - стандартизований гауссовий rv, з PDF, заданим ϕ ( ζ ) .vϕ(ζ)

Тепер, як частина цього нового методу, моя книга отримала оцінку PDF-файлу , задану:x

px(ζ)=ϕ(ζ)[1+iciFi(ζ)]

(Де . До речі, i - це не потужність, а натомість індекс).ci=E{Fi(x)}i

Наразі я “приймаю” цю нову формулу PDF і попрошу про неї ще день. Це не моє головне питання. Що він зараз робить, - це вставити цю версію PDF-файлу назад в рівняння negentropy і закінчується наступним:x

J(x)12iE{Fi(x)}2

Майте на увазі, сигма (тут і для решти посади) просто петлі навколо індексу . Наприклад, якби ми мали лише дві функції, сигнал би циклічно для i = 2 і i = 2 . Звичайно, я повинен розповісти вам про ті функції, якими він користується. Отже, мабуть, ці функції F i визначаються таким чином:ii=2i=2Fi

Функції не є поліноміальними функціями в цьому випадку. (Будемо вважати, що rv x - нульове середнє значення та дисперсія одиниці). Тепер зробимо деякі обмеження та надамо властивості цих функцій:Fix

Fn+1(ζ)=ζ,cn+1=0

Fn+2(ζ)=ζ2,cn+1=1

Для спрощення розрахунків, давайте зробимо ще один, чисто технічне припущення: Функції , сформуйте ортонормальну систему як таку:Fi,i=1,...n

ϕ(ζ)Fi(ζ)Fj(ζ)dζ={1,if i=j0,if ij

і

ϕ(ζ)Fi(ζ)ζkd(ζ)=0,for k=0,1,2

Майже там! Гаразд, так що все було на заднім плані, а тепер до питання. Завдання полягає в тому, щоб просто розмістити цей новий PDF у формулу диференціальної ентропії, . Якщо я це зрозумію, я зрозумію решту. Тепер книга дає виведення (і я з цим погоджуюся), але я застряг до кінця, бо не знаю / не бачу, як це скасовується. Крім того, я не знаю, як інтерпретувати малі позначення від розширення Тейлора.H(x)

Це результат:

Використовуючи розширення Тейлора , для H ( x ) отримуємо:(1+ϵ)log(1+ϵ)=ϵ+ϵ22+o(ϵ2)H(x)

H(x)=ϕ(ζ)(1+ciFi(ζ))(log(1+ciFi(ζ)+log(ζ))d(ζ)=ϕ(ζ)log(ζ)ϕ(ζ)ciFi(ζ)log(ϕ(ζ))ϕ(ζ)[ciFi(ζ)+12(ciFi(ζ))2+o((ciFi(ζ))2)]

і так

Питання: (я цього не розумію)

H(x)=H(v)0012ci2+o((ci)2

Отже, моя проблема: За винятком , я не розумію, як він отримав останні 4 умови в останньому рівнянні. (тобто 0, 0 і останні два доданки). Я все розумію до цього. Він каже, що він використав відносини ортогональності, наведені у властивостях вище, але я не розумію, як. (Я також не розумію тут малого позначення, в сенсі того, як воно використовується?)H(v)

СПАСИБІ!!!!

Редагувати:

Я пішов вперед і додав образи з книги, яку я читаю, вона в значній мірі говорить те, що я говорив вище, але на всякий випадок, коли комусь потрібен додатковий контекст.

введіть тут опис зображення введіть тут опис зображення введіть тут опис зображення

І тут, позначений червоним кольором, є саме та частина, яка мене бентежить. Як він використовує властивості ортогональності, щоб отримати останню частину, де речі скасовуються, і остаточні підсумки, що включають ci2


1
Підказка : Випишіть явно і використовуйте висловлені припущення автора, щоб отримати нулі для двох середніх доданків. У блок-цитаті повинно бути кілька помилок; наприклад, з'являється в неправильному місці у визначенні ортонормальної основи, яке ви даєте. logϕ(x)
кардинал

@cardinal Ок, виправив друкарську помилку, дякую. Попри це, мені незрозуміло, як він виконує скасування. Я додав фактичні зображення btw із самої книги.
Спейсі

2
Чесно кажучи, я навіть не маю уявлення, як і чому це мігрувало з математичного сайту. У будь-якому разі, я щасливий, що він є тут, де однаково вдома. Ви доклали багато зусиль до питання. :-)
кардинал

2
@cardinal Мені дуже приємно почути, як ти це кажеш. :-) Так, сподіваємось, ця інвестиція в самостійне навчання окупиться колись. ;-)
Spacey

2
Буде, @Mohammad, так і буде! ICA також дуже цікава тема :-).
Нестор

Відповіді:


9

ci

ci=p0(ξ)Gi(ξ)dξ.
ξξci

>> Для отримання нульових доданків:

φ(ξ)=exp(ξ2/2)/2πlogφ(ξ)

logφ(ξ)=ξ2/2log2π.
ciφ(ξ)Gi(ξ)logφ(ξ)=12ciφ(ξ)Gi(ξ)ξ2log2πciφ(ξ)Gi(ξ),   (1)

Звідси зауважимо, що в (5.39) зазначено, що φ(ξ)Fi(ξ)ξk0k=0,1,2(1)k=2k=0

ci2

Зауважимо, що інтеграл, який слід отримати для отримання цих доданків, є:

φ(ξ)(i=1nciGi(ξ))2dξ.
φ(ξ)k1+k2+...kn=22!k1!k2!...kn!1tn(ctGt(ξ))ktdξ.
φ(ξ)Gi(ξ)Gj(ξ)dξ
iji=j
φ(ξ)(ciGi(ξ))2dξ=ci2.

o(whatever)

Я думаю, що це досить заплутано від авторів, але я пам'ятаю, що вони використовують це лише для того, щоб означати, що існують умови порядку whatevero(whatever) цій статті Вікіпедії .

PS: До речі, це чудова книга. Роботи авторів на цю тему також дуже хороші і обов'язково читаються, якщо ви намагаєтесь зрозуміти та реалізувати ICA.


1
(+1) Гарна відповідь. Якщо суми нескінченні, ми повинні бути більш уважними щодо їх обміну інтегралом. Якщо вони кінцеві (як підказує ОП, але я не переглядав зображення уважно), то все прямо, як ви показали. :-)
кардинал

ci2

1
@cardinal: О так! Вони кінцеві (я не знаю, чому я написав їх там, де нескінченно ...). Я змінив це на свою відповідь.
Нестор

@Mohammad, я пишу на свої відповіді ваші інші два питання ;-).
Нестор

1
@ Нестор, +1 на цю відповідь, але повторно: ваш останній коментар, я думаю, що існує різниця між big-O та нотацією little-o .
Макрос
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.