У чому значення власних векторів взаємної інформаційної матриці?


14

Дивлячись на власні вектори матриці коваріації, ми отримуємо напрями максимальної дисперсії (перший власний вектор - це напрямок, у якому дані найбільше змінюються тощо); це називається основним компонентним аналізом (PCA).

Мені було цікаво, що значить би дивитись на власні вектори / значення матриці взаємної інформації, чи вказували б вони у напрямку максимальної ентропії?


4
Я не знаю, але щойно я дізнався, що матриці взаємної інформації не завжди є напіввизначеними позитивними: arxiv.org/abs/1307.6673 .
Амеба каже: Відновити Моніку

3
Це нагадує те, над чим ми працювали: people.eng.unimelb.edu.au/baileyj/papers/frp0038-Vinh.pdf
Симоне

Відповіді:


3

Хоча це не пряма відповідь (оскільки йдеться про точкове взаємна інформація), подивіться на папір, що стосується word2vec до розкладання сингулярного значення матриці PMI:

Ми аналізуємо пропускний грам з негативною вибіркою (SGNS), методом вбудовування слів, запровадженим Міколовим та ін., І показуємо, що він неявно факторизує слово-контекстну матрицю, осередки якої є точково взаємною інформацією (PMI) відповідної інформації пари слів і контексту, зміщені глобальною константою. Ми виявляємо, що інший метод вбудовування, NCE, неявно факторизує аналогічну матрицю, де кожна комірка - це умовна ймовірність слова (зміщеного) журналу з урахуванням його контексту. Ми показуємо, що використання розрізненої зміщеної позитивної матриці слів із контекстним словом PMI для представлення слів покращує результати двох завдань схожості на слова та однієї з двох задач аналогії. Якщо переважні щільні низькомірні вектори, точна факторизація за допомогою SVD може досягти рішень, що є принаймні настільки ж хорошими, як рішення SGNS для задач схожості слів. З питань аналогії SGNS залишається кращим за SVD. Ми гадаємо, що це випливає із зваженого характеру факторизації SGNS.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.