Чи реально ми виконуємо багатоваріантний регресійний аналіз з коефіцієнтами * мільйона * / незалежними змінними?


18

Я витрачаю деякий час на вивчення машинного навчання (вибачте за рекурсію :), і мені не вдалося заінтригувати правилом вибору градієнтного спуску над рішенням прямого рівняння для обчислення коефіцієнтів регресії, у випадку багатовимірної лінійної регресії.

Правило: якщо кількість функцій (коефіцієнти зчитування / незалежні змінні) становить від або вище мільйона, перейдіть за допомогою Gradient Descent, в іншому випадку обчислення матриці можна легко керувати на товарному обладнання та, таким чином, обчислення коефіцієнтів безпосередньо повинно працювати досить добре .10,000-1,000,000

Якщо говорити комп'ютерно, я отримую компроміси / обмеження. Але зі статистичної точки зору ми справді обчислюємо моделі з такою кількістю коефіцієнтів? Якщо я пам’ятаю свої багатофакторні лінійні регресійні класи в школі, нас застерігали від використання занадто багатьох незалежних змінних, оскільки вони можуть мати дуже незначний вплив на залежну змінну або їх розподіл не підпорядковується припущенням, які ми робимо щодо даних. Навіть якби я розширив свою думку, щоб подумати про "багато IV", я все одно не міг би подумати мільйони .

Питання:

  • Це справді трапляється чи це теоретичне питання?
  • Який сенс аналізу мільйона IV? Чи насправді це дає нам таке збільшення цінності отриманої інформації на відміну від їх ігнорування?
  • Або це тому, що спочатку ми не маємо уявлення, що корисно, тому ми просто запускаємо прокляту регресію, щоб побачити, що корисно, і піти звідти і, можливо, підрізати набір IV?

Я все ще вірю лише тому, що ми можемо проаналізувати "все" - це насправді не означає, що ми повинні кинути його на вирішення (або це робиться), і деякі мої минулі запитання відображають подібні ПОВ.

Я ще закінчую курс, і, можливо, я буду задавати питання найближчим часом, але я просто не можу зрозуміти це "Чому" з голови і намагаюся зрозуміти це якнайкраще.

Відповіді:


14

Це справді трапляється чи це теоретичне питання?

Буває, дивіться будь-яку популярну модель поглиблення комп'ютерного зору. Скажімо, alexnet має щільний зв'язок між 2048 та 2048 одиницями, це 4 мільйони коефіцієнтів.

Який сенс аналізу мільйона IV? Чи насправді це дає нам таке збільшення цінності отриманої інформації на відміну від їх ігнорування?

Якщо ви аналізуєте високо категоричні дані (скажімо, дані Інтернет-реклами ), ваша модель повинна зберігати деякі значущі "описи" для кожної категорії (наприклад, місто, ідентифікатор сторінки, назва сайту, ідентифікатор реклами, ідентифікатор користувача тощо), фактичний розмір 'опису' залежить від обраної моделі ML.

Навіть проста логістична регресія матиме десятки тисяч параметрів (один на категорію). Більш досконалі моделі, такі як машини для факторизації, матимуть в рази більше.

Або це тому, що спочатку ми не маємо уявлення, що корисно, тому ми просто запускаємо прокляту регресію, щоб побачити, що корисно, і піти звідти і, можливо, підрізати набір IV?

Насправді більшість пристосованих параметрів у цих моделях можна скинути, але ви цього не можете знати заздалегідь, тому ви залишаєте проблему визначення того, які параметри важливі для машинного навчання, і накладаєте деякі регуляризації, щоб встановити "м'який ліміт" на ефективне число параметрів для зупинки.

... і я думаю, що ви знайдете такі приклади пізніше у своєму курсі ML.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.