Я витрачаю деякий час на вивчення машинного навчання (вибачте за рекурсію :), і мені не вдалося заінтригувати правилом вибору градієнтного спуску над рішенням прямого рівняння для обчислення коефіцієнтів регресії, у випадку багатовимірної лінійної регресії.
Правило: якщо кількість функцій (коефіцієнти зчитування / незалежні змінні) становить від або вище мільйона, перейдіть за допомогою Gradient Descent, в іншому випадку обчислення матриці можна легко керувати на товарному обладнання та, таким чином, обчислення коефіцієнтів безпосередньо повинно працювати досить добре .
Якщо говорити комп'ютерно, я отримую компроміси / обмеження. Але зі статистичної точки зору ми справді обчислюємо моделі з такою кількістю коефіцієнтів? Якщо я пам’ятаю свої багатофакторні лінійні регресійні класи в школі, нас застерігали від використання занадто багатьох незалежних змінних, оскільки вони можуть мати дуже незначний вплив на залежну змінну або їх розподіл не підпорядковується припущенням, які ми робимо щодо даних. Навіть якби я розширив свою думку, щоб подумати про "багато IV", я все одно не міг би подумати мільйони .
Питання:
- Це справді трапляється чи це теоретичне питання?
- Який сенс аналізу мільйона IV? Чи насправді це дає нам таке збільшення цінності отриманої інформації на відміну від їх ігнорування?
- Або це тому, що спочатку ми не маємо уявлення, що корисно, тому ми просто запускаємо прокляту регресію, щоб побачити, що корисно, і піти звідти і, можливо, підрізати набір IV?
Я все ще вірю лише тому, що ми можемо проаналізувати "все" - це насправді не означає, що ми повинні кинути його на вирішення (або це робиться), і деякі мої минулі запитання відображають подібні ПОВ.
Я ще закінчую курс, і, можливо, я буду задавати питання найближчим часом, але я просто не можу зрозуміти це "Чому" з голови і намагаюся зрозуміти це якнайкраще.