Використовуючи регресійну модель для прогнозування: Коли зупинитись?


9

Я розрахував просту модель лінійної регресії з моїх експериментальних заходів, щоб зробити прогнози. Я прочитав, що не слід обчислювати прогнози для балів, які занадто далеко відходять від доступних даних. Однак я не зміг знайти жодного керівництва, яке допоможе мені зрозуміти, наскільки я можу екстраполювати. Наприклад, якщо я обчислюю швидкість читання для розміру диска 50 Гб, я думаю, результат буде близький до реальності. А як щодо розміру диска 100 ГБ, 500 ГБ? Як дізнатися, чи мої прогнози близькі до реальності?

Деталі мого експерименту:

Я вимірюю швидкість читання програмного забезпечення за допомогою різного розміру диска. Поки що я вимірював її від 5 ГБ до 30 ГБ, збільшуючи розмір диска на 5 Гб між експериментами (всього 6 заходів).

Мої результати лінійні, а на мою думку стандартні помилки невеликі.


2
Я думаю, що для отримання корисних відповідей вам потрібно буде значно розширити і уточнити своє 2 речення.
rolando2

rolando2 правильно. Що ви маєте на увазі "занадто багато прогнозів"?
Девід Робінсон

Я не можу знайти точні терміни, які були використані в прочитаному документі. Ідея "занадто далека від моїх первісних заходів". Тому я вимірюю швидкість читання за допомогою 30 ГБ диска. Якщо я передбачую швидкість читання для диска розміром 100 Гб, це "занадто далеко"?
Flanfl

Відповідь Гунга достатня для окреслення питань, що стосуються. ще одна річ, яка може допомогти у вашому конкретному випадку - це врахувати фізичний процес, пов'язаний із читанням програмного забезпечення. Які операції потрібно проводити? чи програмне забезпечення потрібно впорядковувати чи сортувати диск як частину процесу читання? ці питання допоможуть забезпечити деякі основи для припущення про лінійність
ймовірність

Відповіді:


19

Термін, який ви шукаєте, - "екстраполяція". Проблема полягає в тому, що незалежно від того, скільки даних у вас є, і скільки проміжних рівнів у вас між кінцевими точками на розмірі диска (тобто від 5 до 30), завжди можливо, що в справжній базовій функції є деякий ступінь кривизни. , що ви просто не маєте сили виявляти. В результаті, коли ви екстраполюєте далеко від кінцевої точки, те, що було малим ступенем кривизни, збільшується, завдяки чому справжня функція рухається все далі і далі від вашої лінії підгонки. Інша можливість полягає в тому, що справжня функція дійсно ідеально пряма в досліджуваному діапазоні, але можливо, що на деякій відстані від кінцевої точки у вашому дослідженні є точка зміни. Такі речі неможливо виключити; питання в тому, наскільки вони ймовірні і наскільки неточним буде ваш прогноз, якщо вони виявляться справжніми? Я не знаю, як дати аналітичну відповідь на ці запитання. Моя думка, що 500 - це жахливо довгий шлях, коли досліджуваний діапазон був [5, 30], але немає реальної причини вважати, що мої угоди більш варті, ніж ваші. Стандартні формули для обчислення інтервалів прогнозування покажуть вам розширення інтервалу, коли ви віддаляєтесь відх¯, побачивши, як виглядає цей інтервал, може бути корисним. Тим не менш, ви повинні мати на увазі, що ви робите теоретичне припущення, що лінія дійсно ідеально пряма і залишається такою до кінцях-цінність, яку ви будете використовувати для прогнозування Легітимність цього прогнозу залежить від даних і придатності, а також цього припущення.


2
Повністю згоден (+1). Відповідь на це питання не може бути суто статистичним. Розмова з програмним та комп'ютерним інженером була б актуальною тут!
Домінік Комтуа

Дякую за відповідь, це дуже корисно. Я самоучка, тому мені не вистачає досить багато базових знань (як, наприклад, знання словникового запасу).
Flanfl

Чи не може обернення ширини довірчого інтервалу вважати якимось показником "сили" прогнозування? Очевидно, що вам доведеться вибрати деякі довільні значення, щоб використовувати його ..
naught101

2
@ naught101, якщо ви готові припустити, що лінія регресії ідеально пряма, то ширина інтервалу прогнозування може розглядатися як міра сили прогнозування (з / ширшими інтервалами, що вказують на слабші прогнози), але все одно залежно від цього припущення.
gung - Відновіть Моніку

7

Дозвольте додати кілька моментів до відмінної відповіді @ gung:

  • Залежно від вашої галузі, можуть бути відповідні норми (як у DIN / EN або ISO). Мабуть, це не проблема з прогнозуванням швидкості читання на жорсткому диску, але, наприклад, в аналітичній хімії це правило не є екстраполяцією . Період. Якщо ви хочете піти на 500 ГБ, тоді займіться деякими вимірами до 500 ГБ.

  • Звичайний спосіб створення лінійної моделі має два важливих припущення

    • Очевидно, що функція лінійна. На практиці зазвичай не дуже вдале припущення, що лінійність поширюється на нескінченність. Наприклад, ви можете очікувати, що все-таки знайдете лінійність, якщо прочитаєте більшу кількість, ніж об'єм жорсткого диска?

    • Зазвичай також передбачається гомоскедастичність. Це означає, що абсолютна кількість помилок / шуму не залежить від залежного (х) змінна, тут: кількість даних, які слід прочитати. Я не впевнений у читанні жорсткого диска, але я відчуваю (хімія / хіміометрія) зазвичай щось середнє між постійним абсолютним та постійним відносним шумом (або більш складною поведінкою через різні джерела шуму).
      Будь-яке відхилення від постійної абсолютної кількості шумового режиму означатиме, що інтервали прогнозування для екстраполяції грубо неправильні - зазвичай вони будуть занадто вузькими.

  • Навіть якщо ці припущення виконані, подумайте, наскільки насправді інтервал передбачення для такого роду екстраполяції:

    lm діапазон калібрування lm екстраполяція

    (Я взяв деякі реальні дані калібрування дуже приємного вимірювання, які я мав, і адаптував їх до вашої проблеми).
    Зауважимо, що інтервал прогнозування прих= 500 вже вдвічі більша за загальну різницютваші дані калібрування охоплюють! Якщо у вас немає такого надзвичайно приємного лінійного набору даних, інтервал передбачення просто "вибухне".


1
+1, припущення гомоскедастичності, зокрема, є приємним доповненням до дискусії. (Невелика примітка «Дот.», Ви маєте на увазі Період. Як спосіб підкреслити остаточність правила, викладеного в попередньому реченні?)
gung - Відновіть Моніку

@gung: Якщо слово - це слово, тоді я маю на увазі :-) спасибі.
cbeleites незадоволений SX

2
Виклик періоду "крапка" реально використовується лише в комп'ютерній термінології та особливо для URL-адрес (наприклад, "stats dot stackexchange dot com"). Це досить нове використання англійською мовою, можливо, приблизно 20 років.
gung - Відновіть Моніку

1
Дякуємо за додаткові бали Я закінчив свою роботу деякий час тому, але сподіваюся, що обидві відповіді на це питання допоможуть іншим студентам!
Flanfl
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.