Обчисліть невизначеність ухилу лінійної регресії на основі невизначеності даних

Як обчислити невизначеність ухилу лінійної регресії на основі невизначеності даних (можливо, в Excel / Mathematica)?

Приклад: Приклад сюжету Маємо точки даних (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16), але кожне значення y має невизначеність 4. Більшість функцій, які я знайшов, обчислили б невизначеність як 0, оскільки точки ідеально відповідають функції y = 2x. Але, як показано на малюнку, y = x / 2 також відповідають точкам. Це перебільшений приклад, але я сподіваюся, що він показує, що мені потрібно.

EDIT: Якщо я спробую пояснити трохи більше, хоча кожна точка прикладу має певне значення y, ми робимо вигляд, що не знаємо, чи це правда. Наприклад, перша точка (0,0) насправді може бути (0,6) або (0, -6) або будь-що між ними. Я запитую, чи є алгоритм у будь-якій популярній проблемі, яка враховує це. У прикладі точки (0,6), (1,6,5), (2,7), (3,7,5), (4,8), ... (8, 10) все ще потрапляють у діапазон невизначеності, тому вони можуть бути правильними точками, і пряма, яка з'єднує ці точки, має рівняння: y = x / 2 + 6, тоді як рівняння, яке ми отримуємо з нерозрахунку невизначеностей, має рівняння: y = 2x + 0. Отже, невизначеність k дорівнює 1,5, а n - 6.

TL; DR: На малюнку є лінія y = 2x, яка обчислюється, використовуючи найменший квадратний розмір, і вона ідеально підходить до даних. Я намагаюся знайти, скільки можуть змінюватися k і n у y = kx + n, але все-таки підходять до даних, якщо ми знаємо невизначеність значень y. У моєму прикладі невизначеність k дорівнює 1,5, а в n - 6. На зображенні є "найкраща" лінія підгонки та лінія, яка ледь підходить до точок.

regression uncertainty

— беданець
джерело

Якщо у вас є невизначеність у ваших , ти, як правило, не повинен використовувати звичайну лінійну регресію, тому що вона упереджена (хоча невеликі невизначеності призведуть до невеликих упереджень; можливо, тебе це так не хвилює). Чи завжди незрозумілість у вашому y завжди постійна чи вони змінюються? Як ви підганяєте свою лінію?

x

$x$

— Glen_b -Встановити Моніку

Я в основному запитую про невизначеність у році. Але я був би радий, якщо рішення також врахує невизначеність і в x-х. Як правило, вони не є постійними, але рішення, яке вимагає, щоб вони були постійними, було б добре, я також спробував підлаштовуватися з linearfit, fit, findfit у математиці та linest (і спеціальна функція, за якою я виявила, що значення ваг за невизначеностями) у відмінник

— bedanec

Чи можете ви пояснити якомога чіткіше, як значення "невизначеності" були б пов'язані з тим, що сталося під час повтору експерименту? тобто що саме представляють ці невизначеності?

— Glen_b -Встановити Моніку

Помилка, наприклад, якщо y - вага, але цифрова шкала точна лише до + -6. (Не найкращий приклад з цими значеннями, але, наприклад, коли масштаб показує 255 г, це може бути 255,0 або 255,9)

— bedanec

Чи можете ви пояснити, як це стосується першого речення мого запитання?

— Glen_b -Встановіть Моніку

Відповіді:

Відповідаючи на "Я намагаюся знайти, скільки і в можуть змінитися, але все-таки підходять до даних, якщо ми знаємо невизначеність значень ". $k$ $n$ $y = k x + n$ $y$

Якщо справжнє ставлення є лінійним і похибки в є незалежними нормальними випадковими змінними з нульовим середнім і відомі стандартні відхилення , то довірча область для% є еліпсом , для яких , де - це стандартне відхилення помилки в , - кількість пар , і - верхня фракція розподілу chi-квадрата з ступенями свободи. $y$ $100(1-\alpha)$ $(k,n)$ $\sum (k x_i + n - y_i)^2/\sigma_i^2 < \chi_{d,\alpha}^2$ $\sigma_i$ $y_i$ $d$ $(x,y)$ $\chi_{d,\alpha}^2$ $\alpha$ $d$

EDIT - Прийняття стандартної похибки кожного дорівнює 3 - тобто взяття помилок на представляти приблизні 95% довірчі інтервали для кожного окремо - рівняння для межі 95% довірчої області для дорівнює . $y_i$ $y_i$ $(k,n)$ $204 (k-2)^2 + 72n(k-2) + 9n^2 = 152.271$

введіть тут опис зображення

— Рей Купман
джерело

Я робив наївну пряму вибірку за допомогою цього простого коду в Python:

import random
import numpy as np
import pylab
def uncreg(x, y, xu, yu, N=100000):
    out = np.zeros((N, 2))
    for n in xrange(N):
        tx = [s+random.uniform(-xu, xu) for s in x]
        ty = [s+random.uniform(-yu, yu) for s in y]
        a, b = np.linalg.lstsq(np.vstack([tx, np.ones(len(x))]).T, ty)[0]
        out[n, 0:2] = [a, b]
    return out
if __name__ == "__main__":
    P = uncreg(np.arange(0, 8.01), np.arange(0, 16.01, 2), 0.1, 6.)
    H, xedges, yedges = np.histogram2d(P[:, 0], P[:, 1], bins=(50, 50))
    pylab.imshow(H, interpolation='nearest', origin='low', aspect='auto',
                 extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]])

і отримав це: Гістограма результатів прямого відбору проб

Звичайно, ви можете здати потрібні Pдані або змінити розподіли невизначеності.

— Е.Мроз
джерело

Раніше я був на одному полюванні і думаю, що це може бути корисним місцем для початку. Макрофункція excel дає лінійні терміни придатності та їх невизначеності на основі табличних точок та невизначеності для кожної точки в обох ординатах. Можливо, знайдіть папір, на якій ґрунтується, щоб вирішити, чи хочете ви реалізувати його в іншому середовищі, змінити і т. Д. (Для Mathematica зроблено певну роботу). Начебто, вона має гарну документацію про проходження на поверхні, але притулок Я не відкрив макрос, щоб побачити, наскільки він добре позначений.

— співчутливий гість
джерело