Які класичні позначення статистики, лінійної алгебри та машинного навчання? І які зв’язки між цими позначеннями?


26

Коли ми читаємо книгу, розуміння позначень відіграє дуже важливу роль у розумінні змісту. На жаль, різні спільноти мають різні умовні позначення для формулювання моделі та проблеми оптимізації. Чи міг би хтось узагальнити деякі формулювальні позначення тут і навести можливі причини?

Я наведу приклад тут: У літературі лінійної алгебри класичною книгою є вступ Странга до лінійної алгебри . Найбільш використовувані позначення в книзі

Ax=b

Де A - матриця коефіцієнтів , x - розв'язувані змінні, а b - вектор правої частини рівняння . Причина книга вибрати це позначення є основним завданням лінійної алгебри є рішення лінійної системи і з'ясувати , що вектор x . Враховуючи таку формулювання, проблема оптимізації OLS є

minimizex  Axb2

У статистиці або машинному навчанні грамотних (з книги « Елементи статистичного навчання» ) люди використовують різні позначення, щоб представляти одне і те ж:

Xβ=y

Де - матриця даних , - коефіцієнти або ваги, які слід вивчити , y - відповідь. У Причина люди використовують це тому , що люди в статистиці або машинного навчання спільноти керованих даними , тому дані і реакція найбільш цікава річ для них, де вони використовують X і Y представляють.XβyуXy

Тепер ми можемо побачити, що все можливе плутанина може бути там: A в першому рівнянні такий же, як і X у другому рівнянні. А у другому рівнянні X не потрібно щось вирішувати. Також для термінів: A - матриця коефіцієнтів у лінійній алгебрі, але це дані в статистиці. β також називають "коефіцієнтами".

Крім того, я згадав, що Xβ=y не є саме тим, що люди широко застосовують у машинному навчанні, люди використовують напіввекторизовану версію, яка підсумовує всі точки даних. Як от

miniL(yi,f(xi))

Я думаю, що причина цього в тому, що це добре, коли говорити про стохастичний градієнтний спуск та інші різні функції втрат. Також стислі позначення матриці зникають для інших задач, ніж лінійна регресія.

Матричне позначення для логістичної регресії

Чи може хтось дати більше резюме на позначеннях, що перетинають різну літературу? Я сподіваюся, що розумні відповіді на це питання можуть бути використані як хороший орієнтир для людей, які читають книги, що перетинають різну літературу.

будь ласка, не обмежуйтеся моїм прикладом і . Є багато інших. Як отAx=bXβ=y

Чому існує дві різні логістичні формулювання втрат / позначень?


5
Позначення насправді не існує як якась істина, що перевіряється зовні. Це мова, тому вона за своєю суттю контекстуальна і готова до перегляду. Якщо я пишу x * b і кажу, що це означає, що матриця x крапка вектора продукту b, це просто є, виділений жирним шрифтом чи ні.
Sycorax каже, що повернеться до Моніки

3
Я б сказав, що і мають рівнозначні позначення. Просто назви змінних змінилися. Взагалі, ви не знайдете послідовного іменування змінних від паперу до паперу навіть у полі. Ax=bXβ=y
користувач20160

6
На даний момент це 10 оновлень, 150 переглядів; здається, це цінна та корисна нитка. Більше того, він має схвалену відповідь; тому я не думаю, що на нього можна відповісти занадто широким.
gung - Відновіть Моніку

3
Я згоден з @gung, громада явно має певний інтерес до цього питання. Я висунувся на повторне відкриття.
Меттью Друрі

1
Я думаю, що це занадто широко для звичайного q. - але так як це вже CW і дещо популярне, я додав свій голос за повторне відкриття до тих чотирьох, які там були.
Scortchi

Відповіді:


18

Можливо, пов'язане питання: "Які слова вживаються різними мовами, і які зв'язки між цими словами?"

Позначення є певним чином схожим на мову:

  • Деякі слова мають регіональне значення; деякі слова широко розуміються.
  • Як потужні нації поширюють свою мову, успішні галузі та впливові дослідники поширюють своє уявлення.
  • Мова розвивається з часом: мова має поєднання історичного походження та сучасного впливу.

Ваше конкретне запитання ...

  • Я б не погоджувався з вашою твердженням, що вони виконують "абсолютно різні позначення". І і для позначення матриць використовують великі літери. Вони не такі різні.Xβ=yAx=b
  • Машинне навчання дуже пов'язане зі статистикою, великим і зрілим полем. Використання для представлення матриці даних майже напевно є найбільш читаною, найбільш стандартною умовою, яку слід дотримуватися. У той час як є стандартним для вирішення лінійних систем, це НЕ як люди роблять статистику писати нормальні рівняння. Ви спробуєте заплутатися у своїй аудиторії, якщо спробуєте це зробити. Коли в Римі ...XAx=b
  • У певному сенсі суть вашого переглянутого питання полягає в тому, "Які історичні джерела статистики використовують букву для подання даних, а літеру для відображення невідомої змінної, яку слід вирішити?" xβ
    • Це питання до істориків-статистиків! Коротко пошукаючи, я бачу, що впливовий британський статистик та кембриджський академік Удні Юле використовував для представлення даних у своєму Введенні до теорії статистики (1911). Він написав рівняння регресії у вигляді , причому найменші квадрати як мінімізація , і з рішенням . Принаймні, це повертається до того часу ...xx1=a+bx2(x1abx2)2b12=x1x2x22
    • Ще більш впливовий Р. А. Фішер використав для залежної змінної та для незалежної змінної у своїй книзі « Статистичні методи для дослідників 1925 року» . (Підказка на капелюх до @Nick Cox для надання посилання з інформацією.)yx

Гарне позначення - це як гарна мова. Уникайте польового жаргону, коли це можливо. Напишіть у математичному еквіваленті високої англійської мови BBC, мовою, зрозумілою більшості тих, хто говорить англійською. Потрібно, коли це можливо, писати, використовуючи чіткі та зрозумілі позначення.


1
Цей історик-любитель статистики може виправити педантичну корекцію, що Юль ніколи не був професором ... Більш цікаво, що є відповідний веб-сайт на веб-сайті jeff560.tripod.com/stat.html, за винятком того, що він, здається, в даний час не працює.
Нік Кокс

2
math.hawaii.edu/~tom/history/stat.html представляється копією. Систематичні конвенції, такі як грецька для параметрів і римська для змінних, я розумію, значною мірою пов'язані з Р. А. Фішером, але є багато відкладень, наприклад, для вибірки статистики чи-квадрата не показує ознак згасання. χ2
Нік Кокс

@NickCox Фантастичне посилання jeff560.tripod.com/stat.html (для мене ...), яке посилається на Юля та Р. Фішера! Найдавніші математичні джерела регресії, очевидно, відносяться раніше до Гаусса та Лапласа, але в моєму повному аматорському пошуку вони, як видається, використовують різні позначення.
Меттью Ганн

як я пишу, це jeff560.tripod.com/stat.html - оновлення 2014 року; www.math.hawaii.edu/~tom/history/stat.html - це копія версії з 2007 року.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.