Які галузі статистики?


30

У математиці існують такі галузі, як алгебра, аналіз, топологія тощо. У машинному навчанні існує навчання під наглядом, без нагляду та посилення. У межах кожної з цих гілок є більш тонкі гілки, які далі розділяють методи.

У мене виникають проблеми провести паралель зі статистикою. Які будуть основні галузі статистики (і підгалузі)? Ідеальний розділ, ймовірно, неможливий, але все, що краще, ніж велика порожня карта.

Наочні приклади: введіть тут опис зображення введіть тут опис зображення


6
Запропонувати ще одну причину, чому це питання є невідповідним (і чому, можливо, це приміщення невірно): погано зрозуміло, що мета жорсткої теоретичної науки (як математика) полягає в узагальненні, а не в спеціалізації . Отже, якби ми візуалізували траєкторію успішного дослідження поля, ми не побачили б це як би розгалуження на більш дрібні, більш вишукані гілки, а скоріше лінзу, яка постійно розширюється на більш абстрактні поняття та думки.
AdamO

@Rob Hyndman відповідь все ще здається мені нахилююся. Я дуже скептично ставлюсь до будь-якої класифікації. Крім того, це так само добре місце, як і будь-яке, щоб позначити, що список тем, які трапляються комусь, далеко не відповідає класифікації на основі дерев. І хоча дендрограми або представлення для стрибки волосся м'яко інтригують, яке реальне використання чи інтерес вони служать поза демонстрацією багатогранності поля?
Нік Кокс

Відповіді:


52

Я вважаю ці класифікаційні системи вкрай непомітними та суперечливими. Наприклад:

  • нейронні мережі - це форма керованого навчання
  • Обчислення використовується в диференційній геометрії
  • Теорія ймовірностей може бути формалізована як частина теорії множин

і так далі. Немає однозначних "галузей" математики, а також статистики не повинно бути.


11
"нейронні мережі - це форма керованого навчання". Це теж не зовсім вірно, чи не так? Я маю на увазі, можна використовувати (і не використовувати) NNs у навчанні під керівництвом, у непідконтрольному навчанні та навіть у навчанні підкріплення! Принаймні, концепція нейронних мереж (це просто величезна нелінійна функція, яка може бути оптимізована за допомогою різних методів оптимізації, серед яких SL, UL та RL). Але, можливо, термінологія використовується просто так, як ви її використовуєте, в цьому випадку .. будь-хто може мати рацію.
BlueRine S

7
Звичайно, правди немає, але це не дуже корисно. Чи є модель, яка задовольняє потреби ОП?
Джей Шилер Раадт

3
Роб має рацію. Дерева рішень використовуються в регресії, а AdaBoost - метод класифікації, але карта не показує цього.
Дзен

4
Зізнаюся, я не дуже розумію цю точку зору. Підручник зі статистикою також повинен певним чином організувати послідовність його глав, а його змістова сторінка відображає цю організацію. Структура сторінки вмісту передає хоча б деяку інформацію про те, як організовані концепції поля, і це робиться набагато обмеженішим способом, ніж це дозволило б візуалізація. Якщо ніхто не має проблем із існуванням сторінок із вмістом підручника, навіть якщо вони не охоплюють складність поля, я не розумію, чому можна було б заперечити візуалізацію, як та, на яку сподівається ОП.
mkt - Відновіть Моніку

4
Підручники не структуровані ієрархічно, вони структуровані лінійно. Пізніше в книзі часто розвиваються зв’язки між ранніми розділами, які показують, що теми, представлені раніше окремо, насправді пов'язані. Для прикладу, мій власний підручник з прогнозування, де ми впроваджуємо динамічні регресійні моделі в наступній главі, що пов'язує регресію та моделі ARIMA, представлені раніше.
Роб Хайндман

29

Це незначний контрапункт на відповідь Роб Хайндман. Це почалося як коментар, а потім стало занадто складним для одного. Якщо це занадто далеко від вирішення основного питання, я вибачаюся і видаляю його.


Біологія змальовує ієрархічні стосунки ще задовго до першого малюнка Дарвіна (див. Посилання Ніка Кокса за посиланням). Більшість еволюційних взаємозв'язків все ще показані з цим типом милого, чистого, розгалуженого «філогенетичного дерева»:

введіть тут опис зображення Однак ми врешті-решт зрозуміли, що біологія є гіршою, ніж ця. Інколи відбувається генетичний обмін (через схрещування та інші процеси) між окремими видами та генами, присутніми в одній частині дерева, «стрибають» на іншу частину дерева. Горизонтальний перенос генів переміщує гени навколо таким чином, що просте зображення дерева вище є неточним. Однак ми не відмовилися від дерев, а просто створили модифікації цього типу візуалізації:

Те саме, що і на попередньому малюнку, але показано перенесення генів через гілки

Це важче прослідкувати, але це передає більш точну картину реальності.

Інший приклад:

введіть тут опис зображення

Однак ми ніколи не вводимо цих складніших фігур для початку, оскільки їх важко зрозуміти, не розуміючи основних понять. Натомість ми навчаємо основній ідеї простою фігурою, а потім представляємо їм складнішу фігуру та новіші ускладнення до історії.

Будь-яка «карта» статистики подібно була б і неточною, і цінним інструментом навчання. Візуалізація форми ОП пропонує дуже корисні для студентів і не повинні їх ігнорувати лише тому, що вони не в змозі загалом реалізувати реальність. Ми можемо додати більше складності картині, коли вони матимуть базові рамки.


4
FWIW, представлення дерев про відносини між організмами, давно передували Дарвіну. Я додам посилання пізніше.
Нік Кокс


3
Не стільки контрапункт, скільки підтримуючий аргумент: ставить під сумнів дійсність дерев. Принаймні, за допомогою філогенезу ми використовуємо дані для створення такої структури, будь то облік викопностей, експресія генів, будь-що. Без даних ми серйозно запитуємо, хто має повноваження вибирати блоки та стрілки, які поширюють дезінформацію.,
AdamO

2
@AdamO Я не очікую існування єдиної універсальної "карти" статистики. Двоє людей цілком розумно використовувати різні структури та різні набори зв’язків, хоча можна очікувати, що широка структура буде досить міцною (низькі рівні відмінності також виникають між філогенетичними деревами, побудованими з одного і того ж набору даних, хоча на даний момент ми розтягування метафори занадто далеко). Я б сказав, що експертиза (відміняючи поняття авторитету на даний момент) існує серед багатьох людей, які написали підручники загальної статистики або навіть викладали загальну статистику.
mkt - Відновіть Моніку

2
Діаграми мені тут сподобалися досить, щоб підтвердити це, але це не дуже відповідає на питання.
Нік Кокс

24

Ви можете переглянути ключові слова / теги веб-перехресного веб-сайту.


Гілки як мережа

Один із способів зробити це - побудувати його як мережу на основі зв’язків між ключовими словами (як часто вони збігаються в одній публікації).

Коли ви використовуєте цей sql-скрипт для отримання даних про сайт (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Потім ви отримуєте список ключових слів для всіх питань із оцінкою 2 або вище.

Ви можете вивчити цей список, побудувавши щось на зразок наступного:

відносини між тегами

Оновлення: те ж саме з кольором (на основі власних векторів матриці відношень) і без тега самодослідження

відносини між тегами

Ви можете трохи далі очистити цей графік (наприклад, вийняти теги, які не відносяться до статистичних понять, як теги програмного забезпечення; у наведеному вище графіку це вже зроблено для тегу 'r') та покращити візуальне представлення, але я думаю що це зображення вище вже показує гарну вихідну точку.

R-код:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Ієрархічні гілки

Я вважаю, що подібні типи мережевих графіків пов'язані з деякою критикою щодо чисто розгалуженої ієрархічної структури. Якщо вам подобається, я думаю, що ви могли б виконати ієрархічну кластеризацію, щоб змусити її в ієрархічну структуру.

Нижче наводиться приклад такої ієрархічної моделі. Ще потрібно знайти належні назви груп для різних кластерів (але я не думаю, що ця ієрархічна кластеризація є гарним напрямком, тому я залишаю її відкритою).

ієрархічна кластеризація

Вимірювання відстані для кластеризації було встановлено методом проб та помилок (внесення змін, поки кластери не здадуться гарними).

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Автор StackExchangeStrike


2
Можливо, я докладу певної роботи, щоб зробити графіки більш акуратними. Можливо, було б добре мати кілька чітких графіків, які відображають теми на цьому веб-сайті.
Секст Емпірік

1
Це чудовий підхід! Чудово зроблено.
Андрій Бреза

У вашому кольоровому графіку три великі області - це ймовірність, регресія та машинне навчання.
Мет Ф.

@MattF. графік насправді трохи проблематичний і більше відповідає частоті використання. Я спробував масштабувати матрицю за частотою (як перехід від коваріаційної матриці на матрицю кореляції), але вона сильно не змінилася. 2D-графік не дуже добре показує структуру, а фізична модель, яка розглядає контури як рядки, розміщує вузли у шестикутній / трикутній формі (що найбільш ефективно).
Секст Емпірік

1
Я б сказав, що в стаковерху це п'ять основних категорій: ймовірність, регресія, машинне навчання, але також тестування гіпотез та часові ряди.
Секст Емпірік

9

Простий спосіб відповісти на ваше запитання - знайти загальні класифікаційні таблиці. Наприклад, класифікація предметів математики 2010 року в деяких публікаціях використовується для класифікації робіт. Вони є актуальними, оскільки саме так багато авторів класифікують свої праці. введіть тут опис зображення

Існує багато прикладів подібних класифікацій, наприклад , класифікація арксіву або УДК російського міністерства освіти (універсальна десяткова класифікація), яка широко використовується для всіх публікацій та досліджень.

введіть тут опис зображення

Інший приклад - система класифікації JEL Американської економічної асоціації. Доповідь Роб Хандмана " Автоматичне прогнозування часових рядів: пакет прогнозів для R ". Це класифікується як C53, C22, C52 згідно JEL. Хайндман має сенс, хоча критикує класифікації дерев. Кращим підходом може бути тег, наприклад, ключові слова в його статті: "Моделі ARIMA, автоматичне прогнозування, експоненціальне згладжування, інтервали прогнозування, моделі простору стану, часові ряди, Р." Можна стверджувати, що це кращий спосіб класифікувати документи, оскільки вони не є ієрархічними та можуть бути побудовані кілька ієрархій.

@whuber зауважив, що деякі новітні досягнення, такі як машинне навчання, не будуть за статистикою в нинішніх класифікаціях. Наприклад, подивіться на статтю " Глибоке навчання: вступ для прикладних математиків " Кетрін Ф. Хігхем, Десмонд Дж. Хігхем. Вони класифікували свої статті під вищезгаданим MSC як 97R40, 68T01, 65K10, 62M45. Додатково до статистики вони знаходяться під інформатикою, математикою та числовим аналізом


3
Я думаю, було б точніше сказати, що саме так багато авторів просять класифікувати свої статті. Я знаю, що мене ніколи не влаштовують, коли мене просять використовувати такі апріорні категорії для своєї роботи.
Олексій

6
Це хороша основа для визначення галузей математичної статистики. Знання, що допомагає нам виявити те, що залишилось, що включає багато частин машинного навчання. Дійсно, можна справедливо охарактеризувати класифікацію предметів математики 2010 року як опис "статистики на 1950 рік", а потім запустити все, що з’явилося пізніше, наприклад, геостатистику, геноміку, завантажувальний процес тощо (деякі з яких можуть підпадати під ті старі категорії, можливо).
whuber

4

Одним із способів наблизитись до проблеми є перегляд мереж цитування та співавторства у журналах статистики, таких як "Аналітики статистики", "Біометріка", "JASA" та "JRSS-B". Це було зроблено:

Ji, P., & Jin, J. (2016). Співавторство та мережі цитування для статистиків. Аннали прикладної статистики, 10 (4), 1779-1812.

Вони ідентифікували спільноти статистиків і використовували своє розуміння домену для позначення спільнот як:

  • Високомірний аналіз даних (HDDA-Coau-A)
  • Теоретичне машинне навчання
  • Зменшення розмірів
  • Джонс Хопкінс
  • Герцог
  • Стенфорд
  • Квантильна регресія
  • Експериментальний дизайн
  • Об'єктивний Байєс
  • Біостатистика
  • Високомірний аналіз даних (HDDA-Coau-B)
  • Багаторазове багаторазове тестування
  • Вибір змінних
  • Просторова та напівпараметрична / непараметрична статистика

Документ включає детальне обговорення спільнот, а також декомпозицію великих на подальші підгрупи.

Це може не повністю відповісти на це питання, оскільки стосується галузей дослідження статистиків, а не всіх галузей, включаючи ті, які вже не є активними. Сподіваємось, це все-таки корисно. Звичайно, є й інші застереження (такі як лише розгляд цих чотирьох журналів), які обговорюються далі у статті.


2
Я думав зробити це для цього веб-сайту. Визначення "співавторства" як людей, які відповідають на ті самі запитання.
Секст Емпірік

@MartijnWeterings Так, ваша відповідь, схоже, йде в дуже схожому напрямку, як цей підхід!
користувач257566

2

Я бачу багато дивовижних відповідей, і не знаю, як може бути отримана скромна саморобна класифікація, але я не знаю жодної всеосяжної книги всієї статистики, яка б відображала підсумки, і я вважаю, що як @ mkt пишно прокоментував, класифікація навчального поля може бути корисною. Отже, ось мій знімок:

  • описова статистика
    • простий умовивід
      • просте тестування гіпотез
    • побудова графіків / візуалізація даних
  • дизайн вибірки
    • експериментальний дизайн
    • оглядовий дизайн
  • багатоваріантна статистика (без нагляду)
    • кластеризація
    • компонентний аналіз
    • моделі прихованих змінних
  • лінійні моделі (які фактично є також багатоваріантними)
    • звичайні найменші квадрати
    • узагальнені лінійні моделі
      • модель Logit
    • інші лінійні моделі
      • Модель Кокса
      • квантильна регресія
    • багатовимірний умовивід
      • тестування множинних гіпотез
      • тестування коригуваної гіпотези
    • моделі структурованих даних
      • моделі змішаних ефектів
      • просторові моделі
      • моделі часових рядів
    • нелінійні розширення
      • узагальнені моделі добавок
  • байєсівська статистика (насправді байєсівські методи існують для багатьох речей, які я вже перераховував)
  • непараметрична регресія та класифікація
    • тут підходять багато методів машинного навчання

Звичайно, це надмірно просто, це має на увазі лише зрозуміти якусь ідею тому, хто ледве знає поле, кожен з нас тут, безперечно, знає, що існує багато методів між категоріями тут, багато інших я не робив ' t список тому, що вони менш відомі або тому, що я просто забув. Сподіваюся, вам сподобається.


1

Один із способів організувати цю інформацію - знайти хорошу книгу та переглянути зміст. Це парадокс, тому що ви спеціально запитували про статистику , тоді як більшість вступних текстів випускників на цю тему - це спільна статистика та теорія ймовірностей . Книга, яку я читаю на тему регресії, має такий ТОС:

  • Часті умовиводи
  • Байєсівські умовиводи
  • Тестування гіпотез та змінний вибір
  • Лінійні моделі
  • Загальні регресійні моделі
  • Моделі бінарних даних

  • Загальні регресійні моделі

  • Передумови для непараметричної регресії [попередник до ...]
  • Методи сплайну та ядра
  • Непараметрична регресія з декількома предикторами

(Решта розділів підтримують математику та теорію ймовірностей)

  • Диференціація матричних виразів
  • Результати матриці
  • Деяка лінійна алгебра
  • Розподіл ймовірностей та генеруючі функції
  • Функції нормальних випадкових змінних
  • Деякі результати класичної статистики
  • Основна теорія великого зразка

2
Можна було б розглянути таку книгу , щоб передати частину з однієї галузі в дисциплінах. Якщо це не енциклопедичне обстеження всієї статистики, однак, його заголовки навряд чи можна вважати основними галузями галузі!
whuber

3
@whuber погодився. Я обережно зазначив, що книга про регресію, і що я не вважаю жодну книгу на тему "статистики" достатньо загальною або на відповідному рівні, щоб статистик вважав викладені теми достатніми. Цей конкретний приклад є з тексту Уейкфілда і є надзвичайно загальним трактуванням (Т-тест з нерівномірною оцінкою дисперсійності обговорюється в контексті лінійної регресії, наприклад, з двійковою коваріантною та надійною оцінкою помилок).
АдамО
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.