Статистика та великі дані

6

Розмір ефекту як гіпотеза для перевірки значимості

Сьогодні у Cross Valified Journal Club (чому ти там не був?) @Mbq запитав: Як ви вважаєте, ми (сучасні вчені даних) знаємо, що означає значення? І як це стосується нашої впевненості в наших результатах? @Michelle відповів, як деякі (включаючи мене) зазвичай: Я вважаю, що концепція значущості (заснована на p-значеннях) все менш …

37 hypothesis-testing p-value large-data

6

Байєсівські та частофілістські інтерпретації ймовірності

Чи може хтось дати добру рентабельність відмінностей між байесівськими та частістськими підходами до ймовірності? З того, що я розумію: Подання часто відвідувачів полягає в тому, що дані є повторюваною випадковою вибіркою (випадковою змінною) із певною частотою / ймовірністю (яка визначається як відносна частота події, оскільки кількість випробувань наближається до нескінченності). …

37 probability bayesian frequentist

10

Які найкорисніші джерела економічних даних?

Проводячи дослідження в галузі економіки, часто потрібно перевіряти теоретичні висновки щодо реальних даних. Які надійні джерела даних використовувати та цитувати? Мене в основному цікавлять джерела, які надають різні статистичні дані, такі як ВВП, кількість населення, ІСЦ, ІЦВ тощо. EDIT: Ось агрегація посилань, що з’являються в цій темі + ще кілька …

37 references

2

Кульбек – Лейблер проти дистанції Колмогоров-Смірнов

Я можу бачити, що між відстаніми мірами Кульбека – Лейблера проти Колмогорова-Смірнова відстані між великими формальними відмінностями. Однак обидва використовуються для вимірювання відстані між розподілами. Чи є типова ситуація, коли одну слід використовувати замість іншої? Що обґрунтовує це?

37 distributions distance-functions kolmogorov-smirnov kullback-leibler

2

Нерівності ймовірності

Я шукаю певні нерівності ймовірності для сум необмежених випадкових величин. Я був би дуже вдячний, якщо хтось може надати мені деякі думки. Моя проблема полягає у знаходженні верхньої межі експоненції над ймовірністю того, що сума необмежених iid випадкових величин, які насправді є множенням двох iid Гауссана, перевищує деяке певне значення, …

37 probability mathematical-statistics probability-inequalities mgf

5

Як візуалізувати / зрозуміти, що робить нейромережа?

Нейронні мережі часто трактуються як «чорні скриньки» через їх складну структуру. Це не ідеально, оскільки часто вигідно зрозуміти, як модель працює всередині країни. Які методи візуалізації роботи тренованої нейронної мережі? Як варіант, як ми можемо отримати легкозасвоювані описи мережі (наприклад, цей прихований вузол в першу чергу працює з цими входами)? …

37 data-visualization neural-networks

3

Інтуїтивне пояснення щільності перетвореної змінної?

Припустимо, XXX - випадкова величина з pdf . Тоді випадкова величина має pdffX(x)fX(x)f_X(x)Y=X2Y=X2Y=X^2 fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Я розумію обчислення, що стоїть за цим. Але я намагаюся придумати спосіб пояснити це тому, хто не знає обчислення. Зокрема, я намагаюся пояснити, чому фактор 1y√1y\frac{1}{\sqrt{y}} …

37 random-variable pdf intuition

5

Яке призначення характерних функцій?

Я сподіваюся, що хтось може пояснити, мирянською мовою, що таке характерна функція та як вона використовується на практиці. Я читав, що це перетворення Фур'є у форматі pdf, тому, мабуть, я знаю, що це таке, але все ще не розумію його призначення. Якби хтось міг надати інтуїтивно зрозумілий опис своєї мети …

37 probability mathematical-statistics characteristic-function

3

Застосування методів машинного навчання на веб-сайтах StackExchange

У цьому семестрі у мене є курс машинного навчання, і професор попросив нас знайти реальну проблему та вирішити її одним із методів машинного навчання, що вводяться в класі, як: Дерева рішень Штучні нейронні мережі Підтримка векторних машин Навчання на основі екземплярів ( kNN , LWL ) Байєсські мережі Підсилення навчання …

37 machine-learning

2

Коли і як використовувати стандартизовані пояснювальні змінні в лінійній регресії

У мене є 2 прості запитання щодо лінійної регресії: Коли рекомендується стандартизувати пояснювальні змінні? Як тільки оцінка проводиться за допомогою стандартизованих значень, як можна передбачити нові значення (як слід стандартизувати нові значення)? Деякі довідки були б корисні.

37 regression predictive-models references standardization predictor

5

Чи дбають працюючі статистики про різницю між частою і байєсівською висновками?

Як стороння людина, виявляється, що існує два конкуруючих погляди на те, як слід здійснювати статистичні умовиводи. Чи обидва ці методи вважаються дійсними діючими статистиками? Вибір одного вважається більше філософським питанням? Або нинішня ситуація вважається проблематичною і намагаються якось уніфікувати різні підходи?

37 bayesian frequentist

8

Чи можна довести нульову гіпотезу?

Як зазначено в питанні - чи можна довести нульову гіпотезу? З мого (обмеженого) розуміння гіпотези, відповідь "ні", але я не можу придумати жорсткого пояснення для цього. Чи на це питання є остаточна відповідь?

37 hypothesis-testing proof equivalence

11

Статистичні підручники з відкритим кодом?

Існує декілька питань щодо статистичних підручників , наприклад, питання Безкоштовні статистичні підручники . Однак я шукаю підручники з відкритим кодом, наприклад, що мають ліцензію Creative Commons . Причина полягає в тому, що в навчальний матеріал в інших областях ви все ще хочете включити текст про основні статистичні дані. У цьому …

37 references open-source

7

Чи можна перехресну перевірку використовувати для причинного висновку?

У всіх контекстах я знайомий з перехресною валідацією, він використовується виключно з метою підвищення точності прогнозування. Чи можна розширити логіку перехресної перевірки при оцінці неупереджених зв’язків між змінними? Хоча цей документ Річарда Берка демонструє використання вибійної вибірки для вибору параметрів у "остаточній" регресійній моделі (і демонструє, чому поетапний вибір параметрів …

37 cross-validation causality

1

Чому мої р-значення відрізняються між результатами логістичної регресії, тестом чи-квадрата та інтервалом довіри для АБО?

Я створив логістичну регресію, де змінна результат вилікується після лікування ( Cureпроти No Cure). Усі пацієнти цього дослідження отримували лікування. Мене цікавить, чи пов’язаний діабет із цим результатом. У R мій результат логістичної регресії виглядає так: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) …

37 r hypothesis-testing logistic generalized-linear-model odds-ratio