Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

7
Як називається статистична помилка, за якою результати попередніх обертів монети впливають на переконання щодо наступних обертів монет?
Як ми всі знаємо, якщо ви перевернете монету, яка має однакові шанси на посадку голови, як і хвости, то якщо ви перевернете монету багато разів, вдвічі ви отримаєте голови та половину часу отримаєте хвости. Обговорюючи це з другом, вони сказали, що якщо ви перевернете монету 1000 разів, і дозвольте сказати, …

3
Що означає "незалежне спостереження"?
Я намагаюся зрозуміти, що означає припущення незалежних спостережень . Деякі визначення: "Дві події є незалежними тоді і лише тоді, коли ." ( Словник статистичних термінів )P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) "виникнення однієї події не змінює ймовірності іншої" ( Вікіпедія ). "вибірка одного спостереження не впливає на вибір другого …

2
Які аспекти набору даних «Ірис» роблять його таким успішним, як набір даних для прикладу / навчання / тесту
Набір даних "Ірис" , мабуть, знайомий більшості людей тут - це один із канонічних наборів даних тестів і набір даних із прикладом для всього, від візуалізації даних до машинного навчання. Наприклад, усі в цьому запитанні вирішили використати його для обговорення розкиданих розсіювальних апаратів. Що робить набір даних Iris настільки корисним? …
28 dataset 

3
Як отримати «загальний» p-значення та ефект ефекту для категоріального фактора у змішаній моделі (lme4)?
Я хотів би отримати p-значення та розмір ефекту незалежної категоріальної змінної (з декількома рівнями) - тобто "загальний", а не для кожного рівня окремо, як це нормальний вихід lme4у R. Це просто так про що люди повідомляють під час роботи програми ANOVA. Як я можу це отримати?

1
Порівняння ієрархічної кластеризації дендрограм, отриманих різними відстанями та методами
[Початкова назва "Вимірювання подібності для ієрархічних дерев кластеризації" згодом @ttnphns змінила, щоб краще відобразити тему] Я виконую ряд ієрархічних кластерних аналізів у кадрі даних пацієнтів (наприклад, подібний до http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Я експериментую з різними мірами відстані , різною вагою параметрів та різними ієрархічними методами , щоб зрозуміти їх вплив на …

7
Чому і коли створюється пакет R?
Заблокований . Це питання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. Я розумію, що це питання досить широке, але мені цікаво, що має бути вирішальним моментом у вирішенні питання про створення (чи ні) нового пакету для Р. …
28 r  software 

1
Максимальна оцінка вірогідності для усіченого розподілу
Розглянемо незалежних зразків отриманих із випадкової величини яка передбачається, що вона має усічений розподіл (наприклад, усічений нормальний розподіл ) відомих (кінцевих) мінімальних і максимальних значень і але невідомих параметрів та . Якби дотримувався нерізаного розподілу, максимальна оцінка ймовірності та для та із була б середньою вибіркоюNNNSSSXXXaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_iі …


3
Розподіл коефіцієнта Гаусса: Похідні wrt, що лежать в основі 's та s
Я працюю з двома незалежними нормальними розподілами і із засобами та та дисперсіями та .XXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y Я зацікавлений в розподілі їх відносини . Ні ні не мають середнього нуля, тому не розподіляється як Коші.Z=X/YZ=X/YZ=X/YXXXYYYZZZ Мені потрібно знайти CDF від , а потім взяти похідну CDF відносно , , та .ZZZμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y Хтось …

3
Які є наочні програми емпіричної вірогідності?
Я чув про емпіричну ймовірність Оуена, але до недавнього часу не звертав на це уваги, поки я не натрапив на нього в цікавій роботі ( Mengersen et al. 2012 ). зрозуміти це, я зрозумів, що ймовірність спостережуваних даних представлена ​​як , де і .L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) …

3
Що робити, якщо ваша випадкова вибірка явно не є репрезентативною?
Що робити, якщо взяти випадкову вибірку, і ви побачите, вона явно не є репрезентативною, як у недавньому питанні . Наприклад, що робити, якщо розподіл популяції повинен бути симетричним приблизно 0, а вибірка, яку ви малюєте випадковим чином, має незбалансовані позитивні та негативні спостереження, а дисбаланс є статистично значущим, де це …

5
Приклади реального життя із поширених розподілів
Я студентка, що розвиває інтерес до статистики. Мені подобається матеріал понад усе, але мені часом важко думати про додатки до реального життя. Зокрема, моє запитання стосується часто використовуваних статистичних розподілів (нормальних - бета-гамма тощо). Я думаю, що в деяких випадках я отримую особливі властивості, які роблять розподіл досить приємним - …

5
Книга статистики, в якій пояснюється використання більше зображень, ніж рівнянь
Я зацікавився статистикою, але мушу визнати, що минуло багато часу, коли я серйозно використовував математику. Іноді я розумію, що означають рівняння, але іноді не можу дотримуватися їх. Мені подобається відповідь, подана тут, що використовує зображення зі стрілкою: Концептуальне розуміння кореневої середньої помилки у квадраті та середнього відхилення зміщення . Чи …
28 references 

3
Приклади помилок в алгоритмах MCMC
Я досліджую метод автоматичної перевірки методів Монте-Карло ланцюга Маркова, і я хотів би декілька прикладів помилок, які можуть виникнути при побудові або реалізації таких алгоритмів. Бонусні бали, якщо в опублікованій роботі був використаний неправильний метод. Мене особливо цікавлять випадки, коли помилка означає, що ланцюг має неправильний інваріантний розподіл, хоча також …
28 mcmc 

4
Самостійне навчання проти вихованої освіти?
Є питання з подібним наміром у програмістів.SE . На це запитання є досить непогані відповіді, але загальна тема, здається, полягає в тому, що без самостійного вивчення ви не отримаєте ніде. Очевидно, що між програмуванням і статистикою є якась основна різниця - з програмуванням ви насправді просто вивчаєте якусь основну логіку, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.