Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

16
Які неправильно використані статистичні терміни варто виправити?
Статистика є скрізь; Однак загальне використання статистичних термінів часто є незрозумілим. Терміни ймовірність та коефіцієнти використовуються як взаємозамінні в просторовій англійській мові, незважаючи на їх чітко визначені та різні математичні вирази. Не відокремлюючи термін ймовірність від ймовірності, звичайно бентежить лікарів, які намагаються кількісно оцінити ймовірність раку молочної залози, отримавши позитивну …
103 terminology 

19
Як дратувати статистичного арбітра?
Нещодавно я задав питання щодо загальних принципів щодо перегляду статистичних даних у документах . Зараз я хотів би запитати, що особливо дратує вас при перегляді документа, тобто який найкращий спосіб насправді дратувати статистичного арбітра! Приклад на відповідь, будь ласка.

5
Різниці між перехресною валідацією та завантажувальною програмою для оцінки похибки прогнозування
Я хотів би, щоб ваші думки щодо відмінностей між перехресною валідацією та завантажувальною програмою оцінили помилку прогнозування. Чи працює краще для невеликих розмірів наборів даних або великих наборів даних?

2
Видалення статистично значущого перехоплюючого терміну збільшує у лінійній моделі
У простій лінійній моделі з єдиною пояснювальною змінною, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Я вважаю, що видалення терміна перехоплення значно покращує придатність (значення йде від 0,3 до 0,9). Однак термін перехоплення виявляється статистично значущим.R2R2R^2 З перехопленням: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min …

3
Пакетний градієнтний спуск порівняно зі стохастичним градієнтом
Припустимо, у нас є якийсь навчальний набір для . Припустимо також, що ми використовуємо певний тип алгоритму керованого навчання на навчальному наборі. Гіпотези представлені у вигляді . Нам потрібно знайти параметри які мінімізують "відстань" між і . Нехай(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} …

8
ASA обговорює обмеження -значень - які альтернативи?
У нас вже є кілька потоків, позначених як p-значення, які виявляють багато непорозумінь щодо них. Десять місяців тому у нас була нитка про психологічний журнал, який "заборонив" -значенняppp р , зараз Американська статистична асоціація (2016) каже, що з нашим аналізом ми "не повинні закінчуватися обчисленням -значення".ppp Американська статистична асоціація (ASA) …


14
Книги для самостійного вивчення часових рядів?
Я почав з аналізу часових рядів Гамільтона, але я втрачаю безнадійно. Ця книга насправді занадто теоретична для мене, щоб її навчитися самостійно. Хтось має рекомендацію до підручника з аналізу часових рядів, який підходить для самостійного вивчення?

9
Чи справді це працює як p-значення? Чи може мільйон наукових робіт на рік базуватися на чистому випадковості?
Я дуже новачок у статистиці, і я просто вчусь розуміти основи, включаючи . Але зараз у мене в голові величезний знак запитання, і я сподіваюся, що моє розуміння неправильне. Ось мій процес мислення:ppp Чи не всі дослідження в усьому світі дещо схожі на мавп у "нескінченній теоремі мавп"? Врахуйте, що …

25
Розміщення вільно доступних зразків даних
Я працював над новим методом аналізу та аналізу наборів даних для ідентифікації та ізоляції підгруп населення без попереднього усвідомлення особливостей будь-якої підгрупи. Хоча метод досить добре працює зі штучними зразками даних (тобто наборами даних, створеними спеціально для ідентифікації та сегрегації підмножини населення), я хотів би спробувати протестувати його з живими …

1
Дерева умовного висновку проти дерев традиційних рішень
Чи може хто-небудь пояснити первинні відмінності між умовними деревами висновку ( ctreeвід partyпакета в R) порівняно з більш традиційними алгоритмами дерева рішень (наприклад, rpartв R)? Що робить дерева CI різними? Сильні і слабкі сторони? Оновлення: я розглянув статтю Horthorn та ін, про яку в коментарях посилається Чи. Я не зміг …

9
Яка різниця між лінійною регресією на y з x і x з y?
Коефіцієнт кореляції Пірсона x і y є однаковим, незалежно від того, чи обчислюєте ви грушу (x, y) або pearson (y, x). Це говорить про те, що робити лінійну регресію y, заданої x або x, заданої y, слід однаково, але я не думаю, що це так. Чи може хтось пролити світло, …


3
Інтуїтивне пояснення одиничного кореня
Як би ви пояснили інтуїтивно, що таке одиничний корінь, у контексті тесту одиничного кореня? Я роздумую над способами пояснення так, як це я заснував у цьому питанні . Справа з одиничним коренем полягає в тому, що я знаю (мало, до речі), що тест одиничного кореня використовується для перевірки стаціонарності в …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.