Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

1
Різниця між стандартними та сферичними алгоритмами k-означає
Я хотів би зрозуміти, в чому полягає основна різниця в реалізації між стандартними та сферичними алгоритмами кластеризації к-засобів. На кожному кроці k-означає обчислює відстані між елементами векторів і центроїдами кластера і переназначає документ цьому кластеру, центроїд якого найближчий. Потім всі центроїди перераховуються. У сферичних k-засобах всі вектори нормалізуються, а міра …


3
Чому могло б центрування незалежних змінних змінювати основні ефекти з помірністю?
У мене виникло питання, пов'язане з множинною регресією та взаємодією, натхненною цією ниткою CV: Взаємодія з використанням ієрархічного регресійного аналізу змінних змінних? На які змінні слід зосередитись? Перевіряючи ефект модерації, я центрирую свої незалежні змінні та помножую центрировані змінні, щоб обчислити термін взаємодії. Потім я запускаю свій регресійний аналіз і …

8
Велика кількість значень P за відсутності гіпотези
Я в епідеміології. Я не статистик, але намагаюся виконувати аналізи самостійно, хоча часто стикаюся з труднощами. Я зробив свій перший аналіз десь 2 роки тому. Значення Р були включені скрізь у мої аналізи (я просто робив те, що робили інші дослідники) від описових таблиць до регресійних аналізів. Потроху статистики, які …

3
Як боротися з мультиколінеарністю при виконанні варіативного вибору?
У мене є набір даних з 9 безперервними незалежними змінними. Я намагаюся вибрати серед цих змінних , щоб відповідати моделі до одного відсотка ( в залежності) змінної Score. На жаль, я знаю, що між декількома змінними буде серйозна колінеарність. Я намагався використовувати stepAIC()функцію в R для вибору змінної, але цей …

2
Чому RSS розподіляється чі квадратним часом np?
Я хотів би зрозуміти, чому в моделі OLS розподіляється RSS (залишкова сума квадратів) ( - кількість параметрів у моделі, кількість спостережень).χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn Прошу вибачення за те, що я задав таке основне запитання, але, здається, я не в змозі знайти відповідь в Інтернеті (або в моїх, більш орієнтованих на додатків, підручниках).

3
Яка різниця між довірчими інтервалами та тестуванням гіпотез?
Я читав про суперечки щодо тестування гіпотез з деякими коментаторами, які припускають, що тестування гіпотез не слід використовувати. Деякі коментатори пропонують замість цього використовувати інтервали довіри . Яка різниця між довірчими інтервалами та тестуванням гіпотез? Пояснення з посиланням та прикладами були б вдячні.

6
t-тест на частково парні та частково непарні дані
Слідчий хоче зробити комбінований аналіз декількох наборів даних. У деяких наборах даних є парні спостереження щодо лікування A і B. В інших є непарні дані A та / або B. Я шукаю посилання на адаптацію t-тесту, або на тест коефіцієнта ймовірності, для таких частково парних даних. Я готовий (поки що) …


4
Як зробити зменшення розмірності в R
У мене є матриця, де a (i, j) повідомляє мені, скільки разів я переглядав сторінку j. Є 27K осіб та 95K сторінок. Мені хотілося б, щоб у просторі сторінок було кілька "вимірів" або "аспектів", які відповідали б наборам сторінок, які часто переглядаються разом. Моя кінцева мета - згодом мати можливість …

4
Як можливо, що втрати валідації збільшуються, а точність перевірки також збільшується
Я треную просту нейронну мережу на наборі даних CIFAR10. Через деякий час втрати валідації почали зростати, тоді як точність перевірки також зростає. Втрати тесту та точність випробувань продовжують поліпшуватися. Як це можливо? Схоже, якщо збільшення втрат валідації, точність повинна знизитися. PS Є кілька подібних питань, але ніхто не пояснив, що …

5
Чому середня функція в Гауссовому процесі нецікава?
Я щойно почав читати про GPs і аналогічно регулярному розподілу Гаусса, він характеризується середньою функцією та коваріаційною функцією або ядром. Я був на розмові, і доповідач сказав, що середня функція зазвичай досить нецікава, і всі висновки витрачаються на оцінку правильної функції коваріації. Чи може хтось мені пояснити, чому так має …

8
Шукаєте гарну та повну книгу ймовірностей та статистики
У мене ніколи не було можливості відвідати курс статистики з математичного факультету. Я шукаю теорію ймовірностей та книгу статистики, яка є повною та самодостатньою. Я маю на увазі, що він містить усі докази, а не лише результати результатів. Під самодостатньою маю на увазі, що я не зобов'язаний читати іншу книгу, …


4
Як виконати t-тест Стьюдента, що має лише розмір вибірки, середню вибірку та середню кількість населення?
Для тесту Стьюдента потрібно стандартне відхилення вибірки . Однак як же я обчислити коли відомі лише розмір вибірки та середня кількість вибірки?ттtссsссs Наприклад, якщо розмір вибірки становить а середня вибірка - , я спробую створити список із однакових вибірок зі значеннями кожному. Очікується, що стандартне відхилення вибірки дорівнює . Це …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.