Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

28
Ознайомлення з аналізом основних компонентів, власних векторів та власних значень
У сьогоднішньому класі розпізнавання шаблонів мій професор розповів про PCA, власні вектори та власні значення. Я зрозумів математику цього. Якщо мене попросять знайти власні значення тощо. Я зроблю це правильно, як машина. Але я цього не зрозумів . Я не зрозумів цього. Я не відчував цього. Я дуже вірю в …

11
Як вибрати кількість прихованих шарів та вузлів у нейромережі подачі?
Чи існує стандартний і прийнятий метод вибору кількості шарів та кількості вузлів у кожному шарі в нейронній мережі, що передається? Мене цікавлять автоматизовані способи побудови нейронних мереж.

10
Яка різниця між "вірогідністю" та "ймовірністю"?
Сторінка вікіпедії стверджує, що вірогідність та ймовірність є різними поняттями. Нетехнологічно кажучи, "ймовірність" зазвичай є синонімом "ймовірності", але при статистичному використанні чітке розмежування в перспективі: число, яке є ймовірністю деяких спостережуваних результатів, що дається набором значень параметрів, вважається як вірогідність набору значень параметрів з урахуванням спостережуваних результатів. Чи може хтось …

11
Яка інтуїція за бета-розподілом?
Відмова: Я не статистик, а інженер програмного забезпечення. Більшість моїх знань у статистиці походить від самоосвіти, тому я все ще маю багато прогалин у розумінні понять, які можуть здатися тривіальними для інших людей тут. Тож я був би дуже вдячний, якби відповіді включали менш конкретні терміни та більше пояснень. Уявіть, …

11
Яка різниця між тестовим набором і набором валідації?
Я вважав це заплутаним, коли використовую панель інструментів нейронної мережі в Matlab. Він розділив набір необроблених даних на три частини: навчальний набір набір перевірки тестовий набір Я помічаю в багатьох алгоритмах навчання або навчання, дані часто діляться на 2 частини, навчальний набір і тестовий набір. Мої запитання: Яка різниця між …

20
Дві культури: статистика проти машинного навчання?
Минулого року я прочитав допис у блозі від Брендана О'Коннора під назвою "Статистика проти машинного навчання, боріться!" які обговорювали деякі відмінності між двома полями. Ендрю Гельман відповів на це позитивно : Саймон Бломберг: З пакету статей R: Якщо перефразовувати провокаційно, "машинне навчання - це статистика за вирахуванням будь-якої перевірки моделей …

22
Чому квадратна різниця замість того, щоб приймати абсолютне значення в стандартному відхиленні?
У визначенні стандартного відхилення, чому нам доводиться квадратну відмінність від середнього, щоб отримати середнє (E), і повернути квадратний корінь назад в кінці? Чи не можемо ми просто просто взяти абсолютне значення різниці замість цього і отримати очікуване значення (середнє значення), а чи не буде це також показано варіацію даних? Число …

5
Як зрозуміти недоліки К-засобів
K-засоби - це широко застосовуваний метод кластерного аналізу. Наскільки я розумію, цей метод НЕ вимагає жодних припущень, тобто дайте мені набір даних та заздалегідь задане число кластерів, k, і я просто застосую цей алгоритм, який мінімізує суму помилок у квадраті (SSE), кластер всередині кластеру помилка. Тож k-засоби є по суті …

25
Python як обробка статистики
Багато людей використовують для своїх статистичних даних основний інструмент, наприклад, Excel або іншу електронну таблицю, SPSS, Stata або R. Вони можуть звернутися до певного пакету для дуже особливих потреб, але багато чого можна зробити за допомогою простої таблиці або загального пакета статистики або середовища програмування статистики. Мені завжди подобався Python …
355 r  spss  stata  python 

3
Зв'язок між SVD та PCA. Як використовувати SVD для виконання PCA?
Аналіз основних компонентів (PCA) зазвичай пояснюється шляхом власного розкладання коваріаційної матриці. Тим НЕ менше, він також може бути виконаний з допомогою сингулярного розкладання (SVD) матриць даних . Як це працює? Який зв’язок між цими двома підходами? Який взаємозв'язок між SVD та PCA?ХX\mathbf X Або іншими словами, як використовувати SVD матриці …

30
Ваш улюблений мультфільм "аналіз даних"?
Це один із моїх улюблених: Один запис на відповідь. (Це стосується питання про переповнення стека . Ваш улюблений мультфільм "програміст"? ) PS Не надайте гарячу посилання на мультфільм без дозволу сайту.
343 humor 


11
Пояснення людям, чому працює завантажувальна машина
Нещодавно я використовував завантажувальну програму для оцінки інтервалів довіри для проекту. Хтось, хто мало що знає про статистику, нещодавно попросив мене пояснити, чому працює завантажувальна програма, тобто чому перекомпонування одного і того ж зразка знову і знову дає хороші результати. Я зрозумів, що, хоча витратив багато часу, розуміючи, як його …

18
Що станеться, якщо змінні пояснень та відповідей сортуються незалежно до регресії?
Припустимо, у нас є набір даних з точками. Ми хочемо виконати лінійну регресію, але спочатку сортуємо значення та значення незалежно один від одного, утворюючи набір даних . Чи є якесь осмислене тлумачення регресії у новому наборі даних? Чи має це ім’я?n X i Y i ( X i , Y …

10
Різниця між моделями logit і probit
У чому різниця між логит і пробитий моделі ? Мені більше цікаво знати, коли використовувати логістичну регресію та коли використовувати Probit. Якщо є література, яка визначає її за допомогою R , це також було б корисно.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.