Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Вибір правильного методу зв'язку для ієрархічної кластеризації
Я здійснюю ієрархічну кластеризацію даних, які я зібрав і обробив з дампу даних Reddit в Google BigQuery. Мій процес такий: Отримайте останні 1000 публікацій в / r / polit Зберіть всі коментарі Обробляти дані та обчислювати n x mматрицю даних (n: користувачі / зразки, m: повідомлення / функції) Обчисліть матрицю …

2
Як ви робите завантаження даних за даними часових рядів?
Нещодавно я дізнався про використання методів завантаження для обчислення стандартних помилок та довірчих інтервалів для оцінювачів. Що я дізнався, це те, що якщо дані є IID, ви можете ставитися до вибіркових даних як до сукупності, і робити вибірки із заміною, і це дозволить отримати кілька моделей тестової статистики. Що стосується …

10
Чому сума двох випадкових величин є згорткою?
Я довго не розумів, чому "сума" двох випадкових величин - це їх згортання , тоді як сума функції густини суміші і -f(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); арифметична сума, а не їх згортання. Точна фраза "сума двох випадкових змінних" з'являється в google 146 000 разів і є еліптичною наступним чином. Якщо вважати RV для отримання …


7
Як інтерпретувати коефіцієнт варіації?
Я намагаюся зрозуміти коефіцієнт варіації . Коли я намагаюся застосувати його до наступних двох зразків даних, я не можу зрозуміти, як інтерпретувати результати. Скажімо, зразок 1 дорівнює а зразок 2 - . Тут зразок 2 зразок 1 як ви бачите.10 , 15 , 17 , 22 , 21 , 27 …

1
Якщо я генерую випадкову симетричну матрицю, то який шанс це визначено позитивно?
У мене виникло дивне запитання, коли я експериментував з деякими опуклими оптимізаціями. Питання: Припустимо, я випадковим чином (скажімо, звичайний нормальний розподіл) генерує симетричну матрицю (наприклад, я генерую верхню трикутну матрицю і заповнюю нижню половину, щоб переконатися, що вона симетрична), який шанс це є позитивним матриця? Чи є можливість обчислити ймовірність?N×NN×NN …

3
Чому тестування основних гіпотез фокусується на середньому, а не на медіані?
На базових курсах зі статистики нижчих класів студентів (як правило?) Навчають тестуванню гіпотез для середньої сукупності. Чому саме фокус робиться на середньому, а не на медіані? Я здогадуюсь, що простіше випробувати середнє через теорему про центральну межу, але я хотів би прочитати кілька освічених пояснень.

3
Чому знаходження невеликих ефектів у великих дослідженнях свідчить про упередженість публікації?
Кілька методичних праць (наприклад, Egger et al. 1997a, 1997b) обговорюють зміщення публікацій, як виявлено метааналізами, використовуючи воронкові сюжети, такі як наведений нижче. У статті 1997b йдеться про те, що "за наявності упередженості публікацій очікується, що з опублікованих досліджень найбільші з них повідомлять про найменші наслідки". Але чому це? Мені здається, …

2
Чи були введені генеральні змагальні мережі Юргена Шмідхубера?
Я читаю на https://en.wikipedia.org/wiki/Generative_adversarial_networks : [Генеральні змагальні мережі] були представлені Ian Goodfellow та ін у 2014 році. але Юрген Шмідхубер стверджує, що раніше проводив подібну роботу в цьому напрямку (наприклад, під час навчального посібника з генеральних змагальних мереж було проведено дебати на NIPS 2016: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Конференція / Нейро-Інформаційно-обробні системи-Конференція-NIPS-2016 / …

6
Чи є приклади, коли теорема про центральну межу не дотримується?
У Вікіпедії сказано - В теорії ймовірностей центральна гранична теорема (CLT) встановлює, що в більшості ситуацій , коли додаються незалежні випадкові величини, їх нормально нормалізована сума має тенденцію до нормального розподілу (неофіційно "крива дзвінка"), навіть якщо самі вихідні змінні не є нормально розподіляється ... Коли він говорить "у більшості ситуацій", …

5
Чому деякі люди використовують -999 або -9999 для заміни відсутніх значень?
У мене є набір даних. Є багато відсутніх значень. Для деяких стовпців відсутнє значення було замінено на -999, а для інших стовпців значення пропущене було позначено як "NA". Чому б ми використовували -999 для заміни відсутнього значення?

2
Що нам говорить ентропія?
Я читаю про ентропію і важко розумію, що це означає у безперервному випадку. На сторінці вікі зазначено наступне: Розподіл ймовірностей подій у поєднанні з інформаційною кількістю кожної події утворює випадкову змінну, очікуваним значенням якої є середня кількість інформації, або ентропія, що генерується цим розподілом. Отже, якщо я обчислюю ентропію, пов'язану …
32 entropy 

8
Чи варто спочатку навчати байєсівській чи частолістській статистиці?
Я допомагаю своїм хлопцям, які зараз знаходяться в середній школі, розуміючи статистику, і я розглядаю початок з простих прикладів, не ігноруючи деякі погляди до теорії. Моєю метою було б дати їм найбільш інтуїтивний, але інструментально конструктивний підхід до вивчення статистики з нуля, щоб стимулювати їх інтерес до подальшої статистики та …

2
Чи не будуть сильно корельовані змінні у випадковій лісовій деформації точності та вибору ознак?
На моє розуміння, сильно корельовані змінні не спричинять проблем мультиколінеарності у випадковій лісовій моделі (Будь ласка, виправте мене, якщо я помиляюся). Однак, з іншого боку, якщо у мене буде занадто багато змінних, що містять подібну інформацію, чи буде вага цієї моделі занадто великою, ніж інші? Наприклад, є два набори інформації …

7
Чому кома поганий роздільник запису / роздільник обмежень у файлах CSV?
Я читав цю статтю і мені цікаво правильна відповідь на це питання. Єдине, що мені спадає на думку, це, мабуть, що в деяких країнах десятковий роздільник є комою, і це можуть бути проблеми при обміні даними в CSV , але я не дуже впевнений у своїй відповіді.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.