Статистика та великі дані

2

Вибір правильного методу зв'язку для ієрархічної кластеризації

Я здійснюю ієрархічну кластеризацію даних, які я зібрав і обробив з дампу даних Reddit в Google BigQuery. Мій процес такий: Отримайте останні 1000 публікацій в / r / polit Зберіть всі коментарі Обробляти дані та обчислювати n x mматрицю даних (n: користувачі / зразки, m: повідомлення / функції) Обчисліть матрицю …

33 clustering distance unsupervised-learning hierarchical-clustering

2

Як ви робите завантаження даних за даними часових рядів?

Нещодавно я дізнався про використання методів завантаження для обчислення стандартних помилок та довірчих інтервалів для оцінювачів. Що я дізнався, це те, що якщо дані є IID, ви можете ставитися до вибіркових даних як до сукупності, і робити вибірки із заміною, і це дозволить отримати кілька моделей тестової статистики. Що стосується …

33 time-series bootstrap

10

Чому сума двох випадкових величин є згорткою?

Я довго не розумів, чому "сума" двох випадкових величин - це їх згортання , тоді як сума функції густини суміші і -f(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); арифметична сума, а не їх згортання. Точна фраза "сума двох випадкових змінних" з'являється в google 146 000 разів і є еліптичною наступним чином. Якщо вважати RV для отримання …

33 pdf terminology cdf mixture convolution

7

Що таке нормальність?

У багатьох різних статистичних методах існує "припущення про нормальність". Що таке "нормальність" і як мені знати, чи є нормальність?

33 distributions normality-assumption

7

Як інтерпретувати коефіцієнт варіації?

Я намагаюся зрозуміти коефіцієнт варіації . Коли я намагаюся застосувати його до наступних двох зразків даних, я не можу зрозуміти, як інтерпретувати результати. Скажімо, зразок 1 дорівнює а зразок 2 - . Тут зразок 2 зразок 1 як ви бачите.10 , 15 , 17 , 22 , 21 , 27 …

33 descriptive-statistics coefficient-of-variation

1

Якщо я генерую випадкову симетричну матрицю, то який шанс це визначено позитивно?

У мене виникло дивне запитання, коли я експериментував з деякими опуклими оптимізаціями. Питання: Припустимо, я випадковим чином (скажімо, звичайний нормальний розподіл) генерує симетричну матрицю (наприклад, я генерую верхню трикутну матрицю і заповнюю нижню половину, щоб переконатися, що вона симетрична), який шанс це є позитивним матриця? Чи є можливість обчислити ймовірність?N×NN×NN …

32 probability matrix random-generation eigenvalues random-matrix

3

Чому тестування основних гіпотез фокусується на середньому, а не на медіані?

На базових курсах зі статистики нижчих класів студентів (як правило?) Навчають тестуванню гіпотез для середньої сукупності. Чому саме фокус робиться на середньому, а не на медіані? Я здогадуюсь, що простіше випробувати середнє через теорему про центральну межу, але я хотів би прочитати кілька освічених пояснень.

32 hypothesis-testing mean inference median

3

Чому знаходження невеликих ефектів у великих дослідженнях свідчить про упередженість публікації?

Кілька методичних праць (наприклад, Egger et al. 1997a, 1997b) обговорюють зміщення публікацій, як виявлено метааналізами, використовуючи воронкові сюжети, такі як наведений нижче. У статті 1997b йдеться про те, що "за наявності упередженості публікацій очікується, що з опублікованих досліджень найбільші з них повідомлять про найменші наслідки". Але чому це? Мені здається, …

32 meta-analysis publication-bias

2

Чи були введені генеральні змагальні мережі Юргена Шмідхубера?

Я читаю на https://en.wikipedia.org/wiki/Generative_adversarial_networks : [Генеральні змагальні мережі] були представлені Ian Goodfellow та ін у 2014 році. але Юрген Шмідхубер стверджує, що раніше проводив подібну роботу в цьому напрямку (наприклад, під час навчального посібника з генеральних змагальних мереж було проведено дебати на NIPS 2016: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Конференція / Нейро-Інформаційно-обробні системи-Конференція-NIPS-2016 / …

32 neural-networks history gan

6

Чи є приклади, коли теорема про центральну межу не дотримується?

У Вікіпедії сказано - В теорії ймовірностей центральна гранична теорема (CLT) встановлює, що в більшості ситуацій , коли додаються незалежні випадкові величини, їх нормально нормалізована сума має тенденцію до нормального розподілу (неофіційно "крива дзвінка"), навіть якщо самі вихідні змінні не є нормально розподіляється ... Коли він говорить "у більшості ситуацій", …

32 probability mathematical-statistics normal-distribution central-limit-theorem

5

Чому деякі люди використовують -999 або -9999 для заміни відсутніх значень?

У мене є набір даних. Є багато відсутніх значень. Для деяких стовпців відсутнє значення було замінено на -999, а для інших стовпців значення пропущене було позначено як "NA". Чому б ми використовували -999 для заміни відсутнього значення?

32 missing-data

2

Що нам говорить ентропія?

Я читаю про ентропію і важко розумію, що це означає у безперервному випадку. На сторінці вікі зазначено наступне: Розподіл ймовірностей подій у поєднанні з інформаційною кількістю кожної події утворює випадкову змінну, очікуваним значенням якої є середня кількість інформації, або ентропія, що генерується цим розподілом. Отже, якщо я обчислюю ентропію, пов'язану …

32 entropy

8

Чи варто спочатку навчати байєсівській чи частолістській статистиці?

Я допомагаю своїм хлопцям, які зараз знаходяться в середній школі, розуміючи статистику, і я розглядаю початок з простих прикладів, не ігноруючи деякі погляди до теорії. Моєю метою було б дати їм найбільш інтуїтивний, але інструментально конструктивний підхід до вивчення статистики з нуля, щоб стимулювати їх інтерес до подальшої статистики та …

32 probability hypothesis-testing bayesian frequentist teaching

2

Чи не будуть сильно корельовані змінні у випадковій лісовій деформації точності та вибору ознак?

На моє розуміння, сильно корельовані змінні не спричинять проблем мультиколінеарності у випадковій лісовій моделі (Будь ласка, виправте мене, якщо я помиляюся). Однак, з іншого боку, якщо у мене буде занадто багато змінних, що містять подібну інформацію, чи буде вага цієї моделі занадто великою, ніж інші? Наприклад, є два набори інформації …

32 random-forest multicollinearity ensemble

7

Чому кома поганий роздільник запису / роздільник обмежень у файлах CSV?

Я читав цю статтю і мені цікаво правильна відповідь на це питання. Єдине, що мені спадає на думку, це, мабуть, що в деяких країнах десятковий роздільник є комою, і це можуть бути проблеми при обміні даними в CSV , але я не дуже впевнений у своїй відповіді.

32 project-management