Статистика та великі дані

4

Як виконати двопробові t-тести в R шляхом введення вибіркової статистики, а не необроблених даних?

Скажімо, у нас є наведена нижче статистика gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 Як ви проводите тест-випробування на двох зразках (щоб побачити, чи є значна різниця між засобами чоловіків і жінок у певній змінній), використовуючи подібну статистику, а не фактичні дані? Я не міг …

32 r t-test

6

Чому ентропія максимальна, коли розподіл ймовірностей рівномірний?

Я знаю, що ентропія є мірою випадковості процесу / змінної, і її можна визначити наступним чином. для випадкової величини множині : - . У книзі про ентропію та теорію інформації Маккея він подає це твердження в Ch2X∈Х∈X \inAАAH(X)=∑xi∈A−p(xi)log(p(xi))Н(Х)=∑хi∈А-p(хi)журнал⁡(p(хi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) Ентропія максимальна, якщо р рівномірний. Інтуїтивно, …

32 uniform entropy maximum-entropy

4

Як розрахувати рівень довіри для розподілу Пуассона?

Хотілося б знати, наскільки я впевнений у своєму . Хтось знає про спосіб встановити верхній і нижній рівні довіри для розподілу Пуассона?λλ\lambda Спостереження ( ) = 88нnn Середня вибірка ( ) = 47,18182λλ\lambda як би виглядала 95-відсоткова впевненість у цьому?

32 poisson-distribution confidence-interval

1

CNN архітектури для регресії?

Я працював над проблемою регресії, де вводом є зображення, а мітка - це постійне значення між 80 і 350. Зображення містять деякі хімічні речовини після реакції. Колір, який виявляється, вказує на концентрацію іншого хімічного речовини, що залишився, і ось що виводить модель - концентрацію цієї хімічної речовини. Зображення можна обертати, …

32 regression machine-learning neural-networks conv-neural-network tensorflow

5

Розуміння одиниць LSTM та клітин

Я вивчав LSTM деякий час. Я на високому рівні розумію, як все працює. Тим НЕ менше, збирається реалізувати їх з допомогою Tensorflow я помітив , що BasicLSTMCell вимагає кількість одиниць (тобто num_units) параметра. З цього дуже ретельного пояснення LSTM я зрозумів, що одна одиниця LSTM - це одне з наступних …

32 neural-networks terminology lstm rnn tensorflow

9

Отримання рівняння Беллмана в навчанні зміцнення

Наступне рівняння я бачу у " In Arforforment Learning. Introduction ", але не дуже слідую кроку, який я виділив синім кольором нижче. Як саме походить цей крок?

32 expected-value reinforcement-learning

2

Виконання статистичного тесту після візуалізації даних - драгування даних?

Я запропоную це питання на прикладі. Припустимо, у мене є набір даних, такий як набір даних про ціни на житло в Бостоні, в якому я маю безперервні і категоричні змінні. Тут ми маємо змінну «якість» від 1 до 10 та ціну продажу. Я можу розділити дані на будинки "низької", "середньої" …

31 hypothesis-testing data-visualization p-value dataset inference

4

Чи є результат іспиту двочленним?

Ось просте статистичне запитання, яке мені дали. Я не дуже впевнений, що це розумію. X = кількість набраних балів в іспиті (багаторазовий вибір і правильна відповідь - це один бал). Чи розподілений X біноміал? Відповідь професора: Так, тому що є лише правильні чи неправильні відповіді. Моя відповідь: Ні, тому що …

31 self-study binomial

1

Наслідки нерівності кореляції Гаусса для обчислення спільних довірчих інтервалів

Згідно з цією дуже цікавою статтею журналу Quanta: "Довгодумний доказ, знайдений і майже загублений" , - доведено, що дано вектор що має багатовимірний гауссова розподіл, і задані інтервали I 1 , … , я n зосереджений навколо засобів відповідних компонентів , тодіх =( х1, … , Хн)х=(х1,…,хн)\mathbf{x}=(x_1,\dots,x_n)I1,…,InI1,…,InI_1,\dots,I_n xx\mathbf{x} p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x_1\in I_1, …

31 normal-distribution confidence-interval multivariate-normal

2

Логістична регресія: Scikit Learn vs Statsmodels

Я намагаюся зрозуміти, чому результати з логістичної регресії цих двох бібліотек дають різні результати. Я використовую набір даних з UCLA Idre підручник , прогнозуючи на admitоснові gre, gpaі rank. rankтрактується як категоріальна змінна, тому спочатку перетворюється на манекенну змінну зі rank_1скинутим. Також додається стовпчик перехоплення. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X …

31 regression logistic python scikit-learn statsmodels

5

Що довірчі інтервали говорять про точність (якщо вона є)?

Morey et al (2015) стверджують, що інтервали довіри вводять в оману і є багато ухилів, пов'язаних з їх розумінням. Серед іншого вони описують точність помилок таким чином: Точність помилок Ширина довірчого інтервалу вказує на точність наших знань про параметр. Вузькі інтервали довіри показують точні знання, тоді як широкі довірчі помилки …

31 bayesian confidence-interval frequentist precision

4

Які відносні переваги даних Winsorizing vs Trimming?

Вінсоризація даних означає заміщення крайніх значень набору даних певним відсотковим значенням з кожного кінця, тоді як обрізка або обрізання передбачає видалення цих крайніх значень. Я завжди бачу, як обидва методи обговорюються як життєздатний варіант зменшення ефекту випускників при обчисленні статистичних даних, таких як середнє або стандартне відхилення, але я не …

31 standard-deviation mean truncation trimmed-mean winsorizing

6

Чи дійсно парситизм все-таки повинен бути золотим стандартом?

Просто думка: Парсимоніальні моделі завжди були типовим методом вибору моделі, але наскільки цей підхід застарів? Мені цікаво, наскільки наша тенденція до парсингу - це пережиток часу правил abaci і slide (або, що серйозніше, не сучасних комп'ютерів). Сьогоднішня обчислювальна потужність дозволяє нам будувати все більш складні моделі з все більшою здатністю …

31 predictive-models model-selection model

3

Кластеризація довгого списку рядків (слів) у групи подібності

У мене є така проблема: у мене дуже довгий перелік слів, можливо, імен, прізвищ тощо. Мені потрібно згрупувати цей список слів, щоб подібні слова, наприклад слова з аналогічною відстані редагування (Левенштейн), з’явились у той же кластер. Наприклад, "алгоритм" і "алогритм" повинні мати високі шанси відобразитися в одному кластері. Я добре …

31 clustering k-means pattern-recognition

8

Ймовірність народження у високосний день?

Зважаючи на те, що сьогодні день високосний, чи знає хто ймовірність народження у високосний день?

31 probability