Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Як виконати двопробові t-тести в R шляхом введення вибіркової статистики, а не необроблених даних?
Скажімо, у нас є наведена нижче статистика gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 Як ви проводите тест-випробування на двох зразках (щоб побачити, чи є значна різниця між засобами чоловіків і жінок у певній змінній), використовуючи подібну статистику, а не фактичні дані? Я не міг …
32 r  t-test 

6
Чому ентропія максимальна, коли розподіл ймовірностей рівномірний?
Я знаю, що ентропія є мірою випадковості процесу / змінної, і її можна визначити наступним чином. для випадкової величини множині : - . У книзі про ентропію та теорію інформації Маккея він подає це твердження в Ch2X∈Х∈X \inAАAH(X)=∑xi∈A−p(xi)log(p(xi))Н(Х)=∑хi∈А-p(хi)журнал⁡(p(хi))H(X)= \sum_{x_i \in A} -p(x_i) \log (p(x_i)) Ентропія максимальна, якщо р рівномірний. Інтуїтивно, …

4
Як розрахувати рівень довіри для розподілу Пуассона?
Хотілося б знати, наскільки я впевнений у своєму . Хтось знає про спосіб встановити верхній і нижній рівні довіри для розподілу Пуассона?λλ\lambda Спостереження ( ) = 88нnn Середня вибірка ( ) = 47,18182λλ\lambda як би виглядала 95-відсоткова впевненість у цьому?

1
CNN архітектури для регресії?
Я працював над проблемою регресії, де вводом є зображення, а мітка - це постійне значення між 80 і 350. Зображення містять деякі хімічні речовини після реакції. Колір, який виявляється, вказує на концентрацію іншого хімічного речовини, що залишився, і ось що виводить модель - концентрацію цієї хімічної речовини. Зображення можна обертати, …

5
Розуміння одиниць LSTM та клітин
Я вивчав LSTM деякий час. Я на високому рівні розумію, як все працює. Тим НЕ менше, збирається реалізувати їх з допомогою Tensorflow я помітив , що BasicLSTMCell вимагає кількість одиниць (тобто num_units) параметра. З цього дуже ретельного пояснення LSTM я зрозумів, що одна одиниця LSTM - це одне з наступних …


2
Виконання статистичного тесту після візуалізації даних - драгування даних?
Я запропоную це питання на прикладі. Припустимо, у мене є набір даних, такий як набір даних про ціни на житло в Бостоні, в якому я маю безперервні і категоричні змінні. Тут ми маємо змінну «якість» від 1 до 10 та ціну продажу. Я можу розділити дані на будинки "низької", "середньої" …

4
Чи є результат іспиту двочленним?
Ось просте статистичне запитання, яке мені дали. Я не дуже впевнений, що це розумію. X = кількість набраних балів в іспиті (багаторазовий вибір і правильна відповідь - це один бал). Чи розподілений X біноміал? Відповідь професора: Так, тому що є лише правильні чи неправильні відповіді. Моя відповідь: Ні, тому що …

1
Наслідки нерівності кореляції Гаусса для обчислення спільних довірчих інтервалів
Згідно з цією дуже цікавою статтею журналу Quanta: "Довгодумний доказ, знайдений і майже загублений" , - доведено, що дано вектор що має багатовимірний гауссова розподіл, і задані інтервали I 1 , … , я n зосереджений навколо засобів відповідних компонентів , тодіх =( х1, … , Хн)х=(х1,…,хн)\mathbf{x}=(x_1,\dots,x_n)I1,…,InI1,…,InI_1,\dots,I_n xx\mathbf{x} p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x1∈I1,…,xn∈In)≥∏i=1np(xi∈Ii)p(x_1\in I_1, …

2
Логістична регресія: Scikit Learn vs Statsmodels
Я намагаюся зрозуміти, чому результати з логістичної регресії цих двох бібліотек дають різні результати. Я використовую набір даних з UCLA Idre підручник , прогнозуючи на admitоснові gre, gpaі rank. rankтрактується як категоріальна змінна, тому спочатку перетворюється на манекенну змінну зі rank_1скинутим. Також додається стовпчик перехоплення. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X …

5
Що довірчі інтервали говорять про точність (якщо вона є)?
Morey et al (2015) стверджують, що інтервали довіри вводять в оману і є багато ухилів, пов'язаних з їх розумінням. Серед іншого вони описують точність помилок таким чином: Точність помилок Ширина довірчого інтервалу вказує на точність наших знань про параметр. Вузькі інтервали довіри показують точні знання, тоді як широкі довірчі помилки …

4
Які відносні переваги даних Winsorizing vs Trimming?
Вінсоризація даних означає заміщення крайніх значень набору даних певним відсотковим значенням з кожного кінця, тоді як обрізка або обрізання передбачає видалення цих крайніх значень. Я завжди бачу, як обидва методи обговорюються як життєздатний варіант зменшення ефекту випускників при обчисленні статистичних даних, таких як середнє або стандартне відхилення, але я не …

6
Чи дійсно парситизм все-таки повинен бути золотим стандартом?
Просто думка: Парсимоніальні моделі завжди були типовим методом вибору моделі, але наскільки цей підхід застарів? Мені цікаво, наскільки наша тенденція до парсингу - це пережиток часу правил abaci і slide (або, що серйозніше, не сучасних комп'ютерів). Сьогоднішня обчислювальна потужність дозволяє нам будувати все більш складні моделі з все більшою здатністю …

3
Кластеризація довгого списку рядків (слів) у групи подібності
У мене є така проблема: у мене дуже довгий перелік слів, можливо, імен, прізвищ тощо. Мені потрібно згрупувати цей список слів, щоб подібні слова, наприклад слова з аналогічною відстані редагування (Левенштейн), з’явились у той же кластер. Наприклад, "алгоритм" і "алогритм" повинні мати високі шанси відобразитися в одному кластері. Я добре …


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.