Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

5
Яку малу кількість слід додати до x, щоб уникнути прийому журналу нуля?
Я проаналізував свої дані такими, які вони є. Тепер я хочу переглянути свої аналізи після взяття журналу всіх змінних. Багато змінних містять багато нулів. Тому я додаю невелику кількість, щоб не брати журнал нуля. Поки що я додав 10 ^ -10, без жодного обґрунтування насправді, просто тому, що я вважав, …

8
Чи є сенс ставитись до категоричних даних як до безперервних?
Відповідаючи на це запитання щодо дискретних та безперервних даних, я з глибоким твердженням стверджував, що рідко є сенс трактувати категоричні дані як безперервні. Зважаючи на це, це здається само собою зрозумілим, але інтуїція часто є поганим посібником для статистики, або, принаймні, моя. Тож зараз мені цікаво: це правда? Або є …

10
Помилка перевірки менше, ніж помилка тренування?
Тут і тут я знайшов два питання щодо цього питання, але поки немає очевидних відповідей чи пояснень. Я застосовую ту саму проблему, коли помилка перевірки менша, ніж помилка навчання в моїй нейронній мережі Convolution. Що це означає?

2
Регресія Байєса: як це робиться порівняно зі стандартною регресією?
У мене виникли питання щодо байєсівської регресії: Дано стандартну регресію як . Якщо я хочу змінити це в Байєсова регресію, чи потрібно мені апріорні розподілу як для і (або вона не працює таким чином)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 У стандартній регресії намагаються мінімізувати залишки, щоб отримати одиничні …

3
Коли відповідні ваги журналу?
Я читав, що використання шкал журналів під час побудови графіків / графіків є доцільним у певних обставинах, наприклад, вісь y у діаграмі часових рядів. Однак мені не вдалося знайти остаточного пояснення, чому це так, або коли це було б доречно. Будь ласка, майте на увазі, що я не статистик, тому …

3
Чому стандартне відхилення вибірки є упередженим оцінювачем ?
Згідно зі статтею Вікіпедії про неупереджене оцінювання стандартного відхилення, зразок SD s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} є упередженим оцінювачем СД населення. У ньому зазначено, що .E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} NB. Випадкові змінні незалежні і кожнаxi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim N(\mu,\sigma^{2}) Моє запитання двояке: Що є доказом упередженості? Як можна обчислити очікування стандартного …

9
Чи неправильно перефразовувати "1 на 80 смертей, спричинених автомобільною аварією", оскільки "1 в 80 людей гинуть внаслідок автокатастрофи?"
Заява перша (S1): "Кожна з 80 смертей спричинена автомобільною аварією". Заява друга (S2): "Кожен 80 людей гине внаслідок автомобільної аварії". Зараз я особисто не бачу великої різниці між цими двома твердженнями. Пишучи, я вважав би їх взаємозамінними для широкої аудиторії. Однак я вже зараз кинув виклик цим питанням двом людям, …

7
Проблеми промисловості проти Kaggle. Чи важливіше збирати більше спостережень та мати доступ до більшої кількості змінних, ніж фантазійне моделювання?
Я би сподівався, що назва сама пояснює. У Kaggle більшість переможців використовують укладання з часом сотнями базових моделей, щоб вичавити кілька зайвих% MSE, точність ... Загалом, у вашому досвіді, наскільки важливим є фантазійне моделювання, таке як складання vs просто збір більше даних та більше функцій для даних?


6
Регуляризація L2 еквівалентна пріоритету Гаусса
Я продовжую читати це і інтуїтивно можу це бачити, але як можна перейти від регуляризації L2 до того, що аналітично це Гаос-пріор? Те саме говорить і те, що L1 еквівалентний попередньому Лапласану. Будь-які подальші посилання були б чудовими.

1
Логістична регресія в R призвела до ідеального розділення (феномен Хока-Доннера). А тепер що?
Я намагаюся передбачити бінарний результат, використовуючи 50 безперервних пояснювальних змінних (діапазон більшості змінних становить до ). Мій набір даних має майже 24 000 рядків. Коли я бігаю в R, я отримую:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred Я прочитав …

4
Чи однаково вірогідні всі значення в межах 95% довірчого інтервалу?
Я виявив невідповідну інформацію щодо запитання: " Якщо можна побудувати 95% довірчий інтервал (CI) різниці в засобах або різницю в пропорціях, чи всі значення в межах CI однаково вірогідні? Або, чи точкова оцінка є найбільш вірогідною , зі значеннями біля "хвостів" CI менш ймовірними, ніж у середині CI? Наприклад, якщо …

8
R бібліотеки для глибокого навчання
Мені було цікаво, чи є там якісь хороші бібліотеки R для глибокого вивчення нейронних мереж? Я знаю , що це nnet, neuralnetі RSNNS, але жоден з них не здається , здійснити глибокі методи навчання. Мені особливо цікаво непідконтрольне, за яким слід керуватися навчанням, і використовувати відмову для запобігання спільної адаптації …

6
Чи справді "гібрид" між Фішером та Нейманом-Пірсоном підходами до статистичного тестування є справді "невідповідним мешметом"?
Існує певна школа думки, згідно з якою найпоширенішим підходом до статистичного тестування є "гібрид" між двома підходами: підходом Фішера та Нейманом-Пірсоном; ці два підходи, стверджує твердження, "несумісні", а отже, отриманий "гібрид" є "невідповідним мешматом". Я надам бібліографію та деякі цитати нижче, але поки що досить сказати, що про це багато …

9
Як отримати p-значення (перевірити значення) ефекту в змішаній моделі lme4?
Я використовую lme4 в R, щоб відповідати змішаній моделі lmer(value~status+(1|experiment))) де значення безперервне, статус і експеримент - це фактори, і я отримую Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.