Запитання з тегом «statistics»

Статистика - це науковий підхід до індуктивного висновку та прогнозування, заснований на ймовірнісних моделях даних. На розширення він охоплює розробку експериментів та опитувань для збору даних для цієї мети.

1
Як отримати кореляцію між двома категоріальною змінною та категоріальною змінною та безперервною змінною?
Я будую регресійну модель, і мені потрібно розрахувати нижче, щоб перевірити наявність кореляцій Кореляція між двома багаторівневими категоричними змінними Кореляція між багаторівневою категоріальною змінною та безперервною змінною VIF (коефіцієнт дисперсії дисперсії) для багаторівневих категоричних змінних Я вважаю неправильним використання коефіцієнта кореляції Пірсона для вищезазначених сценаріїв, оскільки Пірсон працює лише для …

4
Нейронні мережі: яку функцію витрат використовувати?
Я використовую TensorFlow для експериментів з нейронними мережами. Хоча зараз я провів досить багато експериментів (XOR-Problem, MNIST, деякі регресії, ...), я борюся з вибором "правильної" функції витрат для конкретних проблем, тому що в цілому мене можна вважати початківцем. Перед тим, як прийти до TensorFlow, я самостійно зашифрував декілька повністю пов'язаних …

11
Наука даних в C (або C ++)
Я Rмовний програміст. Я також в групі людей, яких вважають науковцями даних, але які виходять з наукових дисциплін, відмінних від CS. Це добре справляється з моєю роллю вченого даних, однак, розпочинаючи свою кар’єру Rі маючи лише базові знання інших сценаріїв / веб-мов, я почувався дещо неадекватним у двох ключових сферах: …

3
Розрахунок та візуалізація матриці кореляції з пандами
У мене є кадр даних панди з декількома записами, і я хочу обчислити співвідношення між доходами певного типу магазинів. Існує ряд магазинів з даними про доходи, класифікацією сфери діяльності (театр, магазини тканин, продукти харчування ...) та іншими даними. Я спробував створити новий кадр даних і вставити стовпчик із доходом усіх …

4
Книги про «Наука» в науці даних? [зачинено]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Які книги про науку та математику стоять за наукою даних? Складається враження, що так …

9
Будь-яка онлайн-консоль R?
Я шукаю інтернет-консоль для мови R. Як я пишу код, і сервер повинен виконати і надати мені вихід. Подібно до веб-сайту Datacamp.
24 r  statistics 

4
Яку статистичну модель я повинен використовувати для аналізу ймовірності того, що одна подія вплинула на поздовжні дані
Я намагаюся знайти формулу, метод чи модель, яку б використати для аналізу ймовірності того, що конкретна подія вплинула на деякі поздовжні дані. Мені важко зрозуміти, що шукати в Google. Ось приклад сценарію: Image Ви є власником бізнесу, який щодня має в середньому 100 відвідувачів. Одного разу ви вирішите, що хочете …

4
Як вказати важливі атрибути?
Припустимо набір слабко структурованих даних (наприклад, веб-таблиці / пов'язані відкриті дані), що складається з багатьох джерел даних. Немає загальної схеми, за якою слідують дані, і кожне джерело може використовувати атрибути синоніму для опису значень (наприклад, "національність" проти "bornIn"). Моя мета - знайти деякі "важливі" атрибути, які якимось чином "визначають" сутності, …

5
Книги з математики для початківців для машинного навчання
Я інженер з інформатики, що не маю досвіду в статистиці чи вдосконаленій математиці. Я вивчаю книгу « Машинне навчання Python» від Рашка та Мирджалілі, але коли я спробував зрозуміти математику машинного навчання, я не зміг зрозуміти велику книгу, яку друг запропонував мені «Елементи статистичного навчання» . Чи знаєте ви простіші …

1
Скільки функцій для вибірки за допомогою випадкових лісів
Сторінка Вікіпедії, яка цитує "Елементи статистичного навчання", говорить: Як правило, для завдання класифікації з функцій, ⌊ √ppp функції використовуються в кожному розділі.⌊ стор-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Я розумію, що це досить гарна освічена здогадка, і це, мабуть, було підтверджено емпіричними свідченнями, але чи є інші причини, чому можна вибрати квадратний корінь? Чи …

2
Високомірні дані: Які корисні методи знати?
Через різні прокльони розмірності , точність та швидкість багатьох поширених методів прогнозування деградують на даних високих розмірів. Які є найбільш корисні методи / прийоми / евристики, які допомагають ефективно працювати з великомірними даними? Наприклад, Чи добре виконуються певні методи статистичного / моделювання на високомірних наборах даних? Чи можемо ми покращити …

2
Аналіз результатів тестування A / B, які зазвичай не розподіляються, використовуючи незалежний t-тест
У мене є набір результатів тесту A / B (одна контрольна група, одна група функцій), які не відповідають нормальному розподілу. Насправді розподіл більше нагадує розподіл Ландау. Я вважаю, що незалежний t-тест вимагає, щоб зразки були принаймні приблизно нормально розподілені, що відштовхує мене від використання t-тесту як дійсного методу перевірки значимості. …

3
Коли р-значення оманливі?
Які умови даних слід слідкувати, коли значення p може бути не найкращим способом визначення статистичної значущості? Чи є конкретні типи проблем, які належать до цієї категорії?

6
Набори даних, що розуміють кращі практики
Я студент-магістр CS з вибору даних. Мій керівник одного разу сказав мені, що перед тим, як запустити будь-який класифікатор або зробити що-небудь із набором даних, я повинен повністю зрозуміти дані та переконатися, що дані чисті та правильні. Мої запитання: Які найкращі практики для розуміння набору даних (великі розміри з числовими …

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.