Запитання з тегом «large-data»

"Великі дані" стосуються ситуацій, коли кількість спостережень (точок даних) настільки велика, що потребує змін у тому, як аналітик даних думає чи проводить аналіз. (Не плутати з «високою розмірністю».)

12
Як слід перетворювати негативні дані, включаючи нулі?
Якщо у мене є дуже перекошені позитивні дані, я часто беру журнали. Але що мені робити із сильно перекривленими негативними даними, що включають нулі? Я бачив дві трансформації: який має чітку функцію, яка 0 відображає до 0.журнал( х + 1 )log⁡(x+1)\log(x+1) де c оцінюється або встановлюється як дуже невелике додатне …

14
Чи великі набори даних не підходять для тестування гіпотез?
В недавній статті в Amstat Новини , автори (Марк ван дер Лан і Шеррі Роуз) заявив , що «Ми знаємо , що для досить великих розмірів вибірки, кожне дослідження, в тому числі ті , в яких нульова гіпотеза про відсутність ефекту вірно - буде оголосити статистично значущий ефект. " Ну, …

5
Які навички потрібні для проведення масштабних статистичних аналізів?
Багато статистичних робочих місць вимагають досвіду з великими масштабами даних. Назвіть види статистичних та обчислювальних навичок, які знадобляться для роботи з великими наборами даних. Наприклад, як щодо побудови регресійних моделей з набором даних з 10 мільйонів зразків?

7
Проблеми промисловості проти Kaggle. Чи важливіше збирати більше спостережень та мати доступ до більшої кількості змінних, ніж фантазійне моделювання?
Я би сподівався, що назва сама пояснює. У Kaggle більшість переможців використовують укладання з часом сотнями базових моделей, щоб вичавити кілька зайвих% MSE, точність ... Загалом, у вашому досвіді, наскільки важливим є фантазійне моделювання, таке як складання vs просто збір більше даних та більше функцій для даних?

8
Чи вибірка є актуальною в часи "великих даних"?
Або тим більше "буде"? Великі дані роблять статистику та відповідні знання ще важливішими, але, здається, недооцінюють теорію вибірки. Я бачив цей галас навколо "Великих даних" і не можу не задатися питанням, що "чому" я б хотів проаналізувати все ? Хіба не було причини, щоб "Теорія вибірки" була розроблена / впроваджена …

10
Який хороший алгоритм для оцінки медіани величезного набору даних за один раз?
Я шукаю хороший алгоритм (маючи на увазі мінімальні обчислення, мінімальні вимоги до пам’яті), щоб оцінити медіану набору даних, яка занадто велика для зберігання, так що кожне значення може бути прочитане лише один раз (якщо ви явно не зберігаєте це значення). Немає меж у даних, які можна припустити. Наближення добре, поки …

10
Що саме є великими даними?
Мені кілька разів задавали таке питання: Що таке Big-Data? Як студентами, так і моїми родичами, які переживають інформацію про статистику та ML. Я знайшов цей CV-пост . І я відчуваю, що згоден з єдиною відповіддю там. Сторінка Вікіпедії також має деякі коментарі до цього, але я не впевнений, чи дійсно …
44 large-data 

2
Як зробити дійсні висновки з "великих даних"?
"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі …

6
Розмір ефекту як гіпотеза для перевірки значимості
Сьогодні у Cross Valified Journal Club (чому ти там не був?) @Mbq запитав: Як ви вважаєте, ми (сучасні вчені даних) знаємо, що означає значення? І як це стосується нашої впевненості в наших результатах? @Michelle відповів, як деякі (включаючи мене) зазвичай: Я вважаю, що концепція значущості (заснована на p-значеннях) все менш …

5
Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]
Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)? Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную …

3
Поліноміальна регресія за допомогою scikit-learn
Я намагаюся використовувати scikit-learn для поліноміальної регресії. З того, що я читаю, поліноміальна регресія є особливим випадком лінійної регресії. Я сподівався, що, можливо, одна із узагальнених лінійних моделей scikit може бути параметризована для розміщення поліномів вищого порядку, але я не бачу варіанту для цього. Мені вдалося скористатись регрессором векторної підтримки …

9
Програмні засоби для статистики та обміну даними для роботи з великими наборами даних
В даний час мені доведеться проаналізувати приблизно 20 млн записів та побудувати моделі прогнозування. Поки я спробував Statistica, SPSS, RapidMiner та R. Серед цих даних Statistica, здається, є найбільш підходящим для роботи з обміном даними, і користувальницький інтерфейс RapidMiner також дуже зручний, але здається, що Statistica, RapidMiner і SPSS підходять …

1
Сучасне потокове навчання
Останнім часом я працюю з великими наборами даних і знайшов чимало паперів потокових методів. Назвати декілька: Слідкуйте за регульованим лідером та дзеркальним походженням: теорії еквівалентності та регуляризація L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Потокове навчання: однопрохідні SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Первинна оцінка під-GrAdient SOlver для SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf або тут: Чи може …

1
Як візуалізувати величезну таблицю з надзвичайними ситуаціями?
У мене є дві змінні: назва наркотиків (DN) та відповідні побічні явища (AE), які стоять у співвідношенні «багато до багатьох». Зафіксовано 33 556 найменувань препаратів та 9 556 побічних подій. Розмір вибірки становить близько 5,8 мільйона спостережень. Я хочу вивчити та зрозуміти зв'язок / зв’язок між DN та AE. Я …

3
Перший крок для великих даних (
Припустимо, ви аналізуєте величезний набір даних у розмірі мільярдів спостережень на день, де кожне спостереження має кілька тисяч розріджених та, можливо, зайвих числових та категоріальних змінних. Скажімо, є одна проблема регресії, одна незбалансована проблема бінарної класифікації та одне завдання "з'ясувати, які прогнози є найважливішими". Моя думка, як підійти до проблеми: …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.