Хороші книги, що охоплюють попередню обробку даних та методи виявлення зовнішньої інформації


11

Згідно з назвою, чи знає хто-небудь про хорошу, сучасну книгу, яка охоплює попередню обробку даних загалом, і особливо методи зовнішнього виявлення?

Книга не повинна зосереджуватись виключно на цьому, але вона повинна вичерпно стосуватися вищезазначених тем - я не був би задоволений чимось, що є відправною точкою, і цитую перелік робіт, пояснення різних методик повинні з'явитися в сама книга.

Прийоми поводження з відсутніми даними бажаніші, але не потрібні ...


Не могли б ви сказати, які саме дані (наукові галузі чи методи вимірювання) ви шукаєте?
cbeleites незадоволений SX

Дані, зібрані від користувачів Інтернету (не можуть бути більш конкретними). Включаються часові позначки (хоча дані не строго пов'язані з часом, принаймні інтуїтивно), категоричні атрибути та безперервні атрибути. Випускники можуть бути спричинені незліченними причинами, в т.ч. веб-роботи, шкідливі користувачі та багато інших джерел. Дані також досить великі (ГБ у форматі CSV, кілька мільйонів записів)
em70,

Для мене це досить конкретно: не потрібно
докучати

Відповіді:


3

Хоча специфічно для Stata, я знайшов книгу Скотта Лонга «Робочий процес аналізу даних за допомогою Stata» , неоціненну в галузі управління та підготовки даних. Автор дає багато корисних порад щодо належних практик управління даними, таких як очищення та архівація даних, перевірка наявності видатків та поводження з відсутніми даними.


2
Я теж люблю цю книгу, але я пофарбований у шерсть користувачів Stata, що стосується управління даними. Хоча я не погоджуюся, інші в цьому списку стверджують, що це занадто статистична статистика, щоб бути корисною, тому застережуйте емпатора / лектора.
Мастеров Димитрій Васильович

Дуже статистичні дані з того, що я збираю, і я не знайомий зі статистикою, і чи не допомагав би цей проект, якби я був (дані занадто великі, використовуючи різні технології)
em70,

Книга справді дуже ідіосинкратична. Конкретні методи обробки даних (і особливо метадані) є специфічними для статистики, але загальні ідеї можуть бути передані між платформами. Я здивований, що при співвідношенні приблизно 20 книг Stata / 100 R книг на ринку немає порівнянних книг про організацію робочого процесу в R - це остання неможлива? Найбільший об'єм пам'яті, яку я яскраво пам'ятаю, виділяв Stata, - це 48Gb на 64Gb машині - ось чи важливий розмір. Якщо вам потрібно маніпулювати об'єктами дикої різної структури, ви хочете робити це в R, а не в Stata.
Стаск

0

Для SAS існує методика очищення даних Рона Коді за допомогою програмного забезпечення SAS . На SAS-L є приказка: "Ніколи не можеш помилитися з книгою Рона Коді"


Я боюся, що SAS не є інструментом вибору в моїх налаштуваннях, і я не знайомий з цим. Крім того, я шукаю якийсь підхід, а не кулінарну книгу. Скажімо, я переживаю щось, що більше стосується математичної та модельної речей.
em70

0

Якщо ви маєте основи (визначення сторонніх, відсутніх значень, зважування, кодування) залежно від теми, у звичайній академічній літературі можна знайти набагато більше. Наприклад, в опитувальних дослідженнях (це тема, коли багато речей може піти не так, і схильна до багатьох джерел упередженості), можна знайти багато хороших статей.

Готуючись до регулярної кроссекційної регресії, справи можуть бути менш складними. Проблема може виникнути, наприклад, у тому, що ви видалите занадто багато "чужих людей" і тим самим штучно добре підходите до своєї моделі.

Тому я також рекомендую вам, крім того, щоб вивчити хороші методики, також пам’ятайте про здоровий глузд. Переконайтесь, що ви застосовуєте методи правильно, а не сліпо. Щодо обговорення програмного забезпечення в інших відповідях. Я думаю, що SPSS не є поганим для підготовки даних (я також чув хороші речі про SAS) залежно від розміру вашого набору даних. Випадаючі меню дуже інтуїтивно зрозумілі.

Але як пряма відповідь на ваше запитання, академічна література може бути чи не дуже корисним джерелом для підготовки ваших даних залежно від теми та аналізу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.