Я знаю когось, хто працює над проектом, який передбачає введення файлів даних без огляду на стовпці чи типи даних. Завдання - взяти файл з будь-якою кількістю стовпців та різними типами даних та вивести підсумкову статистику на числові дані.
Однак він не знає, як рухатись щодо динамічного призначення типів даних певним числом даних. Наприклад:
CITY
Albuquerque
Boston
Chicago
Це, очевидно, не числові дані, і вони зберігатимуться як текст. Однак,
ZIP
80221
60653
25525
не є чітко позначеними як категоричні. Його програмне забезпечення призначало б поштовий індекс як чисельну та вихідну підсумкову статистику для нього, що не має сенсу для такого роду даних.
Кілька ідей у нас були:
- Якщо у стовпці є цілі числа, позначте його як категоричне. Це, очевидно, не вийшло, але це була ідея.
- Якщо стовпець має менше n унікальних значень і є числовим, позначте його категорично. Це може бути ближче, але все ж можуть виникнути проблеми з числовими даними, що проникають.
- Підтримуйте перелік загальних числових даних, які насправді мають бути категоричними, і порівняйте заголовки стовпців із цим списком на відповідність. Наприклад, будь-що з "ZIP" в ньому було б категоричним.
Мій кишечник говорить мені, що немає способу точно призначити числові дані категоричними чи числовими, але сподівався на пропозицію. Будь-яке розуміння, яке ви маєте, дуже цінується.