Перетворення текстових даних у категорії. Ви можете спробувати різні альтернативи, скільки інформації повинні містити категорії, але для кожної змінної повинні існувати конкретні категорії. Як приклад, я візьму змінну, яка з’явилася з текстового поля опитувальної анкети щодо переважного способу людей до роботи.
Спочатку нам потрібно переконатися, що відповіді з подібним значенням написані однаково і належать до тієї ж категорії (наприклад, "на велосипеді", "на велосипеді", "на велосипеді" мають однакове значення). Тоді ви можете спробувати додатково об'єднатись у менш деталізовані категорії (наприклад, об'єднати "трамвай", "метро" та "автобус" у "Засоби громадського транспорту") або навіть більше (наприклад, "Піші прогулянки", "Пробіжки", "Велоспорт" у " Фізичні навантаження ") залежно від того, що ви намагаєтесь з’ясувати.
Ви навіть можете помістити кілька різних комбінацій у свій набір даних, і тоді наступні кроки визначать, які з них будуть використані для аналізу. У випадках, коли текстові дані можна "перекласти" впорядкованими змінними, переконайтеся, що ви це зробите (наприклад, якщо у вас "малий, середній, високий" перетворіть їх на "1,2,3").
Principal Component Analysis
абоNon-Negative Matrix Factorization
зменшать кількість змінних, збагатять рідкісні дані та перетворять усі змінні в кількісні. Крім того, оцінюючи якість моделі зменшення розмірності, автор запитання може оцінити корисність текстових змінних.