Зауважте, що я все роблю в Р.
Проблема полягає в наступному:
В основному, у мене є список резюме (резюме). Деякі кандидати будуть мати досвід роботи раніше, а деякі ні. Мета полягає в тому, щоб: грунтуючись на тексті їх резюме, я хочу класифікувати їх у різні сфери роботи. Я, зокрема, в тих випадках, коли кандидати не мають жодного досвіду / є студентом, і я хочу зробити прогноз, щоб класифікувати, до яких галузей роботи цей кандидат, швидше за все, належить після закінчення навчання.
Питання 1: Я знаю алгоритми машинного навчання. Однак я ніколи раніше не робив НЛП. Я зіткнувся з виділенням Латентного Діріхле в Інтернеті. Однак я не впевнений, чи це найкращий підхід для вирішення моєї проблеми.
Моя оригінальна ідея: зробити це наглядною проблемою навчання . Припустимо, у нас вже є велика кількість мічених даних, це означає, що ми правильно позначили сектори робочих місць для списку кандидатів. Ми тренуємо цю модель за допомогою алгоритмів ML (тобто найближчого сусіда ...) і подаємо в ті дані , що не мають маркування , які є кандидатами, які не мають досвіду роботи / є студентами, і намагаємося передбачити, до якого сектору робочих місць вони належатимуть.
Оновіть питання 2: Чи було б гарною ідеєю створити текстовий файл, витягнувши все з резюме та надрукувавши ці дані у текстовому файлі, щоб кожне резюме було пов’язане з текстовим файлом, який містить неструктуровані рядки, і тоді ми застосовано методи виведення тексту до текстових файлів і зробити дані структурованими або навіть створити матрицю частот термінів, що використовуються з текстових файлів? Наприклад, текстовий файл може виглядати приблизно так:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Це те, що я мав на увазі під «неструктурованим», тобто згортанням всього в єдиний рядок.
Чи не такий підхід? Будь ласка, виправте мене, якщо ви вважаєте, що мій підхід невірний.
Питання 3: Хитра частина полягає в тому, як визначити та витягнути ключові слова ? Використовуючи tm
пакет в R? на якому алгоритмі tm
базується пакет? Чи варто використовувати алгоритми NLP? Якщо так, то які алгоритми слід переглянути? Будь ласка, вкажіть мені кілька хороших ресурсів, на які слід також звернути увагу.
Будь-які ідеї були б чудовими.