Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть.
Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я хочу отримати інформацію з цих звітів, яка може бути використана в кількісному аналізі, і в ідеалі більше, ніж прості пошукові слова за ключовими словами / регулярними виразами за допомогою grep
/ awk
і т.д.
Наскільки корисна для цього обробка природних мов? Які ще корисні підходи до розробки тексту? Наскільки я розумію, це велике поле, і, швидше за все, деякі звіти повинні бути перетворені, щоб використовуватись як корпус. Чи варто вкладати якийсь час для ознайомлення з літературою та методами? Чи може це бути корисно і чи було раніше щось подібне? Чи варто це з точки зору винагороди, тобто чи можу я отримати потенційно корисну інформацію, використовуючи NLP для емпіричного вивчення економіки?
Можливо, є фінансування, щоб найняти когось, щоб прочитати та підготувати деякі звіти. Це більш масштабний проект, і є можливість подати заявку на додаткове фінансування. Я можу надати більш детальну інформацію про цю тему, якщо вкрай необхідно. Одне потенційне ускладнення полягає в тому, що мова - німецька, а не англійська.
Щодо кваліфікації, я здебільшого навчаюсь з економетрики і маю певні знання про обчислювальну статистику на рівні Хасті та ін. книга. Я знаю Python, R, Stata і, можливо, міг швидко познайомитися з Matlab. Враховуючи бібліотеки, я вважаю, що Python є інструментом вибору для цього. Ніякого навчання якісним методам, якщо це актуально, але я знаю деяких людей, до яких я міг би звернутися.
Я радий за будь-яку інформацію щодо цього, тобто якщо це потенційно корисно, якщо так, то з чого почати читати та на яких інструментах зосередити увагу.