Використання інструментів для видобутку тексту / природної мови для економетрики


9

Я не впевнений, чи повністю це питання тут підходить, якщо ні, видаліть.

Я студент економіки. Для проекту, який досліджує проблеми соціального страхування, я маю доступ до великої кількості звітів про адміністративні справи (> 200 тис.), Які стосуються оцінки відповідності. Ці звіти, можливо, можуть бути пов'язані з окремою адміністративною інформацією. Я хочу отримати інформацію з цих звітів, яка може бути використана в кількісному аналізі, і в ідеалі більше, ніж прості пошукові слова за ключовими словами / регулярними виразами за допомогою grep/ awkі т.д.

Наскільки корисна для цього обробка природних мов? Які ще корисні підходи до розробки тексту? Наскільки я розумію, це велике поле, і, швидше за все, деякі звіти повинні бути перетворені, щоб використовуватись як корпус. Чи варто вкладати якийсь час для ознайомлення з літературою та методами? Чи може це бути корисно і чи було раніше щось подібне? Чи варто це з точки зору винагороди, тобто чи можу я отримати потенційно корисну інформацію, використовуючи NLP для емпіричного вивчення економіки?

Можливо, є фінансування, щоб найняти когось, щоб прочитати та підготувати деякі звіти. Це більш масштабний проект, і є можливість подати заявку на додаткове фінансування. Я можу надати більш детальну інформацію про цю тему, якщо вкрай необхідно. Одне потенційне ускладнення полягає в тому, що мова - німецька, а не англійська.

Щодо кваліфікації, я здебільшого навчаюсь з економетрики і маю певні знання про обчислювальну статистику на рівні Хасті та ін. книга. Я знаю Python, R, Stata і, можливо, міг швидко познайомитися з Matlab. Враховуючи бібліотеки, я вважаю, що Python є інструментом вибору для цього. Ніякого навчання якісним методам, якщо це актуально, але я знаю деяких людей, до яких я міг би звернутися.

Я радий за будь-яку інформацію щодо цього, тобто якщо це потенційно корисно, якщо так, то з чого почати читати та на яких інструментах зосередити увагу.


LASSO, регресія в нижньому куті та логістичний аналіз - це кілька потенційно важливих інструментів. Ви можете перевірити, як я підійшов до подібної проблеми для мого доктора наук. дисертація тут і моя публікація в блозі про інструменти NLP в економіці тут . Якщо у вас є де-небудь з цим, було б чудово почути про ваш прогрес або будь-які проблеми, з якими ви могли зіткнутися.
градстудент

Відповіді:


2

Я думаю, було б корисно вам визначити, яку інформацію ви хочете отримати з даних. Простий пошук за ключовими словами / регулярними виразами може бути дуже корисним для вас. Я працюю в страхуванні, і ми часто використовуємо цей вид видобутку тексту - це, мабуть, наївно і, безумовно, недосконало, але це порівняно хороший початок (або близьке наближення) до того, що нас загалом цікавить.

Але на головне, щоб визначити, чи підходить обраний вами метод, рекомендую визначити, що саме ви хочете отримати з даних; на мою думку, це найважча частина.

Можливо, буде цікаво знайти унікальні слова у всіх рядках і виконати частоту найвищих 1000 слів. Це може бути обчислювально дорого (залежно від вашої оперативної пам'яті / процесора), але це може бути цікаво подивитися. Якби я досліджував дані без особливих знань про них, я б почав (інші можуть запропонувати різні погляди).

Сподіваюся, що це допомагає.


дякую, я точно думав про те, щоб почати щось подібне. Я знаю, що моє запитання розпливчасте, але мене загалом цікавить, яку саме інформацію я зможу витягти за допомогою інших методів. Признаюсь, я не впевнений, чи можна відповісти на це, не знаючи конкретного контексту.
ilprincipe

1
Я думаю, що це завжди завдання з будь-якою роботою / професією, пов’язаною з даними. Я, напевно, рекомендую ознайомитись із деякими вашими даними, якщо є змінні з описами про дані чи страховий випадок, прочитайте пару десятків - зрозумійте ці дані. Пам’ятайте, що ми все намагаємось - це моделювати базовий процес даних і дійсно зробити велику роботу з того, що ви повинні знати ці дані.
Франциско Арсео
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.