Газетер або будь-який інший варіант функції навмисно фіксованого розміру здається дуже популярним підходом в наукових роботах, коли у вас є проблеми обмеженого розміру, наприклад, NER у фіксованому корпусі, або POS-теги або щось інше. Я б не вважав це обманом, якщо єдиною особливістю, яку ви будете використовувати, є відповідність Gazetteer.
Однак, коли ви тренуєте будь-яку модель NLP, яка покладається на словник під час навчання, ви можете отримати реальний показник продуктивності у світі нижче, ніж повідомляв би ваш початковий тестування, якщо ви не зможете включити всі цікаві об’єкти до візитника (і чому тоді ви потрібна ця модель?), оскільки ваша навчена модель буде покладатися на функцію в якийсь момент, а у випадку, коли інші функції будуть занадто слабкими або не описовими, нові об'єкти, що цікавлять, не розпізнаються.
Якщо ви використовуєте газетер у своїх моделях, ви повинні переконатися, що ця функція має функцію зустрічного, щоб дозволяти моделі балансувати себе, так що проста відповідність словника не буде єдиною особливістю позитивного класу (і що ще важливіше, газетер повинен співпадають не лише позитивні приклади, але й негативні).
Наприклад, припустимо, що у вас є повний набір нескінченних змін усіх імен осіб, що робить загальну особу NER неактуальною, але тепер ви намагаєтеся вирішити, чи здатний об'єкт, згаданий у тексті, співати. Ви будете покладатися на особливості включення до свого персонального газета, який дасть вам багато помилкових позитивних результатів; тоді ви додасте функцію, орієнтовану на дієслова " Is Subject of verb sing ", і це, ймовірно, дасть помилкові позитиви від усіх видів об'єктів, таких як птахи, ваш животик, коли ви голодні, і п'яний хлопець, який думаєвін може співати (але будьмо чесними, він не може) - але ця дієслова, орієнтована на глагол, буде врівноважуватись вашим персональним газетером, щоб присвоїти позитивний клас «співака» особам, а не тваринам чи будь-яким іншим предметам. Хоча це не вирішує справи п’яного виконавця.