Багатьом з нас потрібно мати справу з введенням користувача, пошуковими запитами та ситуаціями, коли текст введення потенційно може містити нецензурну лексику або небажану мову. Часто це потрібно відфільтрувати.
Де можна знайти хороший список лайливих слів різними мовами та діалектами?
Чи доступні API-джерела для джерел, які містять хороші списки? Або, можливо, API, який просто говорить "так це чисто" або "ні, це не брудно" з деякими параметрами?
Які існують хороші методи, коли можна наздогнати людей, які намагаються обдурити систему, як-от $$, azz або a55?
Бонусні бали, якщо ви пропонуєте рішення для PHP. :)
Редагувати: відповідь на відповіді, які говорять, просто уникайте програмного питання:
Я думаю, що є такий фільтр, коли, наприклад, користувач може використовувати пошук публічних зображень, щоб знайти зображення, які додаються до чутливого пулу спільноти. Якщо вони зможуть шукати "пеніс", то вони, ймовірно, отримають багато фотографій, так. Якщо ми не хочемо зображень цього, то запобігання слову як пошуковому терміну - це хороший воротар, хоча, правда, це не дурний метод. Отримання списку слів в першу чергу - це справжнє питання.
Тож я справді маю на увазі спосіб з’ясувати один маркер брудним чи ні, а потім просто заборонити його. Я б не заважав запобігти таким настроям, як цілком весела посилання на жирафа з довгими шиями. Нічого, що ти можеш там зробити. :)