Зображення та аналіз контенту, щоб визначити відмінності між смачною фотографією людини, фотографією купальника, оголеною фотографією, зображеннями порнографії ... наскільки я знаю, немає ніде поблизу досить складного, що можна зробити лише в програмному забезпеченні.
На щастя, краудсорсинг повинен бути корисним тут, як @ammoQ запропонував у коментарі. Однак я не вірю , що члени 4chan або будь-який іншої форуму оцінив би величезна кількість не є порнографічні зображення, такі як загальні веб - графіки для кнопок, рамки, реклама і т.д. будуть опубліковано.
Моя рекомендація - вивчити існуючі краудсорсингові рішення, такі як Amazon Mechanical Turk . (Однак умови надання послуг можуть прямо забороняти залучення порнографічного контенту, тому, майте на увазі, вам, можливо, доведеться знайти інше рішення або скасувати своє власне.)
Щоб зробити краудсорсинг можливим, ваше програмне забезпечення має бути готовим виконати деякі або всі наступні дії:
- Зберігайте інформацію, яка пов'язує вміст із комп'ютером, з якого він походить
- Визначте точні дублікати у всьому інвентарі та видаліть їх (але інформація про походження зберігається)
- Намалюйте примірні зображення до певного виміру, можливо, 320x200, що достатньо для ідентифікації вмісту зображення, не зберігаючи зайвих деталей і не витрачаючи місця на простір / пропускну здатність
- Створюйте нерухомі зображення відеовмісту через деякий регулярний проміжок часу та застосовуйте те саме правило пониження тиску
Нарешті, базу даних зменшених зображень, що представляють оригінальні зображення та відеовміст, перевіряють користувачі (або визначена команда, якщо у вас є ресурси) відповідно до кодексу поведінки вашої компанії. Програма або інтерфейс можуть відображати одночасно одне зображення або екран ескізів - все, що вам здається найкращим, щоб отримати точну інформацію.
Ідентифікація комп'ютера, з якого походили зображення, повинна бути абсолютно таємною та невідомою особам, що оцінюють дані. Крім того, його слід рандомізувати, і кожне зображення, ймовірно, перевірялося не раз, щоб видалити зміщення.
Таку саму техніку можна використати і для тексту, але спочатку вміст можна оцінити за рейтингами ключових слів, які вилучають основну частину тексту з огляду масового використання. Класифікація довгого документа, звичайно, забирає більше часу, ніж класифікація зображення.