Клієнт хоче, щоб ми перевіряли робочі машини для порнографії. Це можливо?

30

Давній клієнт попросив нас допомогти екранувати свої робочі машини для порнографії. Вони турбуються про відповідальність, якщо знайдено чутливі матеріали. Їх основні проблеми (з очевидних причин) - це відео, аудіо та файли зображень. Якщо можливо, вони також хочуть сканувати текстові документи на предмет невідповідного вмісту. У них є ієрархія невмілого контенту, починаючи з кричущо незаконних (мені не потрібно перераховувати деталей), переходячи до очевидних образливих дій, а також включаючи речі, які для когось можуть бути образливими - подумайте про рекламу нижньої білизни, жартівливі картки недоліки тріщини і все, що стосується Хауї Манделя.

Мої запитання:

Це етично? Я думаю, що це так, оскільки кожен працівник юридично погоджується, що їхня робоча машина належить компанії та підлягає обшуку. Показ не повинен відбуватися на персональних машинах, приведених на роботу.
Це можливо? Я багато робив по обробці / індексації зображень, але це виглядає як цілий новий світ складності.
Будь-які посилання на вдалі методики виявлення порно?
Чи доречно мені архівувати результати, коли щось виявлено?

freelancing

— Мізерний Роджер
джерело

29

Чиє порно використовує для тестування цього?

— ChaosPandion

12

Я хочу бути тестером для цього проекту !!

— Mayank

56

Створіть сценарій, який розміщує всі зображення, які він знайде на 4chan; якщо інші учасники відповідають "MOAR!", ви знаєте, що це порно. Якщо сценарій заборонено, це, ймовірно, CP.

— користувач281377

8

Вам доведеться подумати, що для цього вже доступні ненадцять мільйонів комерційних продуктів.

— GrandmasterB

34

Чесне запитання: чи це насправді ймовірна проблема? Порно на робочому комп’ютері? Я маю на увазі… хто це робить? Крім того, як вони мають намір обробляти випадковий вміст порно? Нещодавно мій GF мав на своєму робочому ПК вірус, який перенаправляв довільні запити Google на порно-сайти, і так часто я випадково набираю "python.com" [NSFW!] Замість "python.org" ... Більше того, якщо це насправді це проблема, я думаю, що це видає більш фундаментальну проблему довіри та / або професіоналізму в компанії. Зверніться до цього, а не шукайте комп’ютери.

— Конрад Рудольф

125

Зробити це можна за допомогою 90% Геадології , 10% програмного забезпечення.

По-перше, тихо скануйте комп’ютери співробітників, будуйте базу даних файлів і розмірів для кожного співробітника.

Потім просочіть пам’ятку, що всі ПК будуть відскановані на предмет сумнівного вмісту, тобто боси мають програму, схожу на Shazam, яка може ідентифікувати порно тощо.

Потім через пару днів знову скануйте комп’ютери на наявність файлів та розмірів. Подивіться на будь-які видалені файли, вони є фільмами чи файлами зображень? Тоді це ті працівники, за якими потрібно стежити.

Щоденно скануйте ці персональні ПК на зображення та фільми та вручну перевіряйте їх на предмет сумнівного вмісту.

— Бінарний Захист
джерело

9

І +1 за згадку про генологію.

— TRiG

5

@ Бінарний: двоступеневий підхід справді вражаючий.

— Матьє М.

2

+1від мене для посилання на бабусю!

— sbi

2

@Anonymous Поки ти на це. Створіть графічний інтерфейс у Visual Basic, щоб побачити, чи можете ви відстежувати IP-адресу. youtube.com/watch?v=hkDD03yeLnU . Якщо серйозно, це спосіб приголомшити техніку розміщення сценарію телевізійного шоу другого рівня.

— Еван Плейс

2

яка нечестива ідея! love it ♥

— Chani

75

Це очевидне завдання нейромережі. Спочатку вам потрібен великий навчальний набір зображень, вибраних експертами вашої компанії .....

Більш ефективним рішенням є оголосити, що ви будете перевіряти всі машини на порно НАЙКРАЩИЙ тиждень / місяць / що завгодно, а потім напишіть простий додаток, який просто вправляє диск. Я гарантую, що машини будуть очищені до цього часу.

ps - Кілька «серйозних» моментів - ви насправді нічого не хочете знайти.

Якщо ви знайдете пару зображень у кеш-пам’яті браузера, можливо, вони потрапили в погане посилання або хитке спливаюче вікно - пам’ятаєте вчителя, звільненого над whitehouse.com? Якщо ви звільнити їх / дисциплінувати їх для цього, тоді відбудеться люфт з боку працівників / спілки. Як би працювала ваша компанія, якщо кожен клік повинен був бути поданий на легальне затвердження до того, як ваші працівники вивчили питання або перевірили ціну в Інтернеті?

Якщо ви знайдете стопку порно на машині, як ви збираєтесь довести, що його посадив туди працівник? Чи є у вас системи безпеки та аудиту, які б виступали в суді? Чи використовуєте ви (або навіть знаєте про неї) ОС, де системний адміністратор не міг їх помістити туди і зробити так, щоб вони виглядали як файли користувача?

Крім того, на мій досвід, найпоширеніші місця для зберігання порно зображень знаходяться на ноутбуках CxO та старших приватних лікарів.

Набагато краще просто організувати, щоб файли просто зникли раніше часу.

— Мартін Беккет
джерело

+1 - хоча я б поєднав це з перевіреною людиною на основі%. Можливо, випадковим чином відбираючи 0,1% робочих станцій для реального огляду.

— Дрю

@nikie: Мартін розводив жарт щодо тренувального набору.

— Ендрю Грімм

Це дуже кумедне рішення та точне :)

— crosenblum

10

Зачекайте. Звідки ти знав, що я поклав свої порно-скрині на ноутбук генерального директора?

— Яап

1

Я був би здивований, якби люди дійсно видалили б усі свої порно, зіткнувшись із перспективою їх сканування. Програміст, мабуть, зробив би це, але інші люди IME дійсно, на жаль, такі "речі". Однак ви можете поєднати це з ідеєю Binary і придивитись до тих машин, з яких видалено багато МБ. Тим не менш, +1від мене зауваження, що ви дійсно не хочете щось знайти.

— sbi

8

Такий підхід до контролю, безумовно, болючий як для працівників, так і для ІТ-людей. Після того, як все що-небудь потрапить всередину машини працівника, немає впевненого способу її виявлення. Вам потрібно зупинити його введення в машину в першу чергу.
Найвідоміша практика для цього - очевидно, контроль над сайтами / доменом, які можна відвідати. Такий список повинен бути доступний десь у мережі. Крім цього, ви також можете відстежувати кількість зображень, відеозаписів, які завантажив працівник, і звідки вони надійшли.
Є ймовірність, що матеріал може надходити з інших веб-сайтів, наприклад із зовнішнього жорсткого диска. Можна проводити випадкову перевірку системи раз на місяць, де ви можете випадковим чином вибрати деякі відео та зображення та перевірити їх вручну. Не впевнений, як це можна зробити. Але автоматизація перевірки зображень та відео, безумовно, виходить за межі сфери, і, безумовно, буде помилковою.
Насправді я не дуже люблю ідею обмежувати співробітників робити особисті речі. Для цього слід довіряти своїм працівникам. Ваші працівники повинні бути досить зайняті в офісі, щоб вони не отримували для цього часу. Чим більше турбує, чи працівник не виконує свою роботу правильно? Або він встановив якесь зламане або зламане програмне забезпечення?

— Маной Р
джерело

1

Я погоджуюсь, що розробники - та інші творчі люди - не повинні мати зафіксовані машини. Однак - і довіряйте мені, коли я це кажу - коли у вас є 200+ працівників, які обробляють документи робочого процесу, ви не хочете надавати цим хлопцям нічого, що може їх відволікати, включаючи браузер. Так, 90% людей працьовиті і не будуть відмежовуватися, але це означає, що у вас будуть 20 людей, які затягують мотанку і непродуктивні.

— Бінарний занепокоєння

6

ці 10% все одно будуть малопродуктивними. Якщо не переглядати веб-сайти, то грати в ігри, читати, гуляти, сидіти навколо нудьгувати тощо).

— jwenting

2

Люди або роблять свою роботу, або її не роблять. Їх легше помітити, коли у тебе 200, які роблять подібні завдання, які можна виміряти.

— JeffO

2

У США є юридичні проблеми, пов’язані з порнографією на комп'ютерах компанії, і є справді серйозні юридичні проблеми, пов’язані з дитячим порно. Найбезпечніше проводити політику без порно та вживати заходів, щоб її не було.

— Девід Торнлі

7

На ринку є низка продуктів, які виконують "фільтрацію контенту" різних форм. (Пошук в Google на явних умовах викликає явних кандидатів.) Мабуть, краще використовувати один із цих продуктів, ніж будувати багато програмного забезпечення для сканування / фільтрування з нуля. Ще один варіант - просто спостерігати за кордонами; наприклад, відстежуючи зовнішні електронні листи та веб-трафік. Знову є продукти, які роблять подібні речі.

Хоча немає сумнівів у тому, що компанії етично сканувати свої комп’ютери на предмет "поганих речей", це не означає, що проблем немає.

Перший випуск:

Визначення того, що є, а що не є "заперечним змістом", є суб'єктивним.
Програмне забезпечення для виявлення зображень, відеозаписів, що містять (скажімо) "зображення оголеного тіла", (AFAIK), ймовірно, є ненадійним, що призводить до помилкових позитивних результатів та помилкових негативів.

Отже ... це означає, що комусь у вашій організації замовника потрібно переглянути "хіти". Це коштує грошей.

Друге питання: Може бути невинне пояснення. Файл можна було завантажити випадково, або він міг посадити мстивий колега. Якщо є невинне пояснення, організація замовника повинна бути обережною, що вони роблять / говорять. (Гаразд, це насправді не ваша проблема, але ви можете скористатися частиною зворотного промивання.)

Третє питання: Незважаючи на те, що компанія має право стежити за недоцільними матеріалами, багато працівників вважають це неприємним. І якщо вони занадто далеко, це вплине на моральний стан працівників. Деякі працівники будуть «гуляти». Інші можуть вжити акцій протесту ... наприклад, намагаючись створити багато помилкових позитивних результатів. (Знову ж таки, насправді не ваше питання, але ...)

Четвертий випуск: люди можуть приховати неприємні матеріали, зашифрувавши їх, розмістивши їх на портативних або знімних носіях тощо. Люди можуть підробляти метадані, щоб вони виглядали так, як хтось несе відповідальність.

— Стівен С
джерело

1

ОП заявила, що це стосується питань відповідальності, що має багато сенсу в США. Це означає відмовляти від комп'ютерів, не обов’язково звинувачуючи людей.

— Девід Торнлі

Я б сказав, що це було більше того. Розглянемо хвостовий кінець списку вмісту "не для роботи" у питанні. Здається, у когось є "порядок денний" ...

— Стівен C

@David: ВИНАГА в тому, щоб звинувачувати людей. Якщо у вас виникає потенційна проблема відповідальності, то пошук когось винного ("ця особа діяла з порушенням політики компанії, і ми можемо це довести, тому це персональна відповідальність, а не ми як компанія") стає стандартним способом роботи. Насправді це те, що більшість людей на відповідальних посадах у багатьох компаніях витрачають значну частину свого часу, роблячи, намагаючись знайти людей, винних у тому, що може піти не так, гарантуючи, що ніхто не може звинувачувати їх у будь-яких неприємностях, які вони трапляються. in.

— jwenting

6

Про юридичні аспекти у Франції:

Бос володіє комп’ютерами та підключенням до Інтернету: він може робити все, що йому заманеться.

АЛЕ конфіденційність працівників не може бути порушена. Якщо каталог на комп'ютері позначений ОСОБЛИВО, начальник не може сканувати його.

Єдиний спосіб обійти це - отримати елементи доказів того, що працівник зберігає незаконні матеріали та подати до суду запит на сканування комп'ютера (зауважте, що порнографія не є незаконною у Франції.)

— мувівічель
джерело

За винятком випадків, коли це захищений авторським правом матеріал, будь-який може вважатися крадіжкою.

— TRiG

6

У Франції існує поняття виключення з приватних копій: вам заборонено копіювати захищені авторським правом матеріали, але власники авторських прав не можуть нічого вимагати, якщо ваша копія використовується приватно.

— mouviciel

Я хочу жити у Франції ... хіба що не можу говорити по-французьки!

— Анонімний тип

5

Якщо працівники погодилися, що їх робоча машина належить компанії та підлягає обшуку, то так, це законно. Для доказування, швидше за все, буде потрібно архівування файлів.

Щодо того, як насправді знайти матеріал. Ти міг:

Перш за все, скануйте назви файлів для певного набору слів (порно, лесбіянки тощо)
Сканувати текстові документи на один і той же набір слів
Для зображень ви можете знайти середній колір зображення, і якщо цей колір трапляється в межах, який більшість буде називатися кольором "плоті", тоді позначте зображення (хтось подвійний перевіркою цих зображень, який позначений прапором, швидше за все буде необхідний ). Не хотілося б повідомити когось про зображення, яке в кінцевому підсумку є сімейною фотографією з пляжу.

Якщо ви скануєте файли під час входу в комп'ютер (наприклад, програма завантажується на кожній робочій машині та записує файли, позначені прапорами, до центральної бази даних), я не думаю, що це було б занадто нав’язливо (крім відвертої недовіри роботодавець явно має для своїх працівників).

З відеофайлами я не впевнений на 100%. Можливо, аналогічний підхід, як і при скануванні зображень (вибирайте випадкові кадри та скануйте певний рівень кольору "плоті").

Сканування аудіофайлів здається, що це призведе до розпізнавання мовлення, що є цілим "чистим бачком глистів". Сканування імені файлів, однак, буде легко і може бути виконано, як і в документах, зображеннях та відео.

— Ryan
джерело

Так, я думав так само. Тендітні тони тверді з усіма сортами. Не кажучи вже про старий великий постріл в чиюсь голову (як, наприклад, мій граватар), ймовірно, породжуватиме попередження про співвідношення плоті до не плоті. Дивовижний старт, хоча.

— Мізерний Роджер

занадто великий ризик помилкових позитивних результатів (частково залежить від бізнесу).

— 1111

Існує кольоровий простір, де більшість тонів шкіри людини падають у заданому діапазоні. YCbCr, якщо я пам'ятаю правильно. Розбийте зображення на блоки, і якщо серед більшості блоків середнє значення пікселя потрапляє в діапазон, позначте його як "шкірну" фотографію.

— Vitor Py

Є ще одна проблема. Людина, яка має завдання перевірити відео, може подати до вас позов. Я, звичайно, не хотів би цим займатися. (Не все порно - на смак усім людям.)

— Крістофер Махан

Green Dam (так, від великого уряду брата на сході) мається на увазі використовувати OpenCV для його можливостей виявлення особи. Це все ще створить багато хибних позитивних результатів, навіть у поєднанні з виявленням тону шкіри.

— rwong

4

Як сказав @Ryan, аналіз зображення може зосередитись на кольоровому аналізі.

Доцільність? Моя сестра працює в районі уряду, де вони щороку отримують певну форму аудиту, і колись це було для порно. У неї (геофізик) було кілька помилкових позитивів (рожеві скелі).

— Рік Берже
джерело

4

Останніми дослідженнями щодо виявлення порнографії з використанням традиційних методів класифікації є вагомі. Приклади доступні тут і тут .

— Nishant
джерело

3

Це етично?

Залежить від впровадження та розумних очікувань працівників. Наприклад, якщо ваше програмне забезпечення сканує будь-яку машину, підключену до мережі, то є додаткова вимога, яка потребує інфраструктури, щоб запобігти підключенню несанкціонованих машин. (Можливо, це буде очевидно, але це часто не помічається в мережах, які я бачив.)

Це можливо? Я багато робив по обробці / індексації зображень, але це виглядає як цілий новий світ складності.

Чи доцільно провести тест на наркотики кожного працівника? Можливо, і так, але я сумніваюсь у його вартості. Я б його рандомізував. Повідомте працівникам, що їхні машини можуть бути відскановані на невідповідний вміст у будь-який час.

Будь-які посилання на вдалі методики виявлення порно?

Я цього не торкаюся. Я не думаю, що я міг би стримувати почуття гумору. Але слідкуйте за проблемою Scunthorpe під час пошуку тексту.

Чи доречно мені архівувати результати, коли щось виявлено?

Цей мене стосується найбільше, і я б попросив юриста. Я підозрюю, що якщо ви знайдете незаконний вміст, ви можете технічно зобов'язати його оприлюднити. Це погано, особливо якщо користувач не зазнав власних вин. Вам (r клієнту) знадобиться реальна юридична порада щодо вирішення цього питання. Залучайте HR та адвокатів.

— kojiro
джерело

2

З чисто технічної точки зору: Це звучить як проблема розпізнавання об'єктних категорій. Я ніколи нічого подібного не робив, але з того, що я читав, системи розпізнавання мистецьких категорій працюють так:

Спочатку ви шукаєте велику кількість цікавих точок (наприклад, за допомогою детектора кута Харріса, екстремальних точок фільтрів LoG / DoG у просторі масштабу; деякі автори навіть пропонують вибрати випадкові точки)
Потім ви застосовуєте перетворення функції до кожної точки (щось на зразок SIFT, SURF, GLOH або багато інших)
Поєднайте всі функції, знайдені в гістограмі (Bag-Of-Features)
Використовуйте стандартні алгоритми машинного навчання (наприклад, машини, що підтримують вектор), щоб дізнатись про відмінність між категоріями об'єктів, використовуючи велику кількість навчальних зображень.

— нікі
джерело

2

Операційна система кожного комп'ютера, ймовірно, була встановлена з зображення диска.

почніть із зображення диска та отримайте список файлів, які, ймовірно, не потрібно сканувати.
отримати список всіх інших файлів на кожному ПК.
витягніть фактичні файли з 10-20 випадкових машин і використовуйте в якості тестового шару
пошук предметів у словнику нецензурних та сумнівних слів (гарячі, глечики, «ледь легальні», жарти тощо)
Перегляд відео - чи повинен хтось взагалі мати відео?
Перегляд фотографій
Будь-які файли відео чи зображень, які викликають сумніви, можуть бути використані для пошуку інших машин

Потрапити одного або двох працівників, перш ніж хтось щось поставить на робочий комп'ютер.

Стягуйте за цю послугу нецензурну суму грошей. Я буду Заппосом, що ніколи цього не зробить своїм працівникам.

— JeffO
джерело

2

Припустимо, що ви адміністратор домену в мережі.

C $ на кожен настільний комп'ютер користувачів.
Скопіюйте порнофайли в особисту приватну частку.
Видалити з початкового місця.
Зробіть попкорн.
Повний детальний аналіз усіх "доказів".

— Анонімний тип
джерело

1

Я просто хотів прокоментувати, але маю лише 1 повтор, тому не можу.

У випадку з Gravatar ви можете додати функцію для фільтрації зі списку чистих сайтів у місцях кеш-інтернету. IE Gravatar та інші сайти, від яких ви не хочете отримувати помилкові позитиви. Ви також можете відфільтрувати такі речі, як шпалери робочого столу. Якщо вони показують порно на робочому столі, ви можете подумати, що люди помітять поза вашим аудитом.

— a2j
джерело

1

Такі речі ніколи не працюють надійно. Ви можете використовувати список блоку для блокування доменів або від імені, або після включення до якогось списку (звичайна практика). Але ці списки ніколи не є повними, і блокування імені на основі критеріїв може призвести до багатьох помилкових позитивних результатів.

Ви можете заблокувати слова, що з’являються в тексті сайтів, але знову ж таки це може призвести до помилкових позитивів (і стає дуже повільним, оскільки вам потрібно розібрати кожен окремий біт даних, що проходить через вашу мережу, щоб виявити «неслухняні біти»).

ви можете заблокувати зображення (і, можливо, сайти, що містять їх), на яких відображається більше певного відсотка шкірних тонів. Але знову ж таки це призводить до багатьох помилкових позитивних результатів. Відомий приклад тому університетський медичний відділ, що блокує медичну енциклопедію із зображеннями кінцівок і тулубів, що показують рани та стан шкіри. І звичайно, це буде расистським способом, оскільки блокує лише певні тони шкіри. Якщо ви блокуєте кольори, які відповідають кавказькій шкірі, завжди є порно, використовуючи, наприклад, чорних акторів.

Найкраще просто довіряйте своїм працівникам та вживайте політику, коли ця довіра буде порушена.

— jwenting
джерело

персональний проксі-сервер, зашифрований прихований розділ, віртуальні машини. Завжди є спосіб приховати речі. Звичайно, є андроїд смартфони з 3g. Востаннє я перевірив, що жоден спосіб не може роботодавцем зупиняти свого працівника дивитися все, що вони хочуть, на своєму телефоні із власною пропускною здатністю.

— Крістофер Махан

ось чому технічні засоби марні, безумовно, без політики. Якщо люди знають, що дозволено, а що ні (і я не можу думати про освічену людину, яка використовувала б робочу машину для порно, навіть без такої політики, але це інша справа), більшість з них буде дотримуватися цього. Ті, хто цього не зробить, рано чи пізно дізнаються, чи є на місці технічні засоби чи ні (швидше за все, хтось побачить на екрані щось, чого не мали бачити, проходячи повз).

— jwenting

1

Я не знаю, повинна бути відповідь на середній рівень, яка не настільки інвазивна, але вирішує справжнє питання, ВІДПОВІДАЛЬНІСТЬ.

Нехай вони підписують відмову, яка звільняє компанію від будь-якої відповідальності за незаконні речі, знайдені на робочих ПК, тобто не пов'язаних з роботою.

— кросенблюм
джерело

Я не думаю, що відмова працювала б у США. Я не знаю про інші країни.

— Девід Торнлі

Чому б це не працювало? Якщо користувач має можливість завантажувати вміст, встановлювати програмне забезпечення, то він, природно, бере на себе відповідальність за нього.

— crosenblum

І якщо компанія має можливість фільтрувати порно, що, як правило, передбачається, а це не так, це частково є відповідальністю компанії.

— Девід Торнлі

не скрізь. У деяких країнах компанія несе відповідальність за те, що відбувається з будь-яким обладнанням, яким вони володіють, незалежно від того, працював він працівник за призначенням чи ні. Це стосується певної міри і до США, адже були спроби подати позов до компаній за незаконне використання їх продукції після законної продажу цих товарів (див., Наприклад, постійні позови проти виробників вогнепальної зброї за відповідальність за їхню продукцію використовується в злочинах, судових справах, які, на щастя, зазвичай викидаються, але, на жаль, не завжди).

— jwenting

1

скажіть користувачеві, що URL вважається дорослим - це робить проксі Bluecoat .
Ліцензувати те, що google робить у своєму пошуку зображень http://code.google.com/apis/safebrowsing/ http://www.google.com/search?q=google+image+recognition+api
сканувати комп’ютер на предмет, які не містяться за попередньо узгодженим списком.

— mplungjan
джерело

1

Зображення та аналіз контенту, щоб визначити відмінності між смачною фотографією людини, фотографією купальника, оголеною фотографією, зображеннями порнографії ... наскільки я знаю, немає ніде поблизу досить складного, що можна зробити лише в програмному забезпеченні.

На щастя, краудсорсинг повинен бути корисним тут, як @ammoQ запропонував у коментарі. Однак я не вірю , що члени 4chan або будь-який іншої форуму оцінив би величезна кількість не є порнографічні зображення, такі як загальні веб - графіки для кнопок, рамки, реклама і т.д. будуть опубліковано.

Моя рекомендація - вивчити існуючі краудсорсингові рішення, такі як Amazon Mechanical Turk . (Однак умови надання послуг можуть прямо забороняти залучення порнографічного контенту, тому, майте на увазі, вам, можливо, доведеться знайти інше рішення або скасувати своє власне.)

Щоб зробити краудсорсинг можливим, ваше програмне забезпечення має бути готовим виконати деякі або всі наступні дії:

Зберігайте інформацію, яка пов'язує вміст із комп'ютером, з якого він походить
Визначте точні дублікати у всьому інвентарі та видаліть їх (але інформація про походження зберігається)
Намалюйте примірні зображення до певного виміру, можливо, 320x200, що достатньо для ідентифікації вмісту зображення, не зберігаючи зайвих деталей і не витрачаючи місця на простір / пропускну здатність
Створюйте нерухомі зображення відеовмісту через деякий регулярний проміжок часу та застосовуйте те саме правило пониження тиску

Нарешті, базу даних зменшених зображень, що представляють оригінальні зображення та відеовміст, перевіряють користувачі (або визначена команда, якщо у вас є ресурси) відповідно до кодексу поведінки вашої компанії. Програма або інтерфейс можуть відображати одночасно одне зображення або екран ескізів - все, що вам здається найкращим, щоб отримати точну інформацію.

Ідентифікація комп'ютера, з якого походили зображення, повинна бути абсолютно таємною та невідомою особам, що оцінюють дані. Крім того, його слід рандомізувати, і кожне зображення, ймовірно, перевірялося не раз, щоб видалити зміщення.

Таку саму техніку можна використати і для тексту, але спочатку вміст можна оцінити за рейтингами ключових слів, які вилучають основну частину тексту з огляду масового використання. Класифікація довгого документа, звичайно, забирає більше часу, ніж класифікація зображення.

— JYelton
джерело