Чи є спосіб змусити спамасина оцінити більш високі рядки тіла повідомлення?

Дуже багато спаму проникає через фільтр на поштовому сервері, який я запускаю з порівняно простим трюком, починаючи з декількох рядків (неймовірно очевидного) схуднення або іншого тексту шахрайства вгорі, а потім більшого тексту тексту з документації по програмуванню - або, що найгірше, з усіх текстів, зіскоблених з Stack Exchange . У кращому випадку Спамассасін вважає це BAYES_50, і трапляється, що решта повідомлень побудована досить ретельно, щоб вони не потрапляли на інші тригери. (Наприклад, заголовки мінімальні та правильні.) Часто додані уривки досить чітко узгоджуються з моїми законними інтересами, що загальне повідомлення оцінюється як BAYES_00, тому що самі спам-маркери просто переповнені соковитими нотками вирішення проблем sysadmin.

Верхня частина настільки очевидно спам (і насправді має тенденцію бути дуже схожою на раніше отримані та навчені спам-повідомленнями), що я настільки вражена, що вона переживає - але явно це є. Схоже, окремий пропуск, який набрав перших 25 (або близько того) рядків повідомлення і зважив, що сильно вирішить проблему. Чи є спосіб це зробити?

Кілька людей запропонували написати звичайні регулярні вирази. Я не хочу вникати в це, оскільки це постійна програшна битва. Це те, що робили люди до того, як байєсівське сортування спаму набуло широкого застосування, і це було взагалі жахливо. Жодна людина не може йти в ногу . Це не набагато ефективніше, ніж просто натискання клавіші видалення для кожного спам-повідомлення, і з моєї сторони набагато більше роботи.

Байєсівська фільтрація спаму працює. Він навіть працює на цьому спамі, якщо я розділяю частину " над складкою " і просто проаналізую цю частину, видаляючи приманку / полову. Питання: як я можу змусити Спамассасіна це зробити?

spam spamassassin

— mattdm
джерело

Чи включений байєсовий фільтр?

— Кондібас

@kondybas Так. І це є частиною проблеми, оскільки текст прокладки переважає спам-частину на велику кількість.

— mattdm

Яким MTA ви користувалися?

— Кондібас

Скільки баєсівських тренувань ви провели на цих спамах? Я б очікував, що алгоритм Байєса розробить його недовго.

— mc0e

@ mc0e Це не може. Це просто не так магічно розумно. Більш складна система машинного навчання, можливо, могла це зробити, але я думаю, що, гм, "одна проста хитрість", яку я прошу тут, також буде.

— mattdm

Я сам (маленький) яскравий борець проти спаму. І через багато проблем, з якими ви стикаєтесь, я закінчив робити брудні речі сам років тому.

Тепер це не відповідь на ваше конкретне питання, а на вашу конкретну проблему. Тому, будь ласка, не зволікайте через це.

Як я вирішив цю проблему, було змінити скрипт sa_filter-post.pl, який використовує сервер XMail, який викликає спам-файл у файлі електронної пошти і робить там незначні речі, щоб обробити не весь файл, а конкретні його частини на основі деякі специфічні правила (твердо кодовані мною). так, regex'es, але поки вони працюють для мене (у мене є купа інших сценаріїв до і після цього, щоб вони могли грати роль)

Наприклад, у мене є регулярний вираз, який виловлює телефонні номери. Спамер залишив це в повному обсязі, так що виходить прямо на обробку лише середніх 400 символів файлу (я отримав 400 до спроб та помилок дійсно, починаючи з 200). Зауважте, що досить важко вибрати середину побаченого порівняно з тим, що є у файлі.

Є ще одна, яка має ту саму структуру таблиці html з "продуктами", фіктивним заголовком та непридатним колонтитулом, тому я викреслюю їх, я викреслюю стовпець "коментарів" з коментарями із продуктів, а потім передаю їх спаму.

І так далі, ви отримуєте картину.

Але не всі правила ідеальні, тому я роблю тут трохи магії, присвоюючи приватний бал кожному правилу, який я жорстко кодую і налаштовую вгору або вниз, коли потрібно, виходячи з того, як правило поводиться (і колись я в кінці видаляю правила всіх) ). Потім я змінюю показник SA на приватний рахунок. Причиною, що я це зробив, було те, що чомусь SA дав лише бали на зразок 4. щось, начебто чітко спам за правилами, що я також мав сильні почуття, щоб їх зрозуміти правильно. Тож я дав їм трохи поштовх перейти на 5,0, поєднаний з деякими сценаріями після обробки, які враховують деякі інші змінні (джерело електронної пошти, цілі електронної пошти, структура заголовка тощо), це більш-менш вбиває спам. з.

Тепер я усвідомлюю, що це не те, на що ви сподівалися, але в моєму випадку це дає мені багато сил над тим, що сканується, це просто те, що мені потрібно налаштувати речі вручну, а потім раз у раз робити невеликі дотики - Збільшити значення / regex'es.

Але у вашому випадку все набагато простіше, оскільки все, що вам потрібно зробити, - це використовувати простий скрипт bash, який буде викликаний вашим MX замість spamc, і цей скрипт використовує головну команду, щоб отримати лише перше, що б кількість байтів ви хочете, і передайте цей тимчасовий файл спаму.

Вміст скрипту трохи залежатиме від вашого поштового сервера, але це не повинно бути важким для з'ясування.

(Зауважте, що я говорив лише про велику частину моєї настройки, щоб побачити можливості цього варіанту)

PS: Я особисто ніколи не отримував такого роду спам-листів (з програмами, пов’язаними з ними смаколиками), тому мені цікаво, чи ви когось не дратували і тепер на вас націлені. Це пояснило б спеціально створені електронні листи. Причина, про яку я думаю про таку можливість, полягає в тому, що роки тому, коли я був дуже активним на різних ІТ-форумах і групах, я дратував деяких людей і раз у раз я отримував різні типи атак на мій сервер, включаючи спам по електронній пошті. . Але тоді ідіоти не були такими розумними :)

— ciuly
джерело