Борьба со спамом

⇐ ПредыдущаяСтр 14 из 15Следующая ⇒

Каждый из методов борьбы со спамом, особенно сразу после появления, достаточно эффективен, однако ни один из них не является «абсолютным оружием». Поэтому воспринимать маркетинговые заявления компаний-производителей о том, что их средства способны блокировать до 99, 9% спама, необходимо с осторожностью. Главное – необходимо понять, что со спамом можно бороться достаточно эффективно, но для этого необходимо применять комплексный подход, включающий меры как технического, так и организационного характера. Борьба со спамом должна быть частью политики информационной безопасности организации.

Обнаружить спам помогают следующие критерии:

- Спам-сообщение должно содержать рекламную информацию от заказчика рассылки, то есть произвольного текста в нем быть не может, смысловая нагрузка содержимого сообщения будет вполне определенной.

- Спам-сообщение должно легко читаться. Оно не может быть зашифровано, основной объем содержится в составе сообщения. Количество случайных последовательностей («мусора»), видимых пользователем, должно быть небольшим. При нарушении этих правил снижается читаемость, а следовательно, и отклик на рекламу.

Среди основных технических средств, обеспечивающих фильтрацию спама, наиболее эффективными являются специализированные спам-фильтры и различные системы контроля электронной почты.

Существуют два основных метода защиты от спама: защита от поступления спама на этапе получения почтовым сервером и «отделение спама» от остальной почты уже после получения почтовым сервером или клиентом (в зависимости от места установки фильтра) путем анализа содержимого письма.

Среди первого метода наиболее популярны такие способы как использование DNS Black List (DNSBL) или «черных списков», «серые списки» и различные таймауты при отправке почты; использование различных технических средств, таких как проверка существования пользователя на отправляющей стороне (callback), проверка «правильности» отправляющего сервера используя возможности DNS служб.

Среди методики анализа содержимого письма наиболее популярны такие методы как проверка по различным алгоритмам, таким как поиск особых ключевых слов рекламного характера или на основе теоремы Байеса. Алгоритм на основе теоремы Байеса содержит в себе элементы теории вероятности, изначально обучается пользователем на письмах которые по его мнению являются спамом и в дальнейшем выделяет по характерным признакам сообщения в которых содержится спам.

Разумеется существуют и другие способы защиты от спама, наиболее действенными, к сожалению на данный момент являются превентивные меры, такие как не доставлять свой реальный IP-адрес на сайтах, форумах и досках объявлений, используя для подобных нужд временные адреса которые в последствии можно удалить, в случае необходимости публикация e-mail на сайте вместо текста использовать графическое изображение и тому подобные меры.

Рассмотрим более подробно методы фильтрации электронной почты.

Черные списки (DNSBL). В черные списки заносятся IP-адреса, с которых производится рассылка спама. Широко используются такие списки, как списки «открытых proxy» и различные списки динамических адресов которые выделяются провайдерами для конечных пользователей. Благодаря простоте реализации использование этих black-листов производится через службу DNS.

Серые списки или Greylisting. Принцип действия серых списков основан на тактике рассылки спама. Как правило, спам рассылается в очень короткое время в большом количестве с какого-либо сервера. Работа серого списка заключается в намеренной задержке получения писем на некоторое время. При этом адрес и время пересылки заносится в базу данных серого списка. Если удалённый компьютер является настоящим почтовым сервером, то он должен сохранить письмо в очереди и повторять пересылку в течение пяти дней. Спам-боты, как правило, писем в очереди не сохраняют, поэтому спустя непродолжительное время, прекращают попытки переслать письмо. Экспериментальным путём установлено, что в среднем время рассылки спама составляет чуть больше часа. При повторной пересылке письма с этого же адреса, если с момента первой попытки прошло необходимое количество времени письмо принимается и адрес заносится в локальный белый список на достаточно длительный срок.

Эти два метода позволяют отсеивать около 90% спама еще на этапе доставки в почтовый ящик. Уже доставленную почту можно разметить средствами анализа содержимого письма. В настоящее время на рынке анти-спам систем представлены два основных типа фильтров:

- фильтры, работа которых основана на поиске в электронных письмах определенных признаков (так называемые, традиционные фильтры);

- фильтры, применяющие статистические (вероятностные) методы для обеспечения фильтрации спама.

И те, и другие осуществляют контекстную фильтрацию электронной почты, то есть по содержанию письма. Однако традиционные фильтры обладают довольно серьезными недостатками. Некачественное разделение спама и обычных писем обусловлено некоторой однобокостью традиционных фильтров. При отбраковке писем учитываются «плохие» признаки и не учитываются «хорошие», характерные для легитимной переписки.

Этих недостатков лишен метод построения анти-спам фильтров, предложенный американским программистом и предпринимателем Полом Грэмом (Paul Graham). Метод Грэма позволяет автоматически настроить фильтры согласно особенностям индивидуальной переписки, а при обработке учитывает признаки как «плохих», так и «хороших» писем. Такой метод фильтрации спама называют статистическим или вероятностным.

Статистический метод основывается на теории вероятностей и использует для фильтрации спама статистический алгоритм Байеса. Каждому встречающемуся в электронной переписке слову или тегу присваивается два значения: вероятность его наличия в спаме и вероятность его присутствия в письмах, разрешенных для прохождения. Баланс этих двух значений и определяет вероятность того, что письмо, в котором встречаются данные слова и теги, является спамом.

Как справедливо заметил Пол Грэм в своей статье A Plan for Spam, «… ахиллесова пята спамеров – их сообщения. Они могут преодолеть любой барьер, какой вы установите... Но они должны доставить свое сообщение, каким бы оно ни было». Иначе говоря, спамеры могут идти на любые уловки с IP-адресами и подгонкой текста сообщений, но, как мы отмечали ранее, смысловая нагрузка сообщения изменяться не может. Читать между строк покупатель не будет, значит спамеры должны написать в письме нечто понятное, призывающее нас к какому-то действию. Вот этот признак спам-сообщения и является основой для работы фильтров, основанных на статистических алгоритмах Байеса.

Для вычисления вероятности спама используются таблицы вероятности (принадлежности слов из письма, относящегося к категории «спам»), созданные в процессе обучения фильтра. А именно: берутся как минимум два списка слов различных категорий писем (например, «разрешенных» и «запрещенных») и передаются на обработку программе обучения. Она вычисляет частотные словари для каждой категории сообщений – сколько раз какое слово встречалось в письмах этой категории (в данном случае спама). Когда словари заполнены, вычисление вероятности принадлежности конкретного нового письма к тому или иному типу производится по формуле Байеса для каждого слова этого нового письма. Суммированием и нормализацией вероятностей слов получают вероятности для всего письма. Как правило, вероятность принадлежности электронного письма к одной из категорий на порядок выше, чем к другим. К данной категории и следует относить сообщение.

Сразу после начального «обучения» фильтра точность определения спама этим методом достигает значительной величины – 70-80% и продолжает двигаться в сторону 100% после проведения дальнейших корректировок фильтра.

Корректировка фильтра заключается в обработке случаев неправильной классификации писем – фильтру указывается, к какой категории следует впредь относить эти письма, и он добавляет слова из этих писем в соответствующие таблицы вероятностей. Обратите внимание – администратору нет необходимости вручную анализировать письмо и пополнять на основе проведенного анализа списки правил фильтрации, как это делается в традиционных фильтрах. Достаточно добавить письмо в архив писем данной категории, заново запустить процесс «обучения» фильтра и статистический «портрет» письма меняется полностью и автоматически.

Приведем основные отличия статистической технологии фильтрации от традиционной технологии фильтрации на основе признаков, присущих спаму:

- Особенность статистической технологии заключается в возможности индивидуальной автоматической настройки фильтра, что является важным преимуществом, поскольку разные люди или же компании (если фильтр устанавливается на корпоративном почтовом сервере) используют в электронной переписке разную лексику. Настройка фильтра производится по результатам статистического анализа имеющегося архива электронной почты или выборки, полученной за определенный период времени. Такой анализ дает возможность накопить достаточно информации для эффективной фильтрации электронной почты.

- И в том, и в другом случае результатом оценки является, так называемый, «вес» письма. Однако при применении метода с использованием признаков спама «вес» письма вычисляется только на основе «плохих» признаков, что приводит к «обвинительному уклону» фильтра, и, как следствие, появляются ложные срабатывания.

- В алгоритме Байеса наборы признаков определяются не субъективно, а в результате статистического анализа реальных подборок писем. Получающиеся наборы признаков оказываются весьма нетривиальными и эффективными. Например, в качестве «плохого» признака может появиться строка " 0Xffffff" — ярко красный цвет; а в качестве «хорошего» признака – Ваш номер телефона. И действительно, письмо, содержащее Ваши персональные данные, в любом случае следует прочесть.

По имеющимся оценкам, статистический метод борьбы со спамом является весьма эффективным. Так, в процессе испытания через фильтр были пропущены 8 000 писем, половина из которых являлась спамом. В результате система не смогла распознать лишь 0, 5% спам-сообщений, а количество ошибочных срабатываний фильтра оказалось нулевым.

Самое важное преимущество байесовского фильтра заключается в том, что он надежно исключает ложные срабатывания. Ведь процесс принятия решения (относится письмо к спаму или нет) осуществляется в соответствии с особенностями индивидуальной переписки, а при обработке учитываются признаки как «плохих», так и «хороших» писем. Именно за счет баланса этих признаков и удается свести к минимуму количество ложных срабатываний фильтра.

Другим преимуществом теоремы Байеса является возможность ее использования для классификации любых текстов письма по любым категориям, и поэтому он имеет более широкое применение, чем тривиальная фильтрация спама.

Таким образом, в настоящее время наиболее эффективным и оптимальным для корпоративных пользователей являются системы, основанные на статистических (вероятностных) методах фильтрации спама, например программа SpamAssassin. Данный продукт позволяет на основе алгоритмов Бейеса определять наличие спама и добавлять в заголовки писем соответствующие строки, а пользователь, на основе почтовых фильтров в почтовом клиенте, может отфильтровать почту в нужные папки почтовой программы.

⇐ Предыдущая 6 7 8 9 10 11 12 131415 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.