355 500 произведений, 25 200 авторов.

Электронная библиотека книг » М. Абрамзон » Яндекс для всех » Текст книги (страница 14)
Яндекс для всех
  • Текст добавлен: 24 сентября 2016, 01:36

Текст книги "Яндекс для всех"


Автор книги: М. Абрамзон


Жанр:

   

Интернет


сообщить о нарушении

Текущая страница: 14 (всего у книги 37 страниц) [доступный отрывок для чтения: 14 страниц]

2.6. Спамооборона

В ходе подготовки к выделению рассылок в отдельную группу сообщений Яндекс сформулировал и опубликовал документ «Что такое „честная“ рассылка» ( http://help.yandex.ru/mail/?id=617625), озвучив в нем свое представление о корректной работе служб, осуществляющих массовую рассылку почтовых сообщений.

Напомним, что Яндекс начал борьбу за чистоту почты в апреле 2003 года. Первый антиспамовый фильтр был основан на массовости – в папку Рассылкипомещались подозрительно похожие письма, разосланные по слишком большому списку адресов. В январе 2004 года появилась названная Спамообороной технология, использующая около двух тысяч правил фильтрации.

Есть несколько российских программных решений для корпоративных пользователей, предназначенных для борьбы со спамом. Среди них наиболее популярными и востребованными являются два – Спамтест компании «Ашманов и партнеры» и Спамооборона. Яндекс использует для проверки почты собственное решение, Спамооборону, почтовый сервис Mail.ru – Спамтест. У каждого из этих продуктов есть свои поклонники и противники. Кто-то считает, что лучше Спамтест, другие – что «Спамоборона» надежнее. Пользователю важно одно – «настоящий» спам не должен проходить сквозь программные заслоны, а нужные письма не должны пропадать среди неразобранного спама. Если эти два условия выполняются – большего и не надо (рис. 2.14).

Примечание

Всего несколько цифр, которые вряд ли скажут многое, но тем не менее. Данные взяты за 7 апреля из открытой информации на Яндекс. Почте и Mail.ru. По данным Спамообороны, за сутки было отклонено 90,45 % писем, а из оставшихся писем 51,9 % были помечены как возможный спам. На Mail.ru по результатам работы фильтра было отсеяно как спам 72,59 % от общего числа писем.

Как работает Спамооборона

Корпоративный продукт Спамооборона – это серверное решение для фильтрации спама. Устойчивость Спамообороны к новым видам спама обеспечивается автоматическим обновлением базы признаков на основе данных, полученных от Яндекс. Почты. Спамооборона относительно недорогой продукт – около $1 за каждый почтовый ящик в месяц. Она работает на операционных системах FreeBSD и Linux и поддерживает такие почтовые серверы, как SendMail, CommunigatePro и QMail. А совсем недавно Яндекс пригласил компании, чьи почтовые серверы используют MTA CommuniGate Pro под управлением операционной системы Windows, принять участие в бета-тестировании Спамообороны на новой для нее платформе.

Вот три принципа, на которых строилась разработка программы.

□ С роботами должны бороться роботы – спамерские письма рассылаются роботами в миллионах экземпляров. Отсюда следует, что быстро реагировать и эффективно обрабатывать их могут только роботы. Поэтому развитие Спамообороны – это создание все более умных алгоритмов, которые могут распознавать спам. Несмотря на все разнообразие спамерских технологий, в подобных письмах есть много характерных признаков, которые могут быть выделены статистическим анализом.

□ Письма не должны проваливаться в "черную дыру" – на Яндексе письмо либо не принимается почтовым сервером (о чем сервер-отправитель получает соответствующее уведомление), либо доходит до ящика пользователя.

□ Судьбу писем решает владелец почтового ящика – почта Яндекса по умолчанию предлагает фильтр, который складывает в папку Рассылкиписьма, похожие на спам. Владелец ящика может полностью отключить этот фильтр (и получать все письма в папку Входящие) либо реабилитировать адреса конкретных рассылок.

Таким образом Спамооборона не является "жестким", с раз и навсегда заданными правилами, продуктом, защищающим почту от спама. Алгоритм работы этой системы настраивается на предпочтения пользователя. В то же время система является обучаемой, а в качестве "учебного материала" для нее служит постоянно обновляемая база знаний, пополняемая за счет непрерывного анализа приходящих на Яндекс. Почту сообщений. Спамооборона учится и за счет нас, пользователей. Это происходит в силу наличия обратной связи – вспомните, в интерфейсе почтового ящика есть кнопки Это спам!и Это не спам. Безусловно, для одних сообщение может считаться спамом, для других – нет, поэтому в системе для принятия общего решения ведется анализ количества сигналов и того, и другого рода.

Помимо обучения всей системы, Спамооборона умеет подстраиваться и под конкретного пользователя Яндекс. Почты – она корректирует "белые" списки по данным обратной связи и по списку корреспондентов, которым пользователь отправляет письма.

Основные элементы Спамообороны

Спамооборона состоит из нескольких частей:

□ парсера, который разбирает письмо на элементы и собирает статистику;

□ анализирующего модуля, применяющего правила и вычисляющего "спамовый вес" каждого сообщения;

□ базы знаний, на основе которой работают правила.

Исходной информацией, с которой работает Спамооборона, является совокупность всех данных, относящихся к каждому сообщению. Это и данные почтовых серверов (IP-адреса, служебная информация), и заголовки писем, и тексты, включающие как "чистые", так и "грязные" элементы, вложения, подписи, адреса отправителей и т. п. Анализируется и сам текст письма – количество несловарных слов, скрытой информации. Системе пришлось обучаться и на письмах спамеров, которые сознательно коверкали русский язык, надеясь таким образом пробить оборону и донести свои письма до ящиков адресатов.

На первом этапе обработки письма в дело вступает парсер, который разделяет письмо на «чистую», воспринимаемую человеком, составляющую, и «грязную», «шумовую», составляющую, которая может содержать и невидимый для пользователя текст, и бессмысленные данные.

Одновременно с этим происходит анализ технической информации о письме – проверяется достоверность информации об отправителе, анализируется подлинность заголовков письма, учитываются особенности настройки сетей и почтовых систем отправителей. Поставщиком данных для системы правил является обновляемая база знаний, которая включает данные RBL, шинглы и наборы эвристик.

Пояснения

Шингл – это специальным образом рассчитываемая метрика письма, позволяющая выявлять массовые рассылки. Алгоритм расчета шинглов основан на определении уникальных характеристик схожих сообщений.

RBL (Realtime Blackhole List) – это список IP-адресов открытых почтовых релеев, прокси-серверов и неадминистрируемых сетей, с которых рассылается спам. Яндекс поддерживает собственный RBL.

Анализирующий модуль отслеживает в письме признаки, которые описаны в правилах. Правила пишутся на некотором внутреннем языке, который позволяет учесть любое свойство и признак письма. Правила описывают известные признаки и спама, и, наоборот, «хороших» писем, при этом каждому правилу приписан определенный вес. Если суммарный вес сработавших правил выше некоторого порога, письмо считается спамом. Правила можно модифицировать и добавлять без изменения самой программы, что позволяет их оперативно корректировать, а база знаний (статистики массовости писем и вложений, «черные» списки) обновляется постоянно.

Каждое правило при срабатывании добавляет к "весу" письма определенное количество баллов (весовой коэффициент), как положительный, так и отрицательный. Любое из этих правил само по себе не является достаточным для принятия определенного решения – только совокупность их может с достаточной степенью уверенности сказать, относится ли письмо к спаму или нет. И если суммарный положительный вес сработавших правил превышает порог, определенный параметрами настройки системы, письмо маркируется как спам.

Примечание

По данным Яндекс. Почты, отношение писем, неправильно помеченных как спам, к общему количеству «хороших» писем для массовой почты исчисляется десятыми долями процента. Для корпоративных сетей настройка может быть выполнена более целенаправленно, и в этом случае процент ложных срабатываний на порядок меньше.

База знаний, которая является третьим ключевым элементом системы, включает данные RBL, шинглы и наборы эвристик.

Обработка писем

Обработка письма – это основной, но не окончательный этап. Определив полученное сообщение как спам, рассылку или «чистое» письмо, Спамооборона ставит на него свою «печать», добавляя в каждое письмо следующие служебные строки заголовка:

□ X-Spam-Flag – может принимать следующие значения:

• yes – письмо определено как спам;

• NO – "чистая" корреспонденция;

• DLVR – легальная рассылка (экспериментальный режим);

• SKIP – письмо на необслуживаемый адрес, истек срок действия лицензии или произошла ошибка.

□ X-Spam-Yversion – показывает номер установленной версии Спамообороны.

□ X-Spam-Ystatus – необязательный заголовок, может быть включен для добавления строки статуса, в которой отображается количество набранных баллов и перечень сработавших правил фильтрации. Заголовок статуса может понадобиться для отладочных целей перед обращением в Службу технической поддержки.

Эта информация используется для размещения сообщений по папкам в ящиках пользователей, но не только для этого. Многие пользователи Яндекс. Почты получают свою корреспонденцию с помощью почтовых клиентов. В этом случае данные из служебных строчек заголовка могут использоваться и в клиентских программах при настройке фильтров на значение заголовка X-Spam-Flag, а также на сервере правилами sieve (сервер IMAP производства Cyrus), procmail или другими средствами предварительной обработки почты.

Спамооборона может отображать результат проверки письма не только в виде служебного поля заголовка X-Spam-Flag, обычно не просматриваемого получателем почты, но и произвольной меткой в начале поля темы письма (Subject), которую можно задать настройкой системы. Помимо заданной метки в поле темы может быть также добавлен суммарный вес письма. Наличие метки также может обрабатываться фильтрами почтовых клиентов, но, кроме того, дает пользователю визуальное представление о том, что за корреспонденция попала в его почтовый ящик.

«Белые» списки

Для фильтрации писем Спамооборона использует также понятия «белого» списка. Он формируется на основе отправленных пользователями писем. В белом списке Спамообороны сохраняются пары адресов: корреспондент (внешний адрес) – получатель (локальный адрес). При получении письма извне проверяется наличие адреса внешнего корреспондента в «белом» списке. Возможны три режима проверки:

□ 0 – "белый" список не применяется;

□ 1 – используется общий список;

□ 2 – используются персональные списки.

Если адрес внешнего корреспондента найден в "белом" списке и включен режим 1, сработает правило отправитель в "белом" списке, компенсирующий вес которого администратор системы может назначить самостоятельно. Если рассуждать логически, то это значение должно перекрывать возможные отрицательные веса. Если в "белом" списке найдена доменная часть адреса электронной почты внешнего корреспондента, сработает правило обработки доменов.

Если включен режим 2, и адрес внешнего корреспондента найден в "белом" списке получателя, сработает правило отправитель в персональном "белом" списке, а если в "белом" списке получателя присутствует доменная часть адреса электронной почты отправителя, – соответственно, правило обработки доменов в персональном списке.

2.6.1. Спамооборона для компаний

Рассказывая о некоторых принципах обработки входящей корреспонденции, пришлось привести отдельные технические детали. Для тех, кто пользуется почтовым ящиком на Яндексе, эти сведения не требуются – все основные настройки уже сделаны и могут корректироваться пользователем лишь за счет собственного «белого» списка и выставлением оценки входящей корреспонденции по типу «спам – не спам».

В определенной степени эта информация может быть интересной и полезной для системных администраторов компаний, у которых есть собственный почтовый сервер и которые предполагают использовать Спамооборону для защиты от спама. Чем может быть удобно это решение? В большинстве случаев Спамооборона не требует выделенного сервера. Рекомендованной конфигурацией является компьютер с процессором Intel Pentium 4, частотой 1,5 ГГц и 1 Гбайт ОЗУ. Такой сервер способен обрабатывать до 15 писем в секунду, что может оказаться вполне достаточным для средней компании.

Компании, использующие Спамооборону, могут подключаться к постоянно обновляемой базе знаний, на основе которой выполняется проверка сообщений. В зависимости от возможностей компании могут быть предложены два варианта подключения к этой базе. По первому варианту можно автоматически загружать обновления на свой сервер и работать с локальной копией базы знаний. При использовании второго варианта необходимо при проверке письма обращаться с запросом к базе знаний, расположенной на сервере Яндекса. Первый способ удобен при большом потоке писем, поскольку увеличивает скорость их обработки. Второй способ снижает расходы на трафик, необходимый для получения обновлений.

Спамооборону могут использовать не только компании, имеющие свои почтовые серверы, но и провайдеры. Для них даже существуют скидки от стоимости этого продукта. Зато и несанкционированного почтового трафика будет ходить по Сети меньше. Этот продукт используют такие крупные провайдеры, как PeterHost.Ru, "Комстар-ОТС", "Корбина Телеком" и др.

2.6.2. Спамооборона для всех

Сейчас мы опять обратимся к вопросу о том, как избавиться от спама на «замусоренном» почтовом ящике. Если у вашего провайдера до сих пор отсутствует проверка на спам, и ваш ящик всегда полон ненужными письмами, можете настроить проверку всей вашей почты через бесплатный публичный сервис Спамообороны.

Для того чтобы воспользоваться этим сервисом, достаточно лишь зарегистрироваться на Яндексе. При этом, помимо всех возможностей, о которых уже говорилось, каждый пользователь получает еще один дополнительный почтовый адрес: ваш_логин@so.yandex.ru. Он используется для приема на проверку всей вашей корреспонденции с внешнего адреса – внешнего по отношению к Яндекс. Почте, поскольку ваш почтовый ящик на этом сервере уже защищен Спамообороной.

Если вы решите использовать публичный сервис Спамообороны, имейте в виду, что у него есть некоторые ограничения:

□ количество сообщений, принимаемых от одного пользователя, ограничено тысячей писем в сутки. Тысяча первое сообщение не будет доставлено вне зависимости от того, является оно спамом или нет;

□ публичный сервис Спамообороны работает в тестовом режиме и не предназначен для коммерческого использования. Яндекс не несет ответственности за последствия, связанные с использованием сервиса.

Следовательно – только на свой страх и риск. Но если ваш ящик "засвечен" и подвержен спаму, остается лишь два варианта – сменить ящик или использовать внешний фильтр на спам.

Но если вы решили воспользоваться услугами сервиса, вам надо его настроить (рис. 2.15). Во-первых, перейдите на страницу http://so.yandex.ru/all/ tune.xml.Здесь необходимо ввести адрес, на который будет отправляться отфильтрованная почта. Если вы ранее этот адрес еще не включали в число ваших доверенных адресов, на него будет выслано письмо с предложением подтвердить введенный адрес. Также вам потребуется принять решение, что делать со спамом и письмами, содержащими вирусы, – как и на почте Яндекса, вся проходящая через сервис почта также проверяется и на вирусы. Выбор действий невелик – либо вы будете отмечать письма добавлением соответствующей информации в строки заголовка или в тему, либо будете такие письма удалять.

После проверки на сервисе в заголовках (headers) всех сообщений, опознанных как спам, будет содержаться служебный заголовок X-oborona-spam-flag=YES, а в тему письма (если выбрана эта опция) будет добавляться выражение [ OBORONA-SPAM]. Зная это, легко настроить фильтры на почтовом ящике, куда будет перенаправляться проверенная почта.

Выполнив эти настройки, вам остается лишь настроить внешний почтовый ящик на пересылку входящей корреспонденции на ваш адрес публичного сервиса и ждать результатов. На первое время рекомендуется настроить внешний почтовый ящик таким образом, чтобы полученные с него письма сохранялись и на нем. Это может потребоваться для первоначального контроля обработки почтовых сообщений. Убедившись, что фильтрация работает качественно, можно отменить требование оставлять почту на сервере.

2.6.3. Спамооборона на Яндексе

Тем, кто пользуется для переписки почтовым ящиком на Яндексе, о спаме беспокоиться ни к чему. Все сообщения, приходящие пользователям, проверяются на спам и вирусы автоматически.

Весь процесс проверки происходит в три этапа.

1. Вначале отбрасывается явный спам, то есть те сообщения, которые приходят от надминистрируемых почтовых серверов (взломанных, открытых). Эти письма в почтовые ящики получателей не попадают. Но на почтовый сервер отправителя приходит уведомление об отказе принятия сообщения и его причине.

2. На следующем этапе выполняется проверка на наличие вирусов. Если письма не содержат никакой информации помимо самого вируса, они безжалостно уничтожается. Письма, имеющие какой-либо текст, поступают в ящик получателя с пометкой "Проверить на вирусы".

3. Все остальные письма поступают на завершающий этап проверки, когда начинает работать фильтр, помещающий в папку Спамписьма, в которых программа Спамообороны обнаружила признаки спама.

Вполне вероятны и ошибки при определении спама. Спамооборона может посчитать нормальным письмо, которое вы оцените как спам. Сообщите об этом, выбрав его и нажав кнопку Это спам!. И наоборот, если вы считаете, что письмо было отнесено к спаму несправедливо, сообщите об этом, нажав кнопку Это не спам.

И не забывайте, что Яндекс. Почта не позволит вам использовать свой почтовый ящик для рассылки спама. Фильтруется не только входящая, но и исходящая корреспонденция, при которой блокируются массовые рассылки и письма с вирусами.

Вместо небольшого заключения

Яндекс. Почта – сервис, безусловно, нужный и удобный. Было бы не так – не пользовались бы им сотни и сотни тысяч. Но «плюс» этой почты в некоторых случаях оборачивается «минусом». Некоторые компании, предлагающие, к примеру, программное обеспечение, не склонны предоставлять временные лицензионные ключи пользователям, чьи почтовые ящики находятся на публичных бесплатных сервисах. Поскольку мне это приходится делать часто, могу вполне ответственно заявить, что далеко не каждая компания вышлет реквизиты для скачивания программы или временный лицензионный ключ на почтовый адрес, расположенный на Яндекс. Почте.


Дмитрий Иванов – директор по проектам компании «Яндекс» с 2005 года.

Работу в "Яндексе" начал в 2003 году в качестве руководителя службы Яндекс. Новости. Ранее Дмитрий возглавлял интернет-департамент Фонда эффективной политики, где руководил разработкой и продвижением медиапроектов в Интернете.

Дмитрий окончил исторический факультет МГУ, имеет степень кандидата политических наук.

Глава 3
Читаем новости

3.1. Что такое Яндекс. Новости

В Интернете ищут не только статичную информацию, раз опубликованную и редко изменяющуюся, но и текущую, быстроменяющуюся. И это несмотря на наличие огромного числа привычных информационных источников – радио и телевидения, газет и журналов. С каждый годом все большее количество людей читает текущие новости в онлайне. Для одних такой способ получения информации является наиболее быстрым (например, для игроков на бирже), для других – наиболее удобным (не надо приобретать десятки газет, которые через день будут выброшены). Особенно удобен способ получения новостной информации через Интернет тогда, когда хочется узнать различные точки зрения на одно и то же событие. А в этом случае одного, пусть даже и любимого, сайта бывает недостаточно. Приходится посещать сайты разных информационных агентств или изданий, при этом существует большая вероятность, что наиболее интересные мнения найдены не будут.

Значительно проще следить за новостями с помощью сервиса, который собирает их с различных сайтов, агрегирует по темам, релевантности, времени публикации. Такие сервисы существуют, и их немало. Как правило, это сервисы, которые сами не являются производителями контента. Какому из подобных сервисов отдаст предпочтение тот или иной человек, зависит от возможностей, им предоставляемых, удобства использования, качественности и своевременности подаваемой информации. В число наиболее посещаемых и, следовательно, наиболее удобных и качественных сервисов такого рода, входят и Яндекс. Новости.


    Ваша оценка произведения:

Популярные книги за неделю