Реферальный спам: что это такое и как с ним…

Глобальная проблема в SEO — наличие реферального спама, который негативно влияет на показатели трафика. В нашей сегодняшней статье мы рассмотрим более подробно, как обнаружить и избавиться от него.

Что же такое реферальный спам? 
Реферальный спам — это негативный трафик, который передают спам-боты под прикрытием различных доменов и IP адресов. При наличии рефспама, сайт получает накрученный трафик от спам-ботов, что может привлечь санкции поисковых систем по поведенческим факторам (показатель отказов или длительность сеансов).
Спам-боты зачастую ищут слабо защищенные сайты и подвергают их атакам. Когда ваш сайт размещен на дешевом хостинге или написан на незащищенной легкой пользовательской CMS системе, то есть очень высокая вероятность того, что спам-боты обратят внимание на ваш ресурс.
Как обнаружить присутствие реферального спама?
1. Зайдите в Google Analytics сайта, который проверяем на реферальный спам.
2. Перейдите в «Источники трафика» → «Весь трафик» → Рефералы
blank
3. Отсортируйте отчет в порядке убывания по показателям отказов
blank
Обратите внимание на рефералов с показателем отказов в 100% и длительностью сеанса в 0. Это 100% реферальный спам.
Методы борьбы с реферальным спамом
1. Блокировка реферала, который использует спам-бот.
Для этого необходимо внести следующие директивы в файл .htaccess, что лежит в корне сайта.

Пример:

RewriteEngine On

Options +FollowSymlinks

RewriteCond %{HTTP_REFERER} ^https?://([^.]+\.)*site\.com\ [NC,OR]

RewriteRule .* – [F]

Данный код заблокирует все http и https рефералы с сайта site.com и со всех его поддоменов.

 

2. Блокировка IP адреса, который использует спам-бот.

​Для этого необходимо внести следующие директивы в файл .htaccess, что лежит в корне сайта

Пример:

RewriteEngine On

Options +FollowSymlinks

Order Deny,Allow

Deny from 123.45.67.89

Важно! Это лишь пример, в таком виде он не сработает, вам необходимо подставить свои значения IP адреса.

 

3. Исключение реферального трафика 

Чтобы реферальный трафик не суммировался с общим трафиком, необходимо создать и настроить фильтры трафика в Google Analytics, который в дальнейшем не будет учитывать источники реферальных атак.

Заходим в «Источники трафика» → «Весь трафик» → «Источник/Канал»

blank

Мы видим источники трафика разного типа. Нас интересует реферальный. Спам-боты могут изменять источники и делать их схожими между собой по названию.

Пример №1: Исключаем реферальных спамеров, которые содержат повторяющееся слово в середине своего названия.

blank

Исходя из трафика за последние 6 месяцев, выделим только те источники, которые содержат в себе слово «buttons».  Для этого через поиск по трафику отсортируем источники, содержащие «buttons».

blank

В результате мы получим список всех доменов с содержанием в названии «buttons» которые использовали спам-боты для реферера.

blank

blank

21 источник реферального спама с содержанием в названии «buttons».

Чтобы исключить эти спам источники трафика, необходимо перейти в пункт верхнего меню «Администратор». Далее, в колонке «Представление» выбрать пункт «Фильтры».
blank
Для создания нового фильтра нажимаем кнопку «Добавить фильтр»
blank
Далее необходимо создать шаблон фильтра, который будет исключать трафик от всех спам источников содержащих «buttons».
blank

В шаблоне фильтра использовалось регулярное выражение

.*buttons

Которое учитывает все символы включая их повторение до слова «buttons». С момента сохранения, весь следующий трафик который будет поступать с реферальных спамеров, содержащих «buttons» не будет учитываться в дальнейшую статистику трафика.

blank

Пример №2: Исключаем трафик хосты с одинаковым началом своего имени.

На данный момент обнаружено 26 хостов которые начинаются на слово «site».

blank

blank

Чтобы исключить эти спам источники трафика, необходимо перейти в пункт верхнего меню«Администратор», далее в колонке «Представление»  выбрать пункт «Фильтры».

blank

Для создания нового фильтра нажимаем кнопку «Добавить фильтр»

blank

Далее необходимо задать с помощью регулярного выражения условие исключения всех источников, которые будут начинаться на слово «site».

blank

Регулярное выражение «^site» указывает, что все спам хосты, начинающиеся на site, будут исключены из общего трафика с момента сохранения фильтра.

Сохраняем и получаем следующую картину:

blank

Пример №3: точечное исключение:

Допустим, у нас есть спамный хост, исключить его регулярным выражением мы не сможем, потому что он один.

blank

Чтобы точечно закрыть подобные хосты, необходимо создать фильтр под каждый единичный спам реферер.

blank

Сохраняем и получаем следующее:

blank

Важно! При удалении данных фильтров, спам трафик снова будет поступать в статистику общего трафика.

Минусом этого решения является то, что список таких рефералов постоянно пополняется, и нужно периодически мониторить отчеты трафика на предмет возникновения новых рефералов во избежание искажения статистики.