Как на самом деле работают клоаки? | Блог

«У нас самая непробиваемая клоака», «Используем искусственный интеллект для анализа трафика», «Анализируем SSL-фингерпринты». Такие заявления от создателей клоак — отличный способ привлечь новых доверчивых клиентов и задрать цену хотя бы на порядок. Чтобы понять почему всё это — не более, чем маркетинг, нужно разбираться в том, как клоаки работают изнутри. Именно об этом я вам сегодня и расскажу.

Как работает клоака?

Клоака анализирует входящий трафик и по результатам проверки показывает либо black-page для обычного человека, который перешёл с рекламы, либо white-page для ботов и модераторов.

Как анализируется входящий трафик?

Самый важный тезис — клоака должна анализировать только те данные, которые может получить до того как посетитель увидел сайт. Очевидно потому что первично принятие решения о том какую страницу вообще показывать. Нам доступны …

Заголовки, содержащие в себе IP-адреса

Для анализа нам вполне подойдут:

CF-Connecting-IP
X-Forwarded-For
X-Real-IP
Client-IP
Remote-Addr

Адреса в них могут быть разными. Например, если человек использует Opera Turbo или его провайдер проксриует трафик, адрес надо ловить не в Remote-Addr, а в X-Forwarded-For. Потому анализировать нужно все адреса, которые поймали в этих заголовках.

Тут сразу можно выловить первый триггер — нецелевое гео. Это всегда и гарантировано автоматический бан с добавлением адреса в чёрный список.

Далее клоака должна сверять айпишники со своей базой черных списков. Именно в качестве базы и в том, какие инструменты используются для ее составления, лежит ключевое отличие хорошей клоаки от плохой. Увы, подробно о составлении максимально полных черных списков рассказать не могу. Это секрет моей клоаки AlterCPA One, которую я не рекламирую, потому что такое чудо в рекламе не нуждается.

К примеру, всем известная сеть «мордокнига» сама публикует базу адресов своих ботов. Есть известная всем база от команды NPPR. Также есть разные фишки по составлению черных списков. К примеру, если с одной подсети заходит много нецелевого трафика — можно заблокировать сразу всю подсеть.

Заголовок User Agent

У живого человека сразу будет видно мобильное устройство или десктоп. А бот здесь же подпишется, что он бот. Если юзерагента нет — смело отправляем на вайт, у реального человека он есть всегда без исключений.

Заголовок Accept Language

Используется почему-то не во всех клоаках. В этом заголовке указывается, какие языки принимает браузер. К примеру, трафик идет на Россию, но в Accept Language только английский — отправляем на вайт. Отсутствия локального языка в Accept Language — один из основных триггеров.

Развеиваем маркетинговые уловки клоак

Некоторые клоаки заявляют, что собирают черные списки по fingerprint устройства, что само по себе крайне глупая затея. Выдавать ее за преимущество, как минимум, странно. Во-первых, чтобы получить фингерпринт, нужно сделать запрос JS-скриптом еще до того, как человек попал на белый или чёрный сайт. То есть по сути, спалить часть работы самой клоаки. Тот же Google с великим удовольствием выдаст за это ошибку «Вредоносное ПО» и можно прощаться с рекламной кампанией. А во-вторых, отпечатки одного и того же модератора меняются.

Есть и более интересный способ — сбор отпечатков SSL-соединения. Это еще больший обман. Отпечаток SSL всегда зависит от двух компьютеров — того, который обращается, и того, к которому подключаются. Один и тот же модератор при связи с одним сервером будет иметь один отпечаток, а при связи со вторым — уже другой. Адреса серверов клоаки постоянно меняются, иначе они будут просто заблокированы рекламными сетями. Потому и способ ловли по фингерпринтам SSL-соединения не рабочий.

И мое любимое: машинное обучение, искусственный интеллект, etc. В любой сфере применения этой технологии есть важное условие. Должна быть возможность из полученных данных составить рабочую корреляцию. На входе юзера мы не получаем ни размеры экрана, ни количество ядер процессора, никакой информации, которую можно проанализировать таким образом, чтобы собрать закономерности. По-хорошему для такой аналитики, необходимо получать данные о поведении, например, движение мыши, как минимум, что нереально. Соответственно и корреляцию, работающую с адекватным уровнем попадания, составить также нельзя. Работать это может только при сборе данных скриптами уже после попадания человека на сайт. Почему злоупотреблять скриптами нельзя написал выше.

Облачная или серверная?

Эффективность клоаки сильно зависит от размера и качества её черных списков.

Хорошая облачная клоака анализирует трафик всех клиентов по всем странам и источникам, и адаптирует черные списки. При работе с разными гео и небольшим объёмом трафика облачный вариант будет лучше — в нём заранее есть заготовки на все случаи жизни. Из минусов могут быть ложно-положительные срабатывания на некоторых подсетях, которые попали в бан из-за ошибок какого-нибудь пользователя. Здесь подойдёт AlterCPA One.
Преимущества клоаки на своём сервере раскрываются на больших объёмах трафика. Такой вариант идеально подойдёт для арбитражной команды, особенно работающей со своими собственными рекламодателями по узкому гео. Возможно, первое время эта клоака сработает чуть хуже, пока будет само-обучаться, но через несколько дней даст лучший результат, не загаженный случайными кривыми заливами пользователей облачной версии. Тут рекомендуется AlterCPA Pro.

Чем отличается хорошая клоака от плохой?

Дорогая от дешевой? Все инструменты, которые реально работают, примитивны. Анализ IP, юзерагентов, языка. Хорошая клоака просто умеет грамотно с этим работать. И таких много. Дорогие клоаки обещают искусственный интеллект и прочие прелести, но платить за это нецелесообразно. Разве что вам нравится сопутствующий сервис и вы фанат бренда. Лучше ли моя AlterCPA One чем адекватные конкуренты? Нет. Может ли пробиваться? Да, как и все. Происходит такое крайне редко, а гарантировать 0 пробоев будет только мошенник. Но она дешевле, а работает ровно так же.

Вывод

Не ведитесь на маркетинговые приемы. Анализ трафика не нужно усложнять, он примитивен, хотя бы, потому что у клоаки не так много данных для чекинга. Выбирайте простой качественный и дешевый облачный вариант — это все, что нужно чтобы минимизировать пробивы, которые вероятны, как ни крути.