Як заблокувати доступ до SeekportBot або іншого crawЯ перейшов на сайт

У більшості випадків, коли потрібно заблокувати доступ SeekportBot або інші crawl bots з веб-сайтом причини прості. Веб-павук робить занадто багато доступів за короткий проміжок часу та запитує ресурси веб-сервера, або він надходить із пошукової системи, у якій ви не хочете, щоб ваш веб-сайт був індексований.

Це дуже вигідно для веб-сайту, який відвідує crawЯ наштовхнувся на нього. Ці веб-павуки призначені для дослідження, обробки та індексації вмісту веб-сторінок у пошукових системах. Google і Bing використовують такі crawЯ наштовхнувся на нього. Однак існують також пошукові системи, які використовують роботів для збору даних із веб-сторінок. Seekport є однією з цих пошукових систем, яка використовує crawSeekportBot ler для індексації веб-сторінок. На жаль, іноді він використовує його надмірно та створює непотрібний трафік.

Що таке SeekportBot?

SeekportBot є web crawler розроблений компанією Seekport, який знаходиться в Німеччині (але використовує IP-адреси з кількох країн, включаючи Фінляндію). Цей бот використовується для сканування та індексування веб-сайтів, щоб вони могли відображатися в результатах пошукової системи. Seekport. Непрацююча пошукова система, наскільки я можу судити. Принаймні, він не повернув мені жодних результатів для жодної ключової фрази.

SeekportBot використання user agent:

"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

Як заблокувати доступ до SeekportBot або іншого crawЯ перейшов на сайт

Якщо ви прийшли до висновку, що цей веб-павук чи інший, необов'язково сканувати весь ваш веб-сайт і робити непотрібний трафік на веб-сервер, у вас є кілька методів, за допомогою яких ви можете заблокувати їм доступ.

Брандмауер на рівні веб-сервера

Це програми брандмауера open-source які можна встановити на операційні системи Linux і може бути налаштований для блокування трафіку на основі кількох критеріїв. IP-адреса, розташування, порти, протоколи або агент користувача.

APF (Advanced Policy Firewall) це таке програмне забезпечення, за допомогою якого можна блокувати небажаних ботів на рівні сервера.

Оскільки SeekportBot та інші веб-павуки використовують кілька блоків IP-адрес, найефективніше правило блокування базується на "user agent". Отже, якщо ви хочете заблокувати доступ SeekportBot за допомогою APF, все, що вам потрібно зробити, це підключитися до веб-сервера через SSHі додайте правило фільтра у файл конфігурації.

1. Відкрийте файл конфігурації за допомогою nano (або інше видавництво).

sudo nano /etc/apf/conf.apf

2. Знайдіть рядок, який починається на "IG_TCP_CPORTS” і додайте в кінці цього рядка агента користувача, який ви хочете заблокувати, після коми. Наприклад, якщо ви хочете заблокувати user agent "SeekportBot", рядок має виглядати так:

IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"

3. Збережіть файл і перезапустіть службу APF.

sudo systemctl restart apf.service

Доступ "SeekportBot" буде заблоковано.

Фільтр web crawls за допомогою Cloudflare – Блокувати доступ SeekportBot

За допомогою Cloudflare, як на мене, це найбезпечніший і найзручніший спосіб, за допомогою якого можна різними способами обмежити доступ деяких ботів до сайту. Спосіб я також використав у справі SeekportBot фільтрувати трафік до інтернет-магазину.

Припускаючи, що у вас уже додано веб-сайт до Cloudflare і служби DNS активовано (тобто трафік до веб-сайту йде через Cloudflare), виконайте наведені нижче дії.

1. Відкрийте свій обліковий запис Clouflare і перейдіть на веб-сайт, доступ до якого ви хочете обмежити.

2. Перейдіть до: Security → WAF і додайте нове правило. Create rule.

3. Виберіть назву для нового правила, Field: User Agent - Operator: Contains - Value: SeekportBot (або інша назва бота) – Choose action: Block - Deploy.

Як заблокувати доступ SeekportBot
Заблокуйте доступ до SeekportBot із Cloudflare

За кілька секунд нове правило WAF (Web Application Firewall) він починає діяти.

Події брандмауера в Cloudflare
Події брандмауера в Cloudflare

Теоретично можна встановити частоту, з якою веб-павук звертається до сайту robots.txt, але... це тільки в теорії.

User-agent: SeekportBot
Crawl-delay: 4

Багато web crawlerii (крім Bing і Google) не дотримуються цих правил.

На завершення, якщо ви ідентифікуєте мережу crawl хто має надмірний доступ до вашого сайту, найкраще повністю заблокувати йому доступ. Звичайно, якщо цей бот не з пошукової системи, в якій ви зацікавлені бути присутніми.

Захоплений технологіями, з 2006 року з радістю пишу на StealthSettings.com. Маю багаторічний досвід роботи з операційними системами: macOS, Windows і Linux, а також з мовами програмування і платформами для блогів (WordPress) та онлайн-магазинів (WooCommerce, Magento, PrestaShop).

Як записатися » чистий серфінг » Як заблокувати доступ до SeekportBot або іншого crawЯ перейшов на сайт
Залишити коментар