У більшості випадків, коли потрібно заблокувати доступ SeekportBot або інші crawl bots з веб-сайтом причини прості. Веб-павук робить занадто багато доступів за короткий проміжок часу та запитує ресурси веб-сервера, або він надходить із пошукової системи, у якій ви не хочете, щоб ваш веб-сайт був індексований.
Це дуже вигідно для веб-сайту, який відвідує crawЯ наштовхнувся на нього. Ці веб-павуки призначені для дослідження, обробки та індексації вмісту веб-сторінок у пошукових системах. Google і Bing використовують такі crawЯ наштовхнувся на нього. Однак існують також пошукові системи, які використовують роботів для збору даних із веб-сторінок. Seekport є однією з цих пошукових систем, яка використовує crawSeekportBot ler для індексації веб-сторінок. На жаль, іноді він використовує його надмірно та створює непотрібний трафік.
Купріни
Що таке SeekportBot?
SeekportBot є web crawler розроблений компанією Seekport, який знаходиться в Німеччині (але використовує IP-адреси з кількох країн, включаючи Фінляндію). Цей бот використовується для сканування та індексування веб-сайтів, щоб вони могли відображатися в результатах пошукової системи. Seekport. Непрацююча пошукова система, наскільки я можу судити. Принаймні, він не повернув мені жодних результатів для жодної ключової фрази.
SeekportBot використання user agent:
"Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"
Як заблокувати доступ до SeekportBot або іншого crawЯ перейшов на сайт
Якщо ви прийшли до висновку, що цей веб-павук чи інший, необов'язково сканувати весь ваш веб-сайт і робити непотрібний трафік на веб-сервер, у вас є кілька методів, за допомогою яких ви можете заблокувати їм доступ.
Брандмауер на рівні веб-сервера
Це програми брандмауера open-source які можна встановити на операційні системи Linux і може бути налаштований для блокування трафіку на основі кількох критеріїв. IP-адреса, розташування, порти, протоколи або агент користувача.
APF (Advanced Policy Firewall) це таке програмне забезпечення, за допомогою якого можна блокувати небажаних ботів на рівні сервера.
Оскільки SeekportBot та інші веб-павуки використовують кілька блоків IP-адрес, найефективніше правило блокування базується на "user agent". Отже, якщо ви хочете заблокувати доступ SeekportBot за допомогою APF, все, що вам потрібно зробити, це підключитися до веб-сервера через SSHі додайте правило фільтра у файл конфігурації.
1. Відкрийте файл конфігурації за допомогою nano (або інше видавництво).
sudo nano /etc/apf/conf.apf
2. Знайдіть рядок, який починається на "IG_TCP_CPORTS” і додайте в кінці цього рядка агента користувача, який ви хочете заблокувати, після коми. Наприклад, якщо ви хочете заблокувати user agent "SeekportBot", рядок має виглядати так:
IG_TCP_CPORTS="80,443,22" && IG_TCP_CPORTS="$IG_TCP_CPORTS,SeekportBot"
3. Збережіть файл і перезапустіть службу APF.
sudo systemctl restart apf.service
Доступ "SeekportBot" буде заблоковано.
Фільтр web crawls за допомогою Cloudflare – Блокувати доступ SeekportBot
За допомогою Cloudflare, як на мене, це найбезпечніший і найзручніший спосіб, за допомогою якого можна різними способами обмежити доступ деяких ботів до сайту. Спосіб я також використав у справі SeekportBot фільтрувати трафік до інтернет-магазину.
Припускаючи, що у вас уже додано веб-сайт до Cloudflare і служби DNS активовано (тобто трафік до веб-сайту йде через Cloudflare), виконайте наведені нижче дії.
1. Відкрийте свій обліковий запис Clouflare і перейдіть на веб-сайт, доступ до якого ви хочете обмежити.
2. Перейдіть до: Security → WAF і додайте нове правило. Create rule.
3. Виберіть назву для нового правила, Field: User Agent - Operator: Contains - Value: SeekportBot (або інша назва бота) – Choose action: Block - Deploy.
За кілька секунд нове правило WAF (Web Application Firewall) він починає діяти.
Теоретично можна встановити частоту, з якою веб-павук звертається до сайту robots.txt, але... це тільки в теорії.
User-agent: SeekportBot
Crawl-delay: 4
Багато web crawlerii (крім Bing і Google) не дотримуються цих правил.
На завершення, якщо ви ідентифікуєте мережу crawl хто має надмірний доступ до вашого сайту, найкраще повністю заблокувати йому доступ. Звичайно, якщо цей бот не з пошукової системи, в якій ви зацікавлені бути присутніми.