GPT-5 та новий веб-павук GPTBot, розроблений OpenAI.

Думаю, до того часу мине недовго OpenAI це також буде використано для розробки пошукової системи на основі штучного інтелекту. Новий web crawler GPTBot cu modeширока мова GPT-5 вже випущена.

Ті, хто використовує ChatGPT я знаю, що це model широкої мови (LLM) зараз працює GPT-3.5, навчаючись на наборі даних, оновленому у вересні 2021 р. Тому, якщо з цієї дати запитується новіша інформація, ChatGPT не може надати точну інформацію. Звичайно, це стосується безкоштовної версії, яка не підтримує використання додаткових плагінів.

З запуском GPTBot, OpenAI відкриває шлях для індексування веб-сторінок за допомогою цього нового web crawler. Як це роблять протягом багатьох років такі компанії, як Google, Microsoft, Yahoo та багато інших.

GPT-5 та новий веб-павук GPTBot, розроблений OpenAI.

Нові web crawler GPTBot використовує web agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Власники веб-сайтів можуть контролювати індексацію веб-сторінок за допомогою файлу robots.txt, використовуючи ті самі директиви, що й для інших web crawlerта інших компаній.

Наприклад, якщо власник сайту цього не хоче OpenAI для збору інформації з сайту, може додати в robots.txt рядки:

User-agent: GPTBot
Disallow: /

Навіть якщо він поводиться як такий web crawler, GPTBot матиме чітку мету: збирати загальнодоступні дані, ретельно уникаючи джерел, які включають платні екрани, збір особистих даних або вміст, який порушує правила OpenAI.

Але є чимало суперечок, деякі навіть призвели до судових позовів проти компанії OpenAI про конфіденційність та використання контенту без згоди авторів або без зазначення джерел.

У червні регулятор конфіденційності Японії випустив попередження OpenAI щодо несанкціонованого збору даних. Італія також тимчасово заборонила використання на початку цього року ChatGPT через ймовірні порушення законів Європейського Союзу про конфіденційність.