Думаю, до того часу мине недовго OpenAI це також буде використано для розробки пошукової системи на основі штучного інтелекту. Новий web crawler GPTBot із широкою мовною моделлю GPT-5 уже випущено.
Ті, хто використовує ChatGPT Я знаю, що ця широка мовна модель (LLM) зараз працює GPT-3.5, навчаючись на наборі даних, оновленому у вересні 2021 р. Тому, якщо з цієї дати запитується новіша інформація, ChatGPT не може надати точну інформацію. Звичайно, це стосується безкоштовної версії, яка не підтримує використання додаткових плагінів.
З запуском GPTBot, OpenAI відкриває шлях для індексування веб-сторінок за допомогою цього нового web crawler. Як це роблять протягом багатьох років такі компанії, як Google, Microsoft, Yahoo та багато інших.
GPT-5 та новий веб-павук GPTBot, розроблений OpenAI.
Нові web crawler GPTBot використовує web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Власники веб-сайтів можуть контролювати індексацію веб-сторінок за допомогою файлу robots.txt
, використовуючи ті самі директиви, що й для інших web crawlerта інших компаній.
Наприклад, якщо власник сайту цього не хоче OpenAI для збору інформації з сайту, може додати в robots.txt
рядки:
User-agent: GPTBot
Disallow: /
Навіть якщо він поводиться як такий web crawler, GPTBot матиме чітку мету: збирати загальнодоступні дані, ретельно уникаючи джерел, які включають платні екрани, збір особистих даних або вміст, який порушує правила OpenAI.
Але є чимало суперечок, деякі навіть призвели до судових позовів проти компанії OpenAI про конфіденційність та використання контенту без згоди авторів або без зазначення джерел.
У червні регулятор конфіденційності Японії випустив попередження OpenAI щодо несанкціонованого збору даних. Італія також тимчасово заборонила використання на початку цього року ChatGPT через ймовірні порушення законів Європейського Союзу про конфіденційність.