Robots.txt: як правильно налаштувати і що не блокувати

05 Травня, 2026

Один рядок у файлі robots.txt — і ваш сайт зникає з Google. Це не перебільшення: щороку сотні проєктів втрачають позиції або взагалі випадають з індексу через помилки в цьому крихітному текстовому файлі. Водночас надмірно відкритий robots.txt дозволяє AI-краулерам і конкурентам без обмежень збирати весь ваш контент.

Robots.txt — це не просто інструкція для Googlebot. Це точка контролю над тим, хто і як сканує ваш сайт: пошукові роботи, AI-агенти (GPTBot, ClaudeBot, PerplexityBot), моніторингові скрипти і кіберзловмисники. У цьому матеріалі розберемо все: від базового синтаксису до сучасних стратегій управління AI-краулерами.

1. Що таке robots.txt і як він працює

Robots.txt — це текстовий файл у кореневій директорії сайту (наприклад, https://example.com/robots.txt), який містить інструкції для веб-роботів: яким розділам сайту можна отримати доступ, а яким — ні. Протокол Robots Exclusion Standard (REP) розробили ще у 1994 році, але він залишається стандартом de facto і сьогодні.

Важливо розуміти: robots.txt — це рекомендація, а не технічне обмеження. Порядний краулер (Googlebot, Bingbot, GPTBot) поважає директиви. Але зловмисний бот або скрапер може їх ігнорувати. Для реального блокування потрібні серверні рішення або файрвол.

Як Google читає robots.txt

Google завантажує robots.txt перед початком сканування домену. Файл кешується і оновлюється приблизно раз на добу (до 24 годин). Тому зміни в robots.txt набувають чинності не миттєво. Якщо директива Disallow блокує сторінку, яка вже проіндексована — Google поступово виключає її з індексу при наступних перевірках.

Ключовий нюанс 2025–2026: Google офіційно оновив обробку robots.txt: тепер сайти не можуть блокувати специфікацію самого REP. Також Google більше не підтримує директиву Crawl-delay — вона просто ігнорується.

2. Синтаксис robots.txt: базові правила

Файл robots.txt складається з груп директив. Кожна група починається з одного або кількох рядків User-agent і містить директиви Allow або Disallow.

# Приклад базового robots.txt

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

User-agent: Googlebot
Allow: /

Sitemap: https://example.com/sitemap.xml

Основні директиви

Директива	Опис і приклад
`User-agent: *`	Застосовується до всіх роботів. Зірочка — символ підстановки.
`User-agent: Googlebot`	Правила тільки для Googlebot.
`Disallow: /path/`	Забороняє доступ до вказаного шляху і всіх підшляхів.
`Allow: /path/`	Дозволяє доступ — перекриває Disallow для підшляху.
`Sitemap:`	Вказує URL файлу sitemap. Може бути кілька рядків.
`# коментар`	Рядки з # ігноруються — для нотаток у файлі.

Пріоритет правил

Коли для одного шляху є і Allow, і Disallow — перемагає довше правило (більш специфічне). При однаковій довжині — Allow має пріоритет. Саме тому конструкція Disallow: /wp-admin/ разом із Allow: /wp-admin/admin-ajax.php коректно відкриває ajax-ендпоінт при загальному блокуванні адмін-панелі.

3. Типові помилки robots.txt — і як їх уникнути

За нашою практикою аудитів у PowerBySEO, помилки в robots.txt трапляються на кожному третьому сайті. Ось найнебезпечніші:

Помилка 1: Блокування CSS і JavaScript

Критично! Якщо заблокувати /wp-content/ або /assets/, Google не зможе отримати CSS та JS-файли і не зможе коректно відрендерити сторінку. Це призводить до погіршення оцінки Core Web Vitals і зниження позицій.

# НЕПРАВИЛЬНО — блокує стилі і скрипти
Disallow: /wp-content/

# ПРАВИЛЬНО — блокуємо тільки небажані підкаталоги
Disallow: /wp-content/uploads/private/

Помилка 2: Блокування сторінок, які потрібно індексувати

Популярна помилка при копіюванні robots.txt зі сторонніх шаблонів — заблокувати /category/, /tag/, /author/ або навіть весь сайт рядком Disallow: /. Перевіряйте кожну директиву на тестовому середовищі перед публікацією.

Помилка 3: Відсутній рядок Sitemap

Sitemap у robots.txt — швидкий спосіб допомогти Google знайти карту сайту. Без нього Google шукає sitemap.xml автоматично, але це менш надійно, особливо для нових сайтів.

Sitemap: https://yoursite.com/sitemap.xml
Sitemap: https://yoursite.com/news-sitemap.xml

Помилка 4: Дублікати User-agent блоків

Якщо один і той самий User-agent зустрічається кілька разів у файлі, Google застосовує тільки перший блок. Всі наступні ігноруються. Об’єднуйте всі директиви в один блок для кожного бота.

Помилка 5: Некоректні символи і синтаксис

Robots.txt не підтримує повноцінні регулярні вирази. Зірочка (*) працює тільки у User-agent. Конструкція $, яка позначає кінець рядка, підтримується Googlebot і є корисною для блокування певних типів URL.

# Блокувати URL з параметрами
Disallow: /*?

# Блокувати .pdf файли (Googlebot підтримує $)
Disallow: /*.pdf$

4. Правильне налаштування robots.txt для WordPress

WordPress генерує стандартний robots.txt автоматично, якщо фізичний файл відсутній. Але цей автоматичний файл мінімальний і часто не відповідає реальним потребам. Ми рекомендуємо завжди мати власний фізичний файл у кореневій директорії сайту.

Що обов’язково блокувати на WordPress

Шлях	Причина блокування
`/wp-admin/`	Адмін-панель — не потрібна в індексі, відкрита — ризик безпеки.
`/wp-login.php`	Сторінка входу — мета для брутфорс-атак, не має SEO-цінності.
`/xmlrpc.php`	Застарілий API — джерело атак, потрібен лише рідкісним плагінам.
`/?s= і /search/`	Пошукові сторінки з параметрами — дублі контенту.
`/cart/ і /checkout/`	WooCommerce: ці сторінки не мають SEO-цінності і можуть містити персональні дані.
`/wp-content/plugins/`	Файли плагінів — технічний код, не SEO-контент.

5. Robots.txt і AI-краулери у 2026 році

Це новий і критично важливий аспект налаштування robots.txt. З 2023 року провідні AI-компанії (OpenAI, Anthropic, Perplexity, Google) запустили власних краулерів для навчання моделей і наповнення AI-пошуку. Власники сайтів мають право блокувати ці боти — або навпаки, оптимізувати доступ для тих, хто цитує джерела.

Список основних AI-краулерів

Назва бота	Компанія	Призначення
`GPTBot`	OpenAI	Навчання моделей GPT (ChatGPT)
`ChatGPT-User`	OpenAI	Перегляд посилань у ChatGPT реального часу
`ClaudeBot`	Anthropic	Навчання моделі Claude
`PerplexityBot`	Perplexity AI	Індексація для AI-пошуку Perplexity
`Google-Extended`	Google	Навчання Gemini (відокремлений від Googlebot)
`Applebot-Extended`	Apple	Навчання Apple AI
`Amazonbot`	Amazon	Навчання моделей AWS/Alexa
`FacebookBot`	Meta	Навчання LLaMA та генерація превью

Три стратегії управління AI-краулерами

Відкритий доступ — якщо Perplexity, ChatGPT або Google AI Overview цитує ваш сайт, це безкоштовний трафік і підвищення авторитету бренду. Не блокуйте боти, які повертають трафік.
Вибіркове блокування — блокуйте тих, хто лише «бере» контент, але не повертає трафік. Наприклад, боти для тренування моделей не цитують джерела в чаті.
Повне блокування AI-краулерів — підходить для новинних видань і сайтів з преміум-контентом, які монетизують ексклюзивність. Але це зменшить видимість у AI-пошуку.

# Блокування навчальних краулерів (контент не цитується)
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

# Дозволяємо Perplexity (цитує джерела — повертає трафік)
User-agent: PerplexityBot
Allow: /

# Дозволяємо ChatGPT реального часу (показує посилання)
User-agent: ChatGPT-User
Allow: /

Рекомендація PBS: якщо ваша мета — видимість у AI-пошуку (GEO-оптимізація), не блокуйте краулерів, які цитують джерела. Натомість заблокуйте лише тих, хто використовує контент виключно для тренування моделей без зворотного цитування.

6. Crawl Budget і robots.txt: оптимізація для великих сайтів

Crawl Budget — це кількість сторінок, які Googlebot готовий просканувати на вашому сайті за певний час. Для невеликих сайтів (до 1000 сторінок) це не критично. Але для великих інтернет-магазинів або новинних порталів з десятками тисяч URL — оптимізація crawl budget через robots.txt стає важливим інструментом.

Що блокувати для оптимізації crawl budget

Сторінки з параметрами сортування і фільтрів (?sort=price&order=asc, ?color=red)
Сторінки пагінації, якщо вони не несуть унікального контенту (/page/2/, /page/3/)
URL із сесійними параметрами (?session_id=abc123)
Дублі контенту: версії print=1, мовні параметри, affiliate URL
Технічні сторінки CMS: /feed/, /comments/feed/, /trackback/
Застарілі архіви WordPress: /date/2019/, /date/2018/

# Оптимізація crawl budget для WooCommerce
User-agent: *

# Фільтри і параметри сортування
Disallow: /*?orderby=
Disallow: /*?add-to-cart=
Disallow: /*?color=
Disallow: /*?size=

# Технічні WordPress URL
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /wp-json/

7. Перевірка robots.txt через Google Search Console

Google Search Console має вбудований інструмент перевірки — Robots Testing Tool. Він дозволяє перевірити, чи правильно Google бачить ваш файл, і чи не блокує він потрібні сторінки.

Покрокова перевірка

Відкрийте Google Search Console → меню «Індексування» → «Сторінки».
Введіть URL сторінки у верхньому рядку і натисніть Enter — GSC покаже, чи заблокована вона robots.txt.
Перевірте кожну важливу секцію: головну, категорії, статті, картки товарів.
Зверніть увагу на вкладку «Завантажено» — вона показує, яку версію robots.txt Google закешував.

Додаткові інструменти перевірки

Інструмент	Що перевіряє
GSC Robots Testing Tool	Офіційна перевірка від Google. Показує яку версію файлу бачить Googlebot.
Screaming Frog	Аналізує robots.txt при crawl. Показує заблоковані URL у звіті.
Ahrefs Site Audit	Перевіряє блокування важливих сторінок і звітує про помилки.
Bing Webmaster Tools	Окремий тест для Bingbot — важливо, якщо ведете Bing-трафік.

8. Robots.txt vs Noindex: що і коли використовувати

Robots.txt і мета-тег noindex вирішують схожі завдання, але працюють по-різному — і їх не можна замінити одне одним.

Критерій	Disallow (robots.txt)	Meta noindex
Що блокує	Краулінг — Google не заходить на сторінку	Індексацію — Google сканує, але не додає до видачі
Видалення з індексу	Не видаляє вже проіндексовані сторінки	Видаляє після наступного сканування
Передача PageRank	Заблокована сторінка не передає PageRank	Може передавати через посилання
Час ефекту	До 24 годин	Після наступного сканування (може бути довше)
Ризик	Disallow + noindex разом: Google не може прочитати noindex на заблокованій сторінці!	Сторінка сканується, але не індексується

Золоте правило: якщо сторінка вже в індексі і ви хочете її прибрати — використовуйте noindex, а не Disallow. Якщо сторінку ніколи не потрібно було індексувати (технічні URL, адмін-панель) — Disallow.

9. Готові шаблони robots.txt для різних типів сайтів

Корпоративний сайт / лендінг

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php
Disallow: /?s=

Sitemap: https://example.com/sitemap.xml

Інтернет-магазин (WooCommerce)

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /order-received/
Disallow: /?add-to-cart=
Disallow: /?orderby=
Disallow: /?wc-ajax=

Sitemap: https://shop.com/sitemap.xml
Sitemap: https://shop.com/product-sitemap.xml

Новинний портал / блог з AI-стратегією

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?s=
Disallow: /feed/
Disallow: /comments/

# Дозволяємо AI-краулерів що цитують нас
User-agent: PerplexityBot
Allow: /

User-agent: ChatGPT-User
Allow: /

# Блокуємо навчальних краулерів
User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Sitemap: https://news.com/sitemap.xml

10. Чек-лист перед публікацією robots.txt

Файл robots.txt існує за адресою /robots.txt і повертає статус 200 OK
Присутній рядок Sitemap: з коректною URL вашого sitemap
CSS і JS файли не заблоковані — перевірити /wp-content/
Адмін-панель заблокована (/wp-admin/), але /admin-ajax.php відкритий
Сторінки пошуку, кошика, особистого кабінету заблоковані
AI-краулери налаштовані відповідно до вашої GEO-стратегії
Файл перевірено через GSC Robots Testing Tool для всіх ключових URL
Відсутні конфлікти Disallow + noindex на одних і тих самих сторінках

FAQ

Чи потрібен robots.txt кожному сайту?

Так, навіть базовий файл з одним рядком Sitemap: є корисним. Без robots.txt краулери можуть сканувати технічні URL та адмін-панелі. Наявність файлу з мінімальними директивами — стандарт технічного SEO.

Чи блокує robots.txt шкідливих ботів?

Ні. Robots.txt — добровільний протокол. Порядні краулери поважають його. Зловмисні боти і скрапери ігнорують robots.txt повністю. Для захисту потрібні Web Application Firewall, Cloudflare або серверні правила.

Як перевірити, що robots.txt не блокує важливі сторінки?

Використовуйте Google Search Console → Robots Testing Tool. Введіть URL кожної важливої секції (головна, категорія, стаття, товар). Також у Screaming Frog запустіть crawl і перевірте фільтр «Blocked by robots.txt».

Чи варто блокувати всіх AI-краулерів?

Залежить від стратегії. Якщо мета — видимість у AI-пошуку (Perplexity, ChatGPT, Google AI Overview), блокувати AI-краулерів невигідно. Якщо у вас преміум-контент з монетизацією або передплатою — блокування навчальних ботів (GPTBot, Google-Extended) виправдане.

В чому різниця між robots.txt Disallow і тегом noindex?

Disallow блокує сканування — Google не заходить на сторінку. Noindex дозволяє сканування, але забороняє додавати сторінку до видачі. Якщо заблокувати сторінку в robots.txt і додати noindex — Google не зможе прочитати noindex. Ці директиви разом не посилюють, а заважають одна одній.

Скільки часу займає оновлення robots.txt у Google?

Google кешує robots.txt строком до 24 годин. Після зміни файлу зміни набувають чинності протягом доби. Щоб прискорити — скористайтеся функцією «Запросити сканування» в Google Search Console для URL /robots.txt.

Чи може robots.txt завдати шкоди SEO?

Так, якщо неправильно налаштований. Критичні помилки: блокування CSS/JS (Google не рендерить сторінки коректно), блокування потрібних сторінок (випадають з індексу), Disallow: / (повне закриття сайту). Завжди тестуйте зміни в robots.txt перед публікацією.