Robots.txt: як правильно налаштувати і що не блокувати
05 Травня, 2026Один рядок у файлі robots.txt — і ваш сайт зникає з Google. Це не перебільшення: щороку сотні проєктів втрачають позиції або взагалі випадають з індексу через помилки в цьому крихітному текстовому файлі. Водночас надмірно відкритий robots.txt дозволяє AI-краулерам і конкурентам без обмежень збирати весь ваш контент.
Robots.txt — це не просто інструкція для Googlebot. Це точка контролю над тим, хто і як сканує ваш сайт: пошукові роботи, AI-агенти (GPTBot, ClaudeBot, PerplexityBot), моніторингові скрипти і кіберзловмисники. У цьому матеріалі розберемо все: від базового синтаксису до сучасних стратегій управління AI-краулерами.
1. Що таке robots.txt і як він працює
Robots.txt — це текстовий файл у кореневій директорії сайту (наприклад, https://example.com/robots.txt), який містить інструкції для веб-роботів: яким розділам сайту можна отримати доступ, а яким — ні. Протокол Robots Exclusion Standard (REP) розробили ще у 1994 році, але він залишається стандартом de facto і сьогодні.
Важливо розуміти: robots.txt — це рекомендація, а не технічне обмеження. Порядний краулер (Googlebot, Bingbot, GPTBot) поважає директиви. Але зловмисний бот або скрапер може їх ігнорувати. Для реального блокування потрібні серверні рішення або файрвол.
Як Google читає robots.txt
Google завантажує robots.txt перед початком сканування домену. Файл кешується і оновлюється приблизно раз на добу (до 24 годин). Тому зміни в robots.txt набувають чинності не миттєво. Якщо директива Disallow блокує сторінку, яка вже проіндексована — Google поступово виключає її з індексу при наступних перевірках.
Ключовий нюанс 2025–2026: Google офіційно оновив обробку robots.txt: тепер сайти не можуть блокувати специфікацію самого REP. Також Google більше не підтримує директиву Crawl-delay — вона просто ігнорується.
2. Синтаксис robots.txt: базові правила
Файл robots.txt складається з груп директив. Кожна група починається з одного або кількох рядків User-agent і містить директиви Allow або Disallow.
# Приклад базового robots.txt User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php User-agent: Googlebot Allow: / Sitemap: https://example.com/sitemap.xml
Основні директиви
| Директива | Опис і приклад |
|---|---|
User-agent: * | Застосовується до всіх роботів. Зірочка — символ підстановки. |
User-agent: Googlebot | Правила тільки для Googlebot. |
Disallow: /path/ | Забороняє доступ до вказаного шляху і всіх підшляхів. |
Allow: /path/ | Дозволяє доступ — перекриває Disallow для підшляху. |
Sitemap: | Вказує URL файлу sitemap. Може бути кілька рядків. |
# коментар | Рядки з # ігноруються — для нотаток у файлі. |
Пріоритет правил
Коли для одного шляху є і Allow, і Disallow — перемагає довше правило (більш специфічне). При однаковій довжині — Allow має пріоритет. Саме тому конструкція Disallow: /wp-admin/ разом із Allow: /wp-admin/admin-ajax.php коректно відкриває ajax-ендпоінт при загальному блокуванні адмін-панелі.
3. Типові помилки robots.txt — і як їх уникнути
За нашою практикою аудитів у PowerBySEO, помилки в robots.txt трапляються на кожному третьому сайті. Ось найнебезпечніші:
Помилка 1: Блокування CSS і JavaScript
Критично! Якщо заблокувати /wp-content/ або /assets/, Google не зможе отримати CSS та JS-файли і не зможе коректно відрендерити сторінку. Це призводить до погіршення оцінки Core Web Vitals і зниження позицій.
# НЕПРАВИЛЬНО — блокує стилі і скрипти Disallow: /wp-content/ # ПРАВИЛЬНО — блокуємо тільки небажані підкаталоги Disallow: /wp-content/uploads/private/
Помилка 2: Блокування сторінок, які потрібно індексувати
Популярна помилка при копіюванні robots.txt зі сторонніх шаблонів — заблокувати /category/, /tag/, /author/ або навіть весь сайт рядком Disallow: /. Перевіряйте кожну директиву на тестовому середовищі перед публікацією.
Помилка 3: Відсутній рядок Sitemap
Sitemap у robots.txt — швидкий спосіб допомогти Google знайти карту сайту. Без нього Google шукає sitemap.xml автоматично, але це менш надійно, особливо для нових сайтів.
Sitemap: https://yoursite.com/sitemap.xml Sitemap: https://yoursite.com/news-sitemap.xml
Помилка 4: Дублікати User-agent блоків
Якщо один і той самий User-agent зустрічається кілька разів у файлі, Google застосовує тільки перший блок. Всі наступні ігноруються. Об’єднуйте всі директиви в один блок для кожного бота.
Помилка 5: Некоректні символи і синтаксис
Robots.txt не підтримує повноцінні регулярні вирази. Зірочка (*) працює тільки у User-agent. Конструкція $, яка позначає кінець рядка, підтримується Googlebot і є корисною для блокування певних типів URL.
# Блокувати URL з параметрами Disallow: /*? # Блокувати .pdf файли (Googlebot підтримує $) Disallow: /*.pdf$
4. Правильне налаштування robots.txt для WordPress
WordPress генерує стандартний robots.txt автоматично, якщо фізичний файл відсутній. Але цей автоматичний файл мінімальний і часто не відповідає реальним потребам. Ми рекомендуємо завжди мати власний фізичний файл у кореневій директорії сайту.
Рекомендований шаблон для WordPress (2026)
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /?s= Disallow: /search/ Disallow: /checkout/ Disallow: /cart/ Disallow: /my-account/ Disallow: /order-received/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ # Дозволяємо стилі і скрипти (ОБОВ'ЯЗКОВО) Allow: /wp-content/uploads/ Allow: /wp-content/themes/*.css Allow: /wp-content/themes/*.js Sitemap: https://yoursite.com/sitemap.xml
Що обов’язково блокувати на WordPress
| Шлях | Причина блокування |
|---|---|
/wp-admin/ | Адмін-панель — не потрібна в індексі, відкрита — ризик безпеки. |
/wp-login.php | Сторінка входу — мета для брутфорс-атак, не має SEO-цінності. |
/xmlrpc.php | Застарілий API — джерело атак, потрібен лише рідкісним плагінам. |
/?s= і /search/ | Пошукові сторінки з параметрами — дублі контенту. |
/cart/ і /checkout/ | WooCommerce: ці сторінки не мають SEO-цінності і можуть містити персональні дані. |
/wp-content/plugins/ | Файли плагінів — технічний код, не SEO-контент. |
5. Robots.txt і AI-краулери у 2026 році
Це новий і критично важливий аспект налаштування robots.txt. З 2023 року провідні AI-компанії (OpenAI, Anthropic, Perplexity, Google) запустили власних краулерів для навчання моделей і наповнення AI-пошуку. Власники сайтів мають право блокувати ці боти — або навпаки, оптимізувати доступ для тих, хто цитує джерела.
Список основних AI-краулерів
| Назва бота | Компанія | Призначення |
|---|---|---|
GPTBot | OpenAI | Навчання моделей GPT (ChatGPT) |
ChatGPT-User | OpenAI | Перегляд посилань у ChatGPT реального часу |
ClaudeBot | Anthropic | Навчання моделі Claude |
PerplexityBot | Perplexity AI | Індексація для AI-пошуку Perplexity |
Google-Extended | Навчання Gemini (відокремлений від Googlebot) | |
Applebot-Extended | Apple | Навчання Apple AI |
Amazonbot | Amazon | Навчання моделей AWS/Alexa |
FacebookBot | Meta | Навчання LLaMA та генерація превью |
Три стратегії управління AI-краулерами
- Відкритий доступ — якщо Perplexity, ChatGPT або Google AI Overview цитує ваш сайт, це безкоштовний трафік і підвищення авторитету бренду. Не блокуйте боти, які повертають трафік.
- Вибіркове блокування — блокуйте тих, хто лише «бере» контент, але не повертає трафік. Наприклад, боти для тренування моделей не цитують джерела в чаті.
- Повне блокування AI-краулерів — підходить для новинних видань і сайтів з преміум-контентом, які монетизують ексклюзивність. Але це зменшить видимість у AI-пошуку.
# Блокування навчальних краулерів (контент не цитується) User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: ClaudeBot Disallow: / # Дозволяємо Perplexity (цитує джерела — повертає трафік) User-agent: PerplexityBot Allow: / # Дозволяємо ChatGPT реального часу (показує посилання) User-agent: ChatGPT-User Allow: /
Рекомендація PBS: якщо ваша мета — видимість у AI-пошуку (GEO-оптимізація), не блокуйте краулерів, які цитують джерела. Натомість заблокуйте лише тих, хто використовує контент виключно для тренування моделей без зворотного цитування.
6. Crawl Budget і robots.txt: оптимізація для великих сайтів
Crawl Budget — це кількість сторінок, які Googlebot готовий просканувати на вашому сайті за певний час. Для невеликих сайтів (до 1000 сторінок) це не критично. Але для великих інтернет-магазинів або новинних порталів з десятками тисяч URL — оптимізація crawl budget через robots.txt стає важливим інструментом.
Що блокувати для оптимізації crawl budget
- Сторінки з параметрами сортування і фільтрів (
?sort=price&order=asc,?color=red) - Сторінки пагінації, якщо вони не несуть унікального контенту (
/page/2/,/page/3/) - URL із сесійними параметрами (
?session_id=abc123) - Дублі контенту: версії
print=1, мовні параметри, affiliate URL - Технічні сторінки CMS:
/feed/,/comments/feed/,/trackback/ - Застарілі архіви WordPress:
/date/2019/,/date/2018/
# Оптимізація crawl budget для WooCommerce User-agent: * # Фільтри і параметри сортування Disallow: /*?orderby= Disallow: /*?add-to-cart= Disallow: /*?color= Disallow: /*?size= # Технічні WordPress URL Disallow: /feed/ Disallow: /comments/feed/ Disallow: /wp-json/
7. Перевірка robots.txt через Google Search Console
Google Search Console має вбудований інструмент перевірки — Robots Testing Tool. Він дозволяє перевірити, чи правильно Google бачить ваш файл, і чи не блокує він потрібні сторінки.
Покрокова перевірка
- Відкрийте Google Search Console → меню «Індексування» → «Сторінки».
- Введіть URL сторінки у верхньому рядку і натисніть Enter — GSC покаже, чи заблокована вона robots.txt.
- Перевірте кожну важливу секцію: головну, категорії, статті, картки товарів.
- Зверніть увагу на вкладку «Завантажено» — вона показує, яку версію robots.txt Google закешував.
Додаткові інструменти перевірки
| Інструмент | Що перевіряє |
|---|---|
| GSC Robots Testing Tool | Офіційна перевірка від Google. Показує яку версію файлу бачить Googlebot. |
| Screaming Frog | Аналізує robots.txt при crawl. Показує заблоковані URL у звіті. |
| Ahrefs Site Audit | Перевіряє блокування важливих сторінок і звітує про помилки. |
| Bing Webmaster Tools | Окремий тест для Bingbot — важливо, якщо ведете Bing-трафік. |
8. Robots.txt vs Noindex: що і коли використовувати
Robots.txt і мета-тег noindex вирішують схожі завдання, але працюють по-різному — і їх не можна замінити одне одним.
| Критерій | Disallow (robots.txt) | Meta noindex |
|---|---|---|
| Що блокує | Краулінг — Google не заходить на сторінку | Індексацію — Google сканує, але не додає до видачі |
| Видалення з індексу | Не видаляє вже проіндексовані сторінки | Видаляє після наступного сканування |
| Передача PageRank | Заблокована сторінка не передає PageRank | Може передавати через посилання |
| Час ефекту | До 24 годин | Після наступного сканування (може бути довше) |
| Ризик | Disallow + noindex разом: Google не може прочитати noindex на заблокованій сторінці! | Сторінка сканується, але не індексується |
Золоте правило: якщо сторінка вже в індексі і ви хочете її прибрати — використовуйте noindex, а не Disallow. Якщо сторінку ніколи не потрібно було індексувати (технічні URL, адмін-панель) — Disallow.
9. Готові шаблони robots.txt для різних типів сайтів
Корпоративний сайт / лендінг
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /wp-login.php Disallow: /?s= Sitemap: https://example.com/sitemap.xml
Інтернет-магазин (WooCommerce)
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /cart/ Disallow: /checkout/ Disallow: /my-account/ Disallow: /order-received/ Disallow: /?add-to-cart= Disallow: /?orderby= Disallow: /?wc-ajax= Sitemap: https://shop.com/sitemap.xml Sitemap: https://shop.com/product-sitemap.xml
Новинний портал / блог з AI-стратегією
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php Disallow: /?s= Disallow: /feed/ Disallow: /comments/ # Дозволяємо AI-краулерів що цитують нас User-agent: PerplexityBot Allow: / User-agent: ChatGPT-User Allow: / # Блокуємо навчальних краулерів User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / Sitemap: https://news.com/sitemap.xml
10. Чек-лист перед публікацією robots.txt
- Файл robots.txt існує за адресою
/robots.txtі повертає статус 200 OK - Присутній рядок
Sitemap:з коректною URL вашого sitemap - CSS і JS файли не заблоковані — перевірити
/wp-content/ - Адмін-панель заблокована (
/wp-admin/), але/admin-ajax.phpвідкритий - Сторінки пошуку, кошика, особистого кабінету заблоковані
- AI-краулери налаштовані відповідно до вашої GEO-стратегії
- Файл перевірено через GSC Robots Testing Tool для всіх ключових URL
- Відсутні конфлікти
Disallow+noindexна одних і тих самих сторінках
FAQ
Чи потрібен robots.txt кожному сайту?
Так, навіть базовий файл з одним рядком Sitemap: є корисним. Без robots.txt краулери можуть сканувати технічні URL та адмін-панелі. Наявність файлу з мінімальними директивами — стандарт технічного SEO.
Чи блокує robots.txt шкідливих ботів?
Ні. Robots.txt — добровільний протокол. Порядні краулери поважають його. Зловмисні боти і скрапери ігнорують robots.txt повністю. Для захисту потрібні Web Application Firewall, Cloudflare або серверні правила.
Як перевірити, що robots.txt не блокує важливі сторінки?
Використовуйте Google Search Console → Robots Testing Tool. Введіть URL кожної важливої секції (головна, категорія, стаття, товар). Також у Screaming Frog запустіть crawl і перевірте фільтр «Blocked by robots.txt».
Чи варто блокувати всіх AI-краулерів?
Залежить від стратегії. Якщо мета — видимість у AI-пошуку (Perplexity, ChatGPT, Google AI Overview), блокувати AI-краулерів невигідно. Якщо у вас преміум-контент з монетизацією або передплатою — блокування навчальних ботів (GPTBot, Google-Extended) виправдане.
В чому різниця між robots.txt Disallow і тегом noindex?
Disallow блокує сканування — Google не заходить на сторінку. Noindex дозволяє сканування, але забороняє додавати сторінку до видачі. Якщо заблокувати сторінку в robots.txt і додати noindex — Google не зможе прочитати noindex. Ці директиви разом не посилюють, а заважають одна одній.
Скільки часу займає оновлення robots.txt у Google?
Google кешує robots.txt строком до 24 годин. Після зміни файлу зміни набувають чинності протягом доби. Щоб прискорити — скористайтеся функцією «Запросити сканування» в Google Search Console для URL /robots.txt.
Чи може robots.txt завдати шкоди SEO?
Так, якщо неправильно налаштований. Критичні помилки: блокування CSS/JS (Google не рендерить сторінки коректно), блокування потрібних сторінок (випадають з індексу), Disallow: / (повне закриття сайту). Завжди тестуйте зміни в robots.txt перед публікацією.
Наша пошта
info@powerbyseo.comКонтакти
+38 (95) 726 33 32Від ідей до результату - ми втілюємо проєкти в реальність.