Чи траплялося так, що ваш сайт виглядає чудово, але в пошукових системах відображаються не ті сторінки, які ви хотіли б показати?
Файл robots.txt допомагає вирішити цю проблему. Це текстовий файл у корені сайту, який повідомляє пошуковим роботам, які сторінки можна індексувати, а які слід пропустити.
Завдяки йому ви можете контролювати доступ до сайту, захистити конфіденційні або тимчасові сторінки та забезпечити, щоб у результатах пошуку з’являлися тільки потрібні вам сторінки.
Що таке файл robots.txt?
Файл robots.txt – це звичайний текстовий файл веб-сайту в корені вашого сайту, який відповідає стандарту виключення роботів.
Наприклад, www.yourdomain.com матиме файл robots.txt за адресою www.yourdomain.com/robots.txt. Цей файл складається з одного або декількох правил, які дозволяють або блокують доступ роботам, обмежуючи їх до вказаного шляху до файлу на сайті. За замовчуванням всі файли повністю дозволені для сканування, якщо не вказано інше.
Файл robots.txt є одним з перших аспектів, які аналізуються пошуковими роботами. Важливо відзначити, що ваш сайт може мати тільки один файл robots.txt. Файл створюється на одній або декількох сторінках або на всьому сайті, щоб перешкодити пошуковим системам показувати інформацію про ваш сайт.
У цій статті ми розглянемо п’ять кроків для створення файлу robots.txt і синтаксис, необхідний для захисту від ботів.
Як налаштувати файл robots.txt покроково
Крок 1. Створення та розміщення файлу robots.txt на сайті
Ви повинні мати доступ до кореня вашого домену. Ваш хостинг-провайдер може допомогти вам з’ясувати, чи є у вас відповідний доступ.
Найважливішою частиною файлу є його створення і розташування. Створіть файл robots.txt за допомогою будь-якого текстового редактора:
- Корінь вашого домену: www.yourdomain.com/robots.txt.
- Ваші субдомени: page.yourdomain.com/robots.txt.
- Нестандартні порти: www.yourdomain.com:881/robots.txt.
[su_box title=”Note:” style=”glass” box_color=”#3ac6eb” radius=”20″]Файли Robots.txt не розміщуються в підкаталозі вашого домену (www.yourdomain.com/page/robots.txt). [/su_box]
Файли robots.txt не розміщуються в підкаталозі вашого домену (www.yourdomain.com/page/robots.txt). Нарешті, вам потрібно переконатися, що ваш файл robots.txt є текстовим файлом у кодуванні UTF-8. Google та інші популярні пошукові системи можуть ігнорувати символи поза кодуванням UTF-8, що може зробити правила robots.txt недійсними.
Крок 2. Налаштування агента користувача robots.txt
Наступним кроком у створенні файлів robots.txt є налаштування агента користувача. Агент користувача належить до веб-сканерів або пошукових систем, які ви хочете дозволити або заблокувати. Агентом користувача може бути декілька суб’єктів.
Існує три різні способи створення агента користувача у вашому файлі robots.txt.
Створення одного агента користувача
Синтаксис, який ви використовуєте для встановлення агента користувача, має вигляд User-agent: NameOfBot. Нижче, DuckDuckBot є єдиним створеним користувацьким агентом.
Приклад налаштування user-agent:
User-agent: DuckDuckBot
Створення більш ніж одного агента користувача
Якщо нам потрібно додати більше одного, виконайте той самий процес, що і для агента користувача DuckDuckBot у наступному рядку, ввівши ім’я додаткового агента користувача. У цьому прикладі ми використовували Facebot.
Приклад того, як задати більше одного агента користувача:
User-agent: DuckDuckBot
User-agent: Facebot
Налаштування всіх пошукових роботів як User-agent
Щоб заблокувати всіх ботів або пошукових роботів, замініть ім’я бота зірочкою (*).
Приклад налаштування всіх пошукових роботів як user-agent:
User-agent: *
[su_box title=”Note:” style=”glass” box_color=”#3ac6eb” radius=”20″]The pound sign (#) denotes the beginning of a comment.[/su_box]
Крок 3. Встановіть правила для вашого файлу robots.txt
Файл robots.txt читається групами. Група вказує, хто є користувачем-агентом, і має одне правило або директиву, щоб вказати, до яких файлів або каталогів користувач-агент може або не може отримати доступ.
Ось які директиви використовуються:
- Disallow: Директива, що вказує на сторінку або каталог, пов’язані з вашим кореневим доменом, які ви не хочете, щоб названий користувацький агент переглядав. Вона починається з прямої похилої риски (/), за якою слідує повна адреса сторінки. Ви можете завершити його прямим слешем, тільки якщо він посилається на каталог, а не на цілу сторінку. Ви можете використовувати один або декілька параметрів заборони для одного правила.
- Дозволити: Директива посилається на сторінку або каталог відносно вашого кореневого домену, які ви хочете, щоб сканував названий користувацький агент. Наприклад, ви можете використовувати директиву allow, щоб замінити правило disallow. Вона також починається з прямої похилої риски (/), за якою слідує повна адреса сторінки. Ви закінчите її прямим слешем, тільки якщо вона посилається на каталог, а не на цілу сторінку. Ви можете використовувати один або декілька параметрів дозволу для одного правила.
- Карта сайту: Директива sitemap є необов’язковою і вказує місце розташування карти сайту для веб-сайту. Єдиною умовою є те, що це має бути повністю кваліфікована URL-адреса. Ви можете використовувати нуль або більше, залежно від того, що необхідно.
- Пошукові роботи обробляють групи зверху вниз. Як згадувалося раніше, вони отримують доступ до будь-якої сторінки або каталогу, для яких явно не встановлено заборону. Тому додайте Disallow: / під інформацією про користувача-агента в кожній групі, щоб заблокувати сканування вашого сайту цими агентами.
Приклад того, як заблокувати DuckDuckBot:
User-agent: DuckDuckBot
Disallow: /
Приклад блокування більш ніж одного користувача-агента:
User-agent: DuckDuckBot
User-agent: Facebot
Disallow: /
Приклад блокування всіх сканерів:
User-agent: *
Disallow: /
Щоб заблокувати певний субдомен від усіх пошукових роботів, додайте пряму косу риску і повну URL-адресу субдомену в правилі заборони.
Приклад:
User-agent: *
Disallow: /https://page.yourdomain.com/robots.txt
Якщо ви хочете заблокувати каталог, виконайте той самий процес, додавши пряму похилу риску і назву вашого каталогу, але в кінці додайте ще одну пряму похилу риску.
Приклад:
User-agent: *
Disallow: /images/
Нарешті, якщо ви хочете, щоб усі пошукові системи збирали інформацію на всіх сторінках вашого сайту, ви можете створити або дозволити, або заборонити правило, але не забудьте додати пряму похилу риску, якщо ви використовуєте правило дозволу. Приклади обох правил наведені нижче.
Приклад дозволу для всіх пошукових роботів:
User-agent: *
Allow: /
Заборонити приклад, щоб дозволити всім об’єктам:
User-agent: *
Disallow:
Крок 4. Завантажте файл robots.txt
Веб-сайти не постачаються з файлом robots.txt автоматично, оскільки він не є обов’язковим. Якщо ви вирішили створити його, завантажте файл до кореневої директорії вашого сайту.
Завантаження залежить від файлової структури вашого сайту і вашого хостингового середовища. Зверніться до свого хостинг-провайдера за допомогою щодо завантаження файлу robots.txt.
Крок 5. Перевірте правильність роботи файлу robots.txt
Існує кілька способів перевірити і переконатися, що ваш файл robots.txt працює правильно. За допомогою будь-якого з них ви можете побачити будь-які помилки в синтаксисі або логіці. Ось декілька з них:
- Тестер robots.txt від Google в Пошуковій консолі.
- Robots.txt Validator і TestingTool від Merkle, Inc.
- Інструмент тестування robots.txt від Ryte.
Налаштування файлу robots.txt у WordPress через Yoast SEO
Якщо ви використовуєте плагін Yoast SEO для WordPress, ви побачите розділ у вікні адміністратора для створення файлу robots.txt.
Увійдіть в бекенд вашого веб-сайту WordPress і перейдіть до Інструментів у розділі SEO, а потім натисніть Редактор файлів.
Дотримуйтесь тієї ж послідовності, що і раніше, щоб встановити агентів користувачів і правила. Нижче ми заблокували веб-сканери в каталогах WordPress wp-admin і wp-includes, але дозволили користувачам і ботам бачити інші сторінки сайту. Закінчивши, натисніть Зберегти зміни в robots.txt, щоб активувати файл robots.txt.
Якщо ви користуєтеся хостингом WordPress від Liquid Web, ви завжди можете звернутися до нашої служби підтримки, щоб отримати цілодобову допомогу з питань, пов’язаних із додатками WordPress і хостингом, на всіх керованих хостингах WordPress, хмарних VPS WordPress і виділених хостингах WordPress.
Блокування індексації сторінок кошика та оформлення замовлення
Пошукові системи, які сканують посилання на додавання до кошика та небажані сторінки, можуть зашкодити вашому SEO-рейтингу. Посилання на додавання до кошика можуть викликати більш специфічні проблеми, оскільки ці сторінки не кешуються, збільшуючи навантаження на процесор і пам’ять вашого сервера, оскільки сторінки переглядаються багаторазово.
На щастя, адаптувати файл robot.txt вашого сайту дуже просто, щоб пошукові системи сканували тільки потрібні вам сторінки. Використовуйте ці рядки коду у файлі robots.txt сайту, щоб вказати посилання на додавання в кошик і заборонити пошуковим системам індексувати їх.
User-agent: *
Disallow: /*add-to-cart=*
IТакож рекомендується адаптувати файл robots.txt, щоб заборонити індексацію сторінок кошика, оформлення замовлення та особистого кабінету, що можна зробити, додавши наведені нижче рядки.
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Висновок
Ми розглянули, як створити файл robots.txt. Ці кроки прості у виконанні та можуть заощадити ваш час і позбавити вас головного болю від сканування контенту на вашому сайті без вашого дозволу.
Створіть файл robots.txt, щоб заблокувати непотрібне сканування пошуковими системами та ботами.








