Завантажити robots txt для яндекса. Як редагувати файл robots txt

Здрастуйте, шановні читачі блогу «Світ Вебмайстра»!

Файл robots.txt- Це дуже важливий файл, що безпосередньо впливає на якість індексації вашого сайту, а значить і на його пошукове просування.

Саме тому ви повинні вміти правильно оформляти роботс.тхт, щоб випадково не заборонити до індексу якісь важливі документи інтернет-проекту.

Про те, як оформити файл robots.txt, який синтаксис потрібно використовувати, як дозволяти і забороняти до індексу документи, і йтиметься в цій статті.

Про файл robots.txt

Спочатку давайте докладніше дізнаємося, що це за файл такий.

Файл роботс – це файл, який показує пошуковим системам, які сторінки та документи сайту можна додавати до індексу, а які – не можна.Він необхідний через те, що пошукові системи намагаються проіндексувати весь сайт, а це не завжди правильно. Наприклад, якщо ви створюєте сайт на движку (WordPress, Joomla і т.д.), то у вас будуть присутні папки, які організовують роботу адміністративної панелі. Зрозуміло, що інформацію в цих папках індексувати не можна, саме в цьому випадку використовується файл robots.txt, який обмежує доступ пошуковикам.

Також у файлі роботс.тхт вказується адреса картки сайту (вона покращує індексацію пошуковими системами), а також головний домен сайту (головне дзеркало).

Дзеркало- Це абсолютна копія сайту, тобто. коли один сайт , то кажуть, що один із них – це головний домен, а інший – його дзеркало.

Таким чином, у файлу досить багато функцій, причому важливих!

Синтаксис файлу robots.txt

Файл Роботс містить блоки правил, які говорять тій чи іншій пошуковій системі, що можна індексувати, а що ні. Блок правил може бути і один (для всіх пошукових систем), але також їх може бути декілька – для якихось конкретних пошукових систем окремо.

Кожен такий блок починається з оператора User-Agent, який вказує, до якої пошукової системи застосовні дані правила.

User-Agent:A
(Правила для робота "А")

User-Agent:B
(Правила для робота "В")

У прикладі вище показано, що оператор User-Agent має параметр - ім'я робота пошукової системи, до якої застосовуються правила. Основні з них я вкажу нижче:

Після "User-Agent" йдуть інші оператори. Ось їх опис:

Для всіх операторів справедливий один синтаксис. Тобто. оператори потрібно використовувати так:

Оператор1: параметр1

Оператор2: параметр2

Таким чином, спочатку ми пишемо назву оператора (неважливо, великими або маленькими літерами), потім ставимо двокрапку і через пропуск вказуємо параметр даного оператора. Потім з нового рядка так само описуємо оператор два.

Важливо! Порожній рядок означатиме, що блок правил для цього пошуковика закінчено, тому не поділяйте оператори порожнім рядком.

Приклад файлу robots.txt

Розглянемо простий приклад файлу robots.txt, щоб краще розібратися в особливостях його синтаксису:

User-agent: Yandex
Allow: /folder1/
Disallow: /file1.html
Host: www.site.ru

User-agent: *
Disallow: /document.php
Disallow: /folderxxx/
Disallow: /folderyyy/folderzzz
Disallow: /feed/

Sitemap: http://www.site.ru/sitemap.xml

Тепер розберемо наведений приклад.

Файл складається з трьох блоків: перший для Яндекса, другий для всіх пошукових систем, а в третьому вказана адреса картки сайту (застосовується автоматично для всіх пошукових систем, тому вказувати «User-Agent» не потрібно). Яндексу ми дозволили індексувати папку folder1 і весь її вміст, але заборонили індексувати документ file1.html, що знаходиться в кореневому каталозі на хостингу. Також ми вказали головний домен сайту яндексу. Другий блок – для всіх пошукових систем. Там ми заборонили документ "document.php", а також папки "folderxxx", "folderyyy/folderzzz" та "feed".

Зверніть увагу, що ми заборонили в другому блоці команд до індексу не всю папку folderyyy, а лише папку всередині цієї папки - folderzzz. Тобто. ми вказали повний шлях для “folderzzz”. Так завжди потрібно робити, якщо ми забороняємо документ, що знаходиться не в кореневому каталозі сайту, а десь усередині інших папок.

Створення займе менше двох хвилин:

Створений файл роботів можна перевірити на працездатність в панелі вебмайстрів Яндекса. Якщо у файлі раптом виявляться помилки, то індекс це покаже.

Обов'язково створіть файл robots.txt для вашого сайту, якщо його у вас досі немає. Це допоможе розвиватися вашому сайту у пошукових системах. Також можете почитати ще одну нашу статтю про метод мета-тегів і.htaccess.

Доброго дня любі друзі! Усі ви знаєте, що пошукова оптимізація – справа відповідальна та тонка. Потрібно враховувати абсолютно кожну дрібницю, щоб отримати прийнятний результат.

Сьогодні ми поговоримо про robots.txt – файл, який знайомий кожному вебмайстру. Саме в ньому прописуються всі основні інструкції для пошукових роботів. Як правило, вони із задоволенням дотримуються вказаних вказівок і у разі неправильного складання відмовляються від індексації веб-ресурсу. Далі я розповім вам про те, як складати правильний варіант robots.txt, а також як його налаштувати.

У передмові я вже описав, що таке. Тепер розповім, навіщо він потрібний. Robots.txt – невеликий текстовий файл, який зберігається у корені сайту. Він використовується пошуковими системами. У ньому чітко прописані правила індексації, тобто які розділи сайту потрібно індексувати (додавати у пошук), а які – ні.

Зазвичай, від індексації закриваються технічні розділи сайту. Зрідка до чорного списку потрапляють неунікальні сторінки (копіпаст політики конфіденційності тому приклад). Тут же роботам пояснюються принципи роботи з розділами, які потрібно індексувати. Дуже часто прописують правила для кількох роботів окремо. Про це ми й поговоримо далі.

При правильному налаштуванні robots.txt ваш сайт гарантовано зросте у позиціях пошукових систем. Роботи враховуватимуть лише корисний контент, обділяючи увагою дубльовані чи технічні розділи.

Створення robots.txt

Щоб створити файл, достатньо скористатися стандартним функціоналом операційної системи, після чого вивантажити його на сервер через FTP. Де він лежить (на сервері) здогадатися нескладно – докорінно. Зазвичай, ця папка називається public_html.

Ви легко зможете потрапити до неї за допомогою будь-якого FTP-клієнта (наприклад, ) або вбудованого файлового менеджера. Природно, ми не завантажуватимемо на сервер порожній роботс. Впишемо туди кілька основних директив (правил).

User-agent: *
Allow: /

Використовуючи ці рядки у своєму файлі robots, ви звернетесь до всіх робіт (директива User-agent), дозволивши їм індексувати ваш сайт повністю і повністю (включаючи всі технічні сторінки Allow: /)

Звичайно ж, такий варіант нам не надто підходить. Файл буде не дуже корисним для оптимізації під пошукові системи. Він безперечно потребує грамотного настроювання. Але перед цим ми розглянемо всі основні директиви та значення robots.txt.

Директиви

User-agentОдна з найважливіших, т. к. показує яким роботам слідувати правилам, що йдуть за нею. Правила враховуються до наступного User-agent у файлі.
AllowДозволяє індексацію будь-яких блоків ресурсу. Наприклад: "/" або "/tag/".
DisallowНавпаки, забороняє індексацію розділів.
SitemapШлях до картки сайту (у форматі xml).
HostГоловне дзеркало (з www або без, або якщо у вас є кілька доменів). Тут же вказується захищений протокол https (за наявності). Якщо у вас стандартний http, його не потрібно вказувати.
Crawl-delayЗ її допомогою ви зможете встановити інтервал відвідування та завантаження файлів вашого сайту для роботів. Допомагає зменшити навантаження на хост.
Clean-paramДозволяє вимкнути індексацію параметрів на тих чи інших сторінках (на кшталт www.site.com/cat/state?admin_id8883278).
На відміну від попередніх директив, тут вказуються 2 значення (адреса і сама параметр).

Це все правила, які підтримуються флагманськими пошуковими системами. Саме з їх допомогою ми будемо створювати наш роботс, оперуючи різними варіаціями для різних видів сайтів.

Налаштування

Для грамотного налаштування файлу роботів нам потрібно точно знати, які розділи сайту повинні бути проіндексовані, а які – ні. У випадку з простим односторінником на html+css нам достатньо прописати кілька основних директив, таких як:

User-agent: *
Allow: /
Sitemap: site.ru/sitemap.xml
Host: www.site.ru

Тут ми вказали правила та значення для всіх пошукових систем. Але краще додати окремі директиви для Гугла та Яндекса. Виглядатиме це так:

User-agent: *
Allow: /

User-agent: Yandex
Allow: /
Disallow: /politika

User-agent: GoogleBot
Allow: /
Disallow: /tags/

Sitemap: site.ru/sitemap.xml
Host: site.ru

Тепер на нашому html-сайті індексуватимуться абсолютно всі файли. Якщо ми хочемо виключити якусь сторінку або картинку, нам необхідно вказати відносне посилання на цей фрагмент у Disallow.

Ви можете використовувати сервіси автоматичної генерації файлів роботів. Не гарантую, що з їх допомогою ви створите ідеально правильний варіант, але як ознайомлення можна спробувати.

Серед таких сервісів можна виділити:

З їхньою допомогою ви зможете створити robots.txt в автоматичному режимі. Особисто я украй не рекомендую цей варіант, тому що набагато простіше зробити це вручну, настроївши під свою платформу.

Говорячи про платформи, я маю на увазі всілякі CMS, фреймворки, SaaS-системи та багато іншого. Далі ми поговоримо про те, як настроювати файл роботів WordPress та Joomla.

Але перед цим виділимо кілька універсальних правил, якими можна буде керуватися при створенні та налаштуванні роботів майже для будь-якого сайту:

Закриваємо від індексування (Disallow):

  • адмінку сайту;
  • особистий кабінет та сторінки реєстрації/авторизації;
  • кошик, дані із форм замовлень (для інтернет-магазину);
  • папку cgi (розташовується на хості);
  • службові розділи;
  • скрипти ajax та json;
  • UTM та Openstat-мітки;
  • різні параметри.

Відкриваємо (Allow):

  • картинки;
  • JS та CSS-файли;
  • інші елементи, які мають обліковуватися пошуковими системами.

Крім цього, в кінці не забуваємо вказати дані sitemap (шлях до карти сайту) та host (головне дзеркало).

Robots.txt для WordPress

Для створення файлу нам потрібно так само закинути robots.txt в корінь сайту. Змінювати його вміст у такому разі можна буде за допомогою тих самих FTP і файлових менеджерів.

Є й зручний варіант – створити файл за допомогою плагінів. Зокрема, така функція має Yoast SEO. Правити роботу прямо з адмінки куди зручніше, тому сам я використовую саме такий спосіб роботи з robots.txt.

Як ви вирішите створити цей файл - справа ваша, нам важливіше зрозуміти, які саме директиви там мають бути. На своїх сайтах під керуванням WordPress використовую такий варіант:

User-agent: * # правила для всіх роботів, за винятком Гугла та Яндекса

Disallow: /cgi-bin # папка зі скриптами
Disallow: /? # параметри запитів із домашньої сторінки
Disallow: /wp- # файли самої CSM (з приставкою wp-)
Disallow: *?s= # \
Disallow: *&s= # все, що пов'язано з пошуком
Disallow: /search/ # /
Disallow: /author/ архіви авторів
Disallow: /users/ # та користувачів
Disallow: */trackback # Повідомлення від WP про те, що на вас хтось посилається
Disallow: */feed # фід у xml
Disallow: */rss # та rss
Disallow: */embed # вбудовані елементи
Disallow: /xmlrpc.php # WordPress API
Disallow: *utm= # UTM-мітки
Disallow: *openstat= # Openstat-мітки
Disallow: /tag/ # теги (за наявності)
Allow: */uploads # відкриваємо завантаження (картинки тощо)

User-agent: GoogleBot # для Гугла
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm=
Disallow: *openstat=
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js # відкриваємо JS-файли
Allow: /*/*.css # та CSS
Allow: /wp-*.png # і зображення у форматі png
Allow: /wp-*.jpg # \
Allow: /wp-*.jpeg # та в інших форматах
Allow: /wp-*.gif # /
працює разом з плагінами

User-agent: Yandex # для Яндекса
Disallow: /cgi-bin
Disallow: /?
Disallow: /wp-
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: /tag/
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php
# чистимо UTM-мітки
Clean-Param: openstat # і про Openstat не забуваємо

Sitemap: # прописуємо шлях до карти сайту
Host: https://site.ru # головне дзеркало

Увага!При копіюванні рядків у файл – не забудьте видалити всі коментарі (текст після #).

Такий варіант robots.txt найбільш популярний серед веб-майстрів, які використовують WP. Чи ідеальний він? Ні. Ви можете спробувати щось додати або, навпаки, прибрати. Але врахуйте, що з оптимізації текстовика роботів нерідкі помилки. Про них ми поговоримо далі.

Robots.txt для Joomla

І хоча в 2018 році Joomla рідко хто використовує, я вважаю, що не можна обділяти увагою цю чудову CMS. При просуванні проектів на Joomla вам обов'язково доведеться створювати файл роботів, а інакше як ви хочете закривати від індексації непотрібні елементи?

Як і в попередньому випадку, ви можете створити файл вручну, просто закинувши його на хост, або використовувати модуль для цих цілей. В обох випадках вам доведеться його грамотно налаштовувати. Ось так буде виглядати правильний варіант для Joomla:

User-agent: *
Allow: /*.css?*$
Allow: /*.js?*$
Allow: /*.jpg?*$
Allow: /*.png?*$
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: Yandex
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

User-agent: GoogleBot
Disallow: /cache/
Disallow: /*.pdf
Disallow: /administrator/
Disallow: /installation/
Disallow: /cli/
Disallow: /libraries/
Disallow: /language/
Disallow: /components/
Disallow: /modules/
Disallow: /includes/
Disallow: /bin/
Disallow: /component/
Disallow: /tmp/
Disallow: /index.php
Disallow: /plugins/
Disallow: /*mailto/

Disallow: /logs/
Disallow: /component/tags*
Disallow: /*%
Disallow: /layouts/

Host: site.ru # не забудьте тут поміняти адресу на свою
Sitemap: site.ru/sitemap.xml # і тут

Як правило, цього достатньо, щоб зайві файли не потрапляли до індексу.

Помилки при налаштуванні

Дуже часто люди припускаються помилок при створенні та налаштуванні файлу роботс. Ось найпоширеніші з них:

  • Правила вказані лише для User-agent.
  • Відсутні Host та Sitemap.
  • Наявність http-протоколу у директиві Host (потрібно вказувати лише https).
  • Недотримання правил вкладеності під час відкриття/закриття картинок.
  • Не закриті UTM та Openstat-мітки.
  • Прописування директив host та sitemap для кожного робота.
  • Поверхневе опрацювання файлу.

Дуже важливо правильно налаштувати цей маленький файл. При допущенні грубих помилок ви можете втратити значну частину трафіку, тому будьте уважні при налаштуванні.

Як перевірити файл?

Для цих цілей краще використовувати спеціальні сервіси від Yandex і Google, тому що ці пошукові системи є найбільш популярними та затребуваними (найчастіше єдино використовуваними), такі пошукові системи як Bing, Yahoo або Rambler розглядати немає сенсу.

Для початку розглянемо варіант із Яндексом. Заходимо у Вебмайстер. Після цього в Інструменти – Аналіз robots.txt.

Тут ви зможете перевірити файл на помилки, а також перевірити в реальному часі, які сторінки відкриті для індексації, а які немає. Дуже зручно.

У Гугла є такий самий сервіс. Йдемо до Search Console. Знаходимо вкладку Сканування, вибираємо Інструмент перевірки файлу robots.txt.

Тут такі самі функції, як і у вітчизняному сервісі.

Зверніть увагу, що він показує мені дві помилки. Пов'язано це з тим, що Google не розпізнає директиви очищення параметрів, які я вказав для Яндекса:

Clean-Param: utm_source&utm_medium&utm_campaign
Clean-Param: openstat

Звертати увагу на це не варто, тому що роботи Google використовують лише правила GoogleBot.

Висновок

Файл robots.txt є дуже важливим для SEO-оптимізації вашого сайту. Підходьте до його налаштування з усією відповідальністю, тому що при неправильній реалізації все може піти прахом.

Враховуйте всі інструкції, якими я поділився в цій статті, і не забувайте, що вам не обов'язково точнісінько копіювати мої варіанти роботів. Цілком можливо, що вам доведеться додатково розбиратися в кожній директиві, підлаштовуючи файл під свій конкретний випадок.

А якщо ви хочете глибше розібратися в robots.txt та створенні сайтів на WordPress, то я запрошую вас на . На ньому ви дізнаєтеся, як можна без особливих труднощів створити сайт, не забувши оптимізувати його для пошукових систем.

Перше, що робить пошуковий бот, який приходить на ваш сайт, це пошук та читання файлу robots.txt. Що це за файл? - Це набір інструкцій для пошукової системи.

Він є текстовим файлом, з розширенням txt, який знаходиться в кореневій директорії сайту. Даний набір інструкцій вказує пошуковому роботу, які сторінки та файли сайту індексувати, а які ні. Також у ньому вказується основне дзеркало сайту та де шукати карту сайту.

Навіщо потрібен файл robots.txt? Для правильного індексування вашого веб-сайту. Що б у пошуку не було дублів сторінок, різних службових сторінок та документів. Один раз правильно налаштувавши директиви в robots ви вбережете свій сайт від багатьох проблем з індексацією та задзеркаленням сайту.

Як скласти правильний robots.txt

Скласти robots.txt досить легко, створюємо текстовий документ у стандартному блокноті вінди. Пишемо у цьому файлі директиви для пошукових систем. Далі зберігаємо цей файл під назвою robots і текстовим розширенням txt. Все тепер його можна залити на хостинг, до кореневої папки сайту. Врахуйте, що для одного сайту можна створити лише один документ «роботс». Якщо цей файл відсутній на сайті, то бот автоматично вирішує, що можна індексувати все.

Так як він один, то в ньому прописуються інструкції до всіх пошукових систем. Причому можна записати як окремо інструкції під кожну ПС, так і загальну відразу під усі. Поділ інструкцій для різних пошукових роботів здійснюється через директиву User-agent. Докладніше поговоримо про це нижче.

Директиви robots.txt

Файл «для роботів» може містити такі директиви для керування індексацією: User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param. Давайте розглянемо кожну інструкцію докладніше.

Директива User-agent

Директива User-agent- Вказує для якої пошукової системи будуть інструкції (точніше для якого конкретно робота). Якщо стоїть «*», то інструкції призначені для всіх роботів. Якщо вказаний конкретний бот, наприклад Googlebot, то інструкції призначені лише для основного індексуючого робота Google. Причому якщо інструкції є й окремо для Googlebot і для інших ПС, то гугл прочитає тільки свою інструкцію, а загальну проігнорує. Робот Яндекса зробить так само. Дивимося приклад запису директиви.

User-agent: YandexBot — інструкції тільки для основного індексуючого бот Яндекса
User-agent: Yandex - інструкції для всіх бот Яндекса
User-agent: * — інструкції для всіх роботів

Директиви Disallow та Allow

Директиви Disallow та Allow— дають команди, що індексувати, а що ні. Disallow пропонує команду не індексувати сторінку або цілий розділ сайту. А Allow навпаки вказує, що потрібно проіндексувати.

Disallow: / - забороняє індексувати весь сайт
Disallow: /papka/ — забороняє індексувати весь вміст папки
Disallow: /files.php – забороняє індексувати файл files.php

Allow: /cgi-bin – дозволяє індексувати сторінки cgi-bin

У директивах Disallow і Allow можна часто просто необхідно використовувати спецсимволи. Вони необхідні завдання регулярних выражений.

Спецсимвол * - замінює будь-яку послідовність символів. Він за промовчанням приписується до кінця кожного правила. Навіть якщо ви його не прописали, ПС самі приставлять. Приклад використання:

Disallow: /cgi-bin/*.aspx – забороняє індексувати усі файли з розширенням.aspx
Disallow: /*foto — забороняє індексацію файлів та папок, що містять слово foto

Спецсимвол $ - скасовує дію спецсимволу "*" в кінці правила. Наприклад:

Disallow: /example$ — забороняє індексувати '/example', але не забороняє '/example.html'

А якщо прописати без спецсимволу $ то інструкція спрацює вже інакше:

Disallow: /example - забороняє і '/example' і '/example.html'

Директива Sitemap

Директива Sitemap- Призначена для вказівки роботу пошукової системи, де на хостингу лежить карта сайту. Формат карти сайту має бути sitemaps.xml. Карта сайту потрібна для швидкої та повної індексації сайту. Причому карта сайту це не обов'язково один файл, їх може бути декілька. Формат запису директиви:

Sitemap: http://сайт/sitemaps1.xml
Sitemap: http://сайт/sitemaps2.xml

Директива Host

Директива Host- Вказує роботу основне дзеркало сайту. Щоб не було в індексі дзеркал сайту, завжди потрібно вказувати цю директиву. Якщо її не вказати, робот Яндекса буде індексувати як мінімум дві версії сайту з www і без. Поки робот дзеркальник їх не склеїть. Приклад запису:

Host: www.сайт
Host: сайт

У першому випадку робот індексуватиме версію з www, у другому випадку без. Дозволяється прописувати лише одну директиву Host у файлі robots.txt. Якщо ви пропишіть їх кілька, бот обробить і візьме до уваги тільки першу.

Правильна директива хост повинна мати такі дані:
- Вказувати на протокол з'єднання (HTTP або HTTPS);
- Коректно написане доменне ім'я (не можна прописувати IP-адресу);
— номер порту (наприклад, Host: site.com:8080).

Неправильно зроблені директиви будуть просто ігноровані.

Директива Crawl-delay

Директива Crawl-delayдозволяє зменшити навантаження на сервер. Вона потрібна на випадок, якщо ваш сайт починається лягати під натиском різних ботів. Директива Crawl-delay вказує пошуковому боту час очікування між закінченням завантаження однієї сторінки та початком завантаження іншої сторінки сайту. Директива повинна йти безпосередньо після записів директив Disallow та/або Allow. Пошуковий робот Яндекса вміє читати дрібні значення. Наприклад: 1.5 (півтора секунди).

Директива Clean-param

Директива Clean-paramпотрібна сайтам, сторінки яких містять динамічні параметри. Ідеться про тих, які не впливають на вміст сторінок. Це різна службова інформація: ідентифікатори сесій, користувачів, реферерів та ін. Так от, щоб не було дублів ці сторінок і використовується ця директива. Вона скаже ПС не закачувати повторно добирається інформацію. Знизиться і навантаження на сервер та час обходу сайту роботом.

Clean-param: s /forum/showthread.php

Цей запис говорить ПС, що параметр s буде вважатися незначним для всіх url, які починаються з /forum/showthread.php. Максимальна довжина запису – 500 символів.

З директивами розібралися, переходимо до налаштування нашого файлу роботс.

Налаштування robots.txt

Приступаємо безпосередньо до налаштування файлу robots.txt. Він повинен містити щонайменше два записи:

User-agent:- Вказує для якої пошукової системи будуть інструкції, що йдуть нижче.
Disallow:- Уточнює, яку саме частину сайту не індексувати. Може закривати від індексації як окрему сторінку сайту, так і цілі розділи.

Причому можна вказати, що ці директиви призначені для всіх пошукових систем, або для якоїсь конкретної. Вказується це у директиві User-agent. Якщо ви хочете щоб інструкції читали всі боти - ставимо «зірочку»

Якщо хочете прописати вказівки для конкретного робота, але потрібно вказати його ім'я.

User-agent: YandexBot

Спрощено приклад правильно складеного файлу robots буде таким:

User-agent: *
Disallow: /files.php
Disallow: /razdel/
Host: сайт

Де, * свідчить, що інструкції призначені всім ПС;
Disallow: /files.php- Дає заборону на індексацію файлу file.php;
Disallow: /foto/— забороняє індексувати весь розділ «foto» з усіма вкладеними файлами;
Host: сайт- Вказує роботам, яке дзеркало індексувати.

Якщо у вас на сайті немає сторінок, які треба закрити від індексації, то ваш файл robots.txt має бути таким:

User-agent: *
Disallow:
Host: сайт

Robots.txt для Яндекса (Yandex)

Щоб вказати, що ці інструкції призначені для пошукової системи Яндекс, треба прописати в директиві User-agent: Yandex. Причому якщо ми пропишемо Yandex то сайт індексуватимуть всі роботи Яндекса, а якщо вкажемо YandexBot - то це буде команда тільки для основного індексує робота.

Також потрібно обов'язково прописати директиву «Host», де вказати основне дзеркало сайту. Як я писав вище, робиться це для недопущення дублів сторінок. Ваш правильний robots.txt для Yandex буде таким.

Час читання: 7 хвилин(и)


Практично кожен проект, який приходить до нас на аудит або просування, має неправильний файл robots.txt, а нерідко він зовсім відсутній. Так відбувається тому, що при створенні файлу всі керуються своєю фантазією, а не правилами. Давайте розберемо, як правильно скласти цей файл, щоб пошукові роботи з ним ефективно працювали.

Навіщо потрібне налаштування robots.txt?

Robots.txt- це файл, розміщений у кореневому каталозі сайту, який повідомляє робота пошукових систем, до яких розділів та сторінок сайту вони можуть отримати доступ, а до яких немає.

Налаштування robots.txt – важлива частина у видачі пошукових систем, правильно налаштований robots також збільшує продуктивність сайту. Відсутність Robots.txt не зупинить пошукові системи сканувати та індексувати сайт, але якщо цього файлу у вас немає, у вас можуть виникнути дві проблеми:

    Пошуковий робот зчитуватиме весь сайт, що «підірве» краулінговий бюджет. Краулінговий бюджет - це кількість сторінок, які пошуковий робот може обійти за певний проміжок часу.

    Без файлу robots, пошуковик отримає доступ до чорнових та прихованих сторінок, до сотень сторінок, які використовуються для адміністрування CMS. Він їх проіндексує, а коли справа дійде до потрібних сторінок, на яких представлений безпосередній контент для відвідувачів, закінчиться краулінговий бюджет.

    В індекс може потрапити сторінка входу на сайт, інші ресурси адміністратора, тому зловмисник зможе легко їх відстежити і провести атаку ddos ​​або зламати сайт.

Як пошукові роботи бачать сайт із robots.txt і без нього:


Синтаксис robots.txt

Перш ніж почати розбирати синтаксис і налаштовувати robots.txt, подивимося на те, як має виглядати «ідеальний файл»:


Але не варто одразу ж його застосовувати. Для кожного сайту найчастіше необхідні свої налаштування, тому що у всіх у нас різна структура сайту, різні CMS. Розберемо кожну директиву по порядку.

User-agent

User-agent - визначає пошукового робота, який повинен слідувати описаним у файлі інструкціям. Якщо потрібно звернутися одразу до всіх, то використовується значок *. Також можна звернутися до певної пошукової роботи. Наприклад, Яндекс та Google:


За допомогою цієї директиви робот розуміє які файли та папки індексувати заборонено. Якщо ви хочете, щоб весь ваш сайт був відкритий для індексації, залиште значення Disallow порожнім. Щоб приховати весь контент на сайті після Disallow, поставте “/”.

Ми можемо заборонити доступ до певної папки, файлу або розширення файлу. У нашому прикладі ми звертаємося до всіх пошукових робіт, закриваємо доступ до папки bitrix, search і розширення pdf.


Allow

Allow примусово відкриває для індексування сторінки та розділи сайту. На прикладі вище ми звертаємося до пошукової роботи Google, закриваємо доступ до папки bitrix, search та розширення pdf. Але в bitrix папці ми примусово відкриваємо 3 папки для індексування: components, js, tools.


Host - дзеркало сайту

Дзеркало сайту – це дублікат основного сайту. Дзеркала використовуються для різних цілей: зміна адреси, безпека, зниження навантаження на сервер і т.д.

Host – одне з найважливіших правил. Якщо прописане це правило, то робот зрозуміє, яке із дзеркал сайту варто враховувати для індексації. Ця директива необхідна для роботів Яндекса та Mail.ru. Інші роботи це правило ігноруватимуть. Host прописується лише один раз!

Для протоколів "https://" та "http://", синтаксис у файлі robots.txt буде різним.

Sitemap - карта сайту

Карта сайту - це форма навігації сайтом, яка використовується для інформування пошукових систем про нові сторінки. За допомогою директиви sitemap ми «насильно» показуємо роботу, де розташована карта.


Символи у robots.txt

Символи, що застосовуються у файлі: "/, *, $, #".


Перевірка працездатності після налаштування robots.txt

Після того як ви розмістили Robots.txt на своєму сайті, вам необхідно додати та перевірити його у вебмайстрі Яндекса та Google.

Перевірка Яндекса:

  1. Перейдіть за посиланням .
  2. Виберіть: Налаштування індексування – Аналіз robots.txt.

Перевірка Google:

  1. Перейдіть за посиланням .
  2. Виберіть: Сканування - інструмент перевірки файлу robots.txt.

Таким чином ви зможете перевірити свій robots.txt на помилки і внести необхідні налаштування, якщо потрібно.

  1. Вміст файлу необхідно писати великими літерами.
  2. У директиві Disallow потрібно вказувати лише один файл або директорію.
  3. Рядок «User-agent» не повинен бути порожнім.
  4. User-agent завжди має йти перед Disallow.
  5. Не слід забувати прописувати слеш, якщо потрібно заборонити індексацію директорії.
  6. Перед завантаженням файлу на сервер обов'язково потрібно перевірити його на наявність синтаксичних та орфографічних помилок.

Успіхів вам!

Відеоогляд 3 методів створення та налаштування файлу Robots.txt

Файл robots.txt— це звичайний файл із розширенням.txt, який можна створити за допомогою звичайного блокнота Windows. Цей файл містить інструкції з індексації для пошукових роботів. Розміщують цей файл кореневої директорії на хостингу.

При заході на сайт пошуковий робот насамперед звертаються до файлу robots.txt для того, щоб отримати інструкції до подальшої дії та дізнатися, які файли та директорії заборонені до індексування. Файл robots.txtносить рекомендаційний характер пошукових систем. Не можна повністю сказати, що всі файли, на які виставлено заборону до індексації, не будуть в результаті індексуватися.

Розглянемо найпростіший приклад файлу robots.txt. Цей файл містить наступні рядки:

User-agent: * Disallow: /wp-admin/ Disallow: /images/

Перший рядок вказує на які пошукові роботи діють дані інструкції. У цьому прикладі вказана зірочка - це означає, що інструкції відносяться до всіх пошукових робіт. У разі потреби вказати інструкцію для конкретного пошукового робота, необхідно прописати його ім'я. Другий і третій рядки забороняють індексацію директорій «wp-admin» та «images».

Для пошукового робота Яндекса актуально також прописувати директорію Host для вказівки основного дзеркала сайту:

User-agent: Yandex Disallow: /wp-admin/ Disallow: /images/ Host: yoursite.ru

Приклади написання файлу robots.txt для конкретних завдань

1. Не забороняти роботам будь-яких пошукових систем індексувати сайт:

User-agent: googlebot Disallow: /

4. Не забороняти до індексації лише одним роботом (наприклад, googlebot) та заборонити до індексації всім іншим пошуковим роботам:

User-agent: googlebot Disallow:
User-agent: * Disallow: /admin/ Disallow: /wp-content/ Disallow: /images/
User-agent: * Disallow: /News/webnews.html Disallow: /content/page.php
User-agent: * Disallow: /page.php Disallow: /links.htm Disallow: /secret.html

Основні правила написання robots.txt

При написанні файлу robots.txt часто припускаються помилок. Для того, щоб їх уникнути, розглянемо основні правила:

1. Писати вміст файлу потрібно лише у великими літерами.
2. В інструкції Disallow необхідно вказувати лише одну директорію або один файл.
3. Рядок «User-agent» не повинен бути порожнім. Якщо інструкція відноситься до всіх пошукових робіт, то необхідно вказувати зірочку, а якщо до конкретного пошукового роботу, то вказувати його назву.
4. Змінювати місцями інструкції Disallow та User-agent не можна.
5. У директиві Host, яка використовується для Яндекса, адресу нашого сайту необхідно вказувати без протоколу HTTP і без слешу, що закриває.
6. При забороні до індексації директорій необхідно обов'язково прописувати слеші.
7. Перевірте файл robots.txt перед завантаженням його на сервер. Це дозволить уникнути у майбутньому можливих проблем із індексацією сайту.