Как правильно прописать Robots.txt

«Вкалывают роботы»: что такое robots.txt и как его настроить

robots.txt

Знание о том, что такое robots.txt, и умение с ним работать больше относится к профессии вебмастера. Однако SEO-специалист — это универсальный мастер, который должен обладать знаниями из разных профессий в сфере IT. Поэтому сегодня разбираемся в предназначении и настройке файла robots.txt.

По факту robots.txt — это текстовый файл, который управляет доступом к содержимому сайтов. Редактировать его можно на своем компьютере в программе Notepad++ или непосредственно на хостинге.

Что такое robots.txt

Представим robots.txt в виде настоящего робота. Когда в гости к вашему сайту приходят поисковые роботы, они общаются именно с robots.txt. Он их встречает и рассказывает, куда можно заходить, а куда нельзя. Если вы дадите команду, чтобы он никого не пускал, так и произойдет, т.е. сайт не будет допущен к индексации.

Если на сайте нет этого файла, создаем его и загружаем на сервер. Его несложно найти, ведь его место в корне сайта. Допишите к адресу сайта /robots.txt и вы увидите его.

Зачем нам нужен этот файл

Если на сайте нет robots.txt, то роботы из поисковых систем блуждают по сайту как им вздумается. Роботы могут залезть в корзину с мусором, после чего у них создастся впечатление, что на вашем сайте очень грязно. robots.txt скрывает от индексации:

  • дубли страниц;
  • служебные файлы;
  • файлы, которые бесполезны для посетителей;
  • страницы с неуникальным контентом.

Правильно заполненный файл robots.txt создает иллюзию, что на сайте всегда чисто и убрано.

Настройка директивов robots.txt

Директивы — это правила для роботов. И эти правила пишем мы.

User-agent

Главное правило называется User-agent . В нем мы создаем кодовое слово для роботов. Если робот видит такое слово, он понимает, что это правило для него.

Пример:

Данное правило смогут понять только те роботы, которые работают в Яндексе. В последнее время эту строчку я заполняю так:

Правило понимает Яндекс и Гугл. Доля трафика с других поисковиков очень мала, и продвигаться в них не стоит затраченных усилий.

Disallow и Allow

С помощью Disallow мы скрываем каталоги от индексации, а, прописывая правило с директивой Allow, даем разрешение на индексацию.

Пример:

Даем рекомендацию, чтобы индексировались категории.

А вот так от индексации будет закрыт весь сайт.

Также существуют операторы, которые помогают уточнить наши правила.

  • *звездочка означает любую последовательность символов (либо отсутствие символов).
  • $ – знак доллара является своеобразной точкой, которая прерывает последовательность символов.

Sitemap

Данная директива нужна для того, чтобы сориентировать робота, если он заплутает. Мы показываем роботу дорогу к Sitemap .

Пример:

Директива host уже устарела, поэтому о ней говорить не будем.

Crawl-delay

Если сайт небольшой, то директиву Crawl-delay заполнять нет необходимости. Эта директива нужна, чтобы задать периодичность скачивания документов с сайта.

Пример:

Это правило означает, что документы с сайта будут скачиваться с интервалом в 10 секунд.

Clean-param

Директива Clean-param закрывает от индексации дубли страниц с разными адресами. Например, если вы продвигаетесь через контекстную рекламу, на сайте будут появляться страницы с utm-метками. Чтобы подобные страницы не плодили дубли, мы можем закрыть их с помощью данной директивы.

Пример:

Как закрыть сайт от индексации

Чтобы полностью закрыть сайт от индексации, достаточно прописать в файле следующее:

Если требуется закрыть от поисковиков поддомен, то нужно помнить, что каждому поддомену требуется свой robots.txt. Добавляем файл, если он отсутствует, и прописываем магические символы.

Проверка файла robots

Есть потрясающий инструмент, который позволит вам включиться в творческую работу с директивами и прописать правильный robots.txt – инструмент от Яндекс.Вебмастера .

Переходим в инструмент, вводим домен и содержимое вашего файла.

Анализ robots.txt

Нажимаем « Проверить » и получаем результаты анализа. Здесь мы можем увидеть, есть ли ошибки в нашем robots.txt.

robots.txt вебмастер

Но на этом функции инструмента не заканчиваются. Вы можете проверить, разрешены ли определенные страницы сайта для индексации или нет.

Запрет url

Вводим список адресов, которые нас интересуют, и нажимаем « Проверить » . Инструмент сообщит нам, разрешены ли для индексации данные адреса страниц, а в столбце « Результат » будет видно, почему страница индексируется или не индексируется.

Здесь вас ждет простор для творчества. Пользуйтесь звездочкой или знаком доллара и закрывайте от индексации страницы, которые не несут пользы для посетителей. Будьте внимательны – проверяйте, не закрыли ли вы от индексации важные страницы.

Правильный robots.txt для WordPress

Кстати, если вы поставите #, то сможете оставлять комментарии, которые не будут учитываться роботами.

Правильный robots.txt для Joomla

Здесь указаны другие названия директорий, но суть одна: закрыть мусорные и служебные страницы, чтобы показать поисковиками только то, что они хотят увидеть.

Настройка правильного файла robots.txt

Файл robots.txt отвечает за правильный обход сайта поисковыми роботами Яндекс и Google. Его отсутствие или некорректная настройка может привести к неверной индексации, что в свою очередь окажет негативное влияние на позиции сайта в поисковых системах.

  • Создать в текстовом редакторе файл robots.txt.
  • Прописать необходимые правила.
  • Перенести документ в корневой каталог сайта.
  • Проверить правильность настройки файла через сервис Яндекс.Вебмастер «Анализ robots.txt».

1. Создаем записи, которые определяют, для каких поисковых роботов представлены правила:

  • «User-agent: *» (для всех поисковых роботов);
  • «User-agent: Yandex» (для всех поисковых роботов Яндекса, например YandexImages, YandexNews и др).

2. Определяем страницы, которые необходимо закрыть от индексации. В общем случае, это:

  • страницы с GET-параметрами (фильтрация, сортировка, поиск, сравнение товаров);
  • пользовательские страницы (личный кабинет, регистрация, авторизация, оформление заказ);
  • системные каталоги и файлы;
  • дубликаты.

Важно! Страницы пагинации должны быть открыты для индексации! Подробнее об индексации пагинации можете прочитать в нашей заметке «Как настроить правильную индексацию страниц пагинации».

3. C помощью директив Disallow и Allow прописываем правила для корректной индексации сайта для каждого User-agent.

Disallow запрещает к индексации указанные после него файлы, а Allow — разрешает. Кроме этого, в данных правилах могут использоваться регулярные выражения с символами «*» и «$». Знак «*» означает любую последовательность символов после него, а знак «$» ее останавливает.

На примере ниже мы запретили к индексации страницу раздела «Статьи» и все страницы, расположенные во вложенном каталоге «SEO».

Стоит отметить, что задав выражение как на скриншоте ниже, мы открываем все вложенные категории и страницы.

Еще один важный момент — определение применяемого правила для страницы, если она подходит под несколько директив. Для этого они сортируются по возрастанию длины префикса URL и применяются по порядку.

Например, у нас есть набор следующих директив:

Чтобы понять, будет ли третье правило применяться, надо их отсортировать по возрастанию длины префикса URL:

Делаем вывод, что страница «Как настроить robots.txt» разрешена к индексированию, а остальные страницы данного раздела — нет.

4. С помощью инструмента «Проверка оптимизации для мобильных устройств» определяем, какие файлы необходимы поисковым роботам для правильной индексации сайта на мобильных устройствах и открываем их для индексации:

5. Добавление директивы Host. С марта 2018 года Яндекс отказался от использования данной директивы. Теперь для указания главного зеркала достаточно настройки 301 редиректов. Указывать директиву Host в robots.txt более не нужно.

6. В конце файла прописываем путь с актуальной картой сайта sitemap.xml.

7. Проверяем правильность заполнения файла robots.txt. Для этого:

  • заходим в инструмент Яндекс.Вебмастер «Анализ robots.txt»;
  • загружаем обновленный файл robots.txt;
  • формируем список страниц для проверки;
  • анализируем результат и вносим правки при необходимости.

В качестве примера можно ознакомиться с настройкой данного файла по ссылке:

Подробные инструкции по настройке robots.txt Вы сможете найти на страницах «Использование robots.txt» от Яндекса и «О файлах robots.txt» от Google.

Ждите новые заметки в блоге или ищите на нашем сайте.

Не могу не добавить, что прежде, чем закрывать параметры и страницы с файле robots.txt важно в хэдере использовать x-robots-rag ради чтобы сэкономить крулинговый бюджет. Если вы закроете только в роботс.тхт, то обходы роботов все-равно будут совершаться и страница будет видна. ред.

Благодарю. Как раз нужно закрыть тему по SMM на openedu по настройке робота.

Добрый день! Благодарю за статью! Искали в интернете руководство по robots.txt и попали на Вашу статью. Благодарим за ценный материал. Еще помогла эта статья: https://www.rush-analytics.ru/blog/sozdanie-i-optimizaciya-robotstxt-kontroliruem-indeksaciyu-sayta

Их будут выдавать в кафе под залог, а получить деньги обратно можно при сдаче посуды в кафе.

Привет, это команда Логомашины. За несколько лет мы прочитали тысячи материалов на vc.ru, а сегодня делимся подборкой из 90 статей, которые нам кажутся самыми полезными для тех, кто создаёт или развивает свой бизнес.

Персональные брокеры помогают разобраться, как сформировать долгосрочный портфель и не отвлекаться на новостной шум. Сегодня поговорим о сложном проценте, который поможет инвестору получить больше от своих инвестиций.

Исследователь рассказал об опасности сбора данных ещё до запуска Google и Amazon, поставил под сомнение этичность работы над искусственным интеллектом и предсказал китайскую систему рейтинга.

Банк России утвердил в новой редакции стандарт, который устанавливает порядок тестирования неквалифицированных инвесторов для допуска к совершению сделок со сложными финансовыми инструментами.

Японская компания Nomura Holdings проанализировала речи руководителей 1000 фирм с самыми рентабельными акциями в США. Акции компаний, чьи директора использовали запутанные формулировки, приносили инвесторам в полтора раза меньше доходов, рассказало Bloomberg.

Внутри протекает определённый химический процесс: он запускает химическую реакцию, а она, в свою очередь, порождает сигнал от взаимодействия с пробой. Всё это преобразуется в результат, который впоследствии анализируют квалифицированные лаборанты.

Важный файл robots.txt: как правильно его составить

197110, Россия, Санкт-Петербург, а/я 144, ООО «Юми» +7 (812) 309-68-23 logo

Поисковые роботы индексируют всё, что находят. Даже админпанель с личной информацией. Robots.txt — это специальный файл для ботов с правилами, по которым они начинают работать с вашим сайтом. В этом файле вы и прописываете всё, что разрешаете или запрещаете им делать.

Важный файл robots.txt

Важный файл robots.txt

Для чего нужен

Для того, чтобы ваш сайт быстрее индексировался, в поиск не попадали ненужные страницы или приватная информация. «Ненужные страницы» — это дубликаты товарных категорий, личная информация, формы отправки данных, страницы с результатами поиска и т.п. Robots.txt устанавливает строгие правила для поисковиков, если же эти правила не указать, то вся ваша информация окажется в сети и удалить её из архивов интернета будет практически нереально.

Где писать этот файл и где его располагать

Писать можно в любом удобном для вас редакторе — в обычном встроенном блокноте для Windows, NotePad или Word — не суть. Главное, чтобы этот файл был сохранён в текстовом формате, то есть с расширением .txt.

В нашей системе вставить инструкцию для поисковых ботов на сайт очень просто: выберите в левой панели управления сайтом раздел «Реклама/SEO → Управление robots.txt».

Управление robots.txt находится в разделе «Реклама/SEO»

Управление robots.txt находится в разделе «Реклама/SEO»

И в открывшееся поле вы просто вставляете готовую инструкцию (с помощью функции «копировать — вставить»).

На нашем сервисе файл robots.txt автоматически генерируется системой. В большинстве случаев он полностью отвечает всем требованиям поисковых роботов и закрывает от индексации те страницы, которые не должны быть на виду. Но вы можете создать свою инструкцию или внести любые изменения в готовый файл. В случае необходимости всегда можно восстановить первоначальный вариант.

Правила синтаксиса robots.txt

Поисковый робот учитывает только определённые выражения и алгоритмы. Поэтому инструкция составляется на понятном ему «языке». Вот основные команды, которые «понимает» робот:

  • User-Agent: Имя бота поисковой системы. Для Яндекса это Yandex, для Google — Google-bot, для Mail.ru — Mail.ru. Весь список названий роботов-поисковиков перечислен на этой странице.
  • Allow — команда «разрешить».
  • Disallow — команда «запретить».
  • Host — имя вашего хостера (на 1C-UMI это robot.umi.ru).

Директива Allow не является обязательной, а вот Disallow нужно указывать. По умолчанию файл robots.txt разрешает всё, поэтому прописывать нужно только запрещающие команды.

Правильный синтаксис написания: команда → двоеточие → пробел → слеш (/) → точное наименование страницы.

Точное наименование страницы — это весь путь, который ведёт на указанную страницу, начиная с главной: мойсайт.рф — мода — женская мода — верхняя одежда — пальто — чёрное пальто в горошек.

  • Вы разрешаете поисковому боту Яндекс индексировать всё, кроме страницы «Контакты»:
    • User-Agent: Yandex
    • Allow:
    • Disallow: /contacts
    • User-Agent: *
    • Disallow:
    • User-Agent: googlebot-image (робот-поисковик по картинкам в Гугл)
    • Disallow: /

    Disallow относится только к тому боту, который указан перед командой. Для каждого робота нужно прописывать команды индивидуально.

    Как не запутаться в названиях ботов и командах

    Есть удобная функция «комментарий», которую вы можете использовать при составлении robots.txt. Всё, что вы хотите прокомментировать, оставить какое-либо уточнение, отмечайте символом #. Всё, что будет написано после этого знака, роботом не учитывается.

    Disallow: /Price/ #Не индексировать каталог с ценами.

    Как установить период захода на сайт робота-поисковика

    Чтобы уменьшить нагрузку на сервер, нужно использовать директиву (команду для робота-поисковика) Crawl-delay. Она устанавливает период, за который робот-поисковик должен обойти сайт, или время, за которое робот просмотрит все страницы сайта и внесёт их в индекс. Другими словами, эта директива позволяет ускорить обход сайта роботом. Обычно устанавливается на сайт-многостраничник. Если у вас страниц ещё немного, не больше двухсот, то этот параметр можно не указывать.

    Прописывается это так:

    • User-Agent: Yandex
    • Disallow: /contacts
    • Craw-delay: 2 #Тайм-аут обхода 2 секунды

    Тайм-аут обхода вы можете указать любой. Это не гарантирует, что на ваш сайт робот будет заходить каждые 2 (3, 4, 5…) секунд, вы просто даёте ему приблизительное время обхода. Если ваш сайт уже хорошо ранжируется, то роботы будут заходить на него чаще, если сайт ещё молод, то реже. В справке Яндекс об этом параметре написано подробней.

    Ошибки при составлении robots.txt

    Рассмотрим самые популярные ошибки, которые совершают пользователи при создании файла.

    Ошибки

    Правильно

    Путаница в инструкциях

    Несколько каталогов в одной строке Disallow

    Disallow: /moda/ hat/ images

    Пустая строка в указании имени поискового робота

    Заглавные буквы

    Перечисление каждого файла в категории

    Disallow: / moda/ krasnoe-palto.html

    Disallow: /moda/ sinee-palto.html

    Disallow: /moda/ zelenoe-palto.html

    Disallow: /moda/ seroe-palto.html

    Disallow: /price/ women.html

    Disallow: /price/ men.html

    Не забывайте про знак слеш (/). Если его не будет, то робот запретит к индексации все файлы и категории с таким же названием. Например, если вы не укажете слеш в директиве: “Disallow: moda”, то из индекса выпадут все страницы, рубрики и категории, где встречается это название.

    Правила написания robots.txt

    • Каждую команду надо писать с новой строки.
    • В одной строке — одна директива.
    • В начале строки не должно быть пробела.
    • Команды не берут в кавычки.
    • В конце директивы не ставится точка с запятой, запятая или точка.
    • Disallow: равнозначно Allow: / (всё разрешено).
    • Поисковые роботы чувствительны к регистру букв — прописывайте имена файлов и категорий точно так же, как они указаны на вашем сайте.
    • Если у вас нет robots.txt, это сигнал для поисковиков, что запрещений нет, индексировать можно всё.
    • В robots.txt используется только английский язык. Все другие языки игнорируются.

    Как проверить robots.txt на правильность написания

    Есть специальные сервисы, которые проверяют, правильно ли составлен разрешающий файл. Проверьте свой robots.txt на сайте Яндекс или в Гугл.

    Автоматическое создание robots.txt

    Директивы — базовая информация

    Если директивы не прописать вовсе, поисковик скачает с вашего сайта всю информацию и проиндексирует. Последствием этих действий станет его медленная загрузка. Очевидно, что такие сайты меньше посещают пользователи и не помещают в вершинах выдачи поисковые системы.

    Ниже перечислим разные типы директив, с пояснениями.

    User-agent

    Если перевести на простой язык, то «User-agent» — это призыв к некоему действию. После этого директива обычно прописывается наименование robots.txt, которому сообщается информация, а далее — уже сама информация. Иными словами, User-agent — самая важная директива для robots.txt.

    Вот так выглядят директивы User-agent для разных поисковых машин:

    • User-agent: *; — для всех видов роботов.
    • User-agent: Yandex; — для роботов поисковика Яндекс.
    • User-agent: Googlebot. — для роботов поисковика Google.
    • User-agent: Mail.Ru. — для роботов Mail.ru
    • User-agent: Slurp – для роботов Yahoo!
    • User-agent: MSNBot – для роботов MSN
    • User-agent: StackRambler – для роботов Рамблера.

    Disallow

    Директива, запрещающая индексировать те или иные странички веб-сайта. Веб-мастера советуют прописывать ее для следующих типов страниц:

    • Корзине и всем сопутствующим оформлению заказа страничкам.
    • Поисковым формам.
    • Административной панели сайта.
    • Ajax, Json — эти скрипты выводят всплывающие формы для заполнения, рекламные баннеры и так далее.

    Allow

    Это директива, наоборот, открывает страничку сайта для чтения роботом.

    Sitemap

    Простыми словами — директива, отображающая карту вашего сайта. Сообщая роботу структуру вашего сайта, вы ускоряете его индексацию.

    Host

    Указывает поисковому роботу на зеркало вашего сайта, куда будут попадать пользователи.

    Crawl-delay

    Помогает снижать нагрузку на сервер, задавая минимальный временной интервал между обращениями к сервису.

    Правильная настройка файла robots.txt для сайта

    Настройка robots.txt

    Поисковые роботы Yandex, Google и других сервисов имеют ограниченное время для оценки полезности сайта. Поскольку робот не человек, он оценивает все страницы подряд. Автоматика не может выбирать. В результате поисковик натыкается на малоинтересные для посетителей портала файлы. Он делает вывод, что интернет-ресурс бесполезен и понижает его в поиске.

    Robots.txt используется для указания, какие web-документы и директории стоит скрыть от индексации. Поисковые машины Yandex, Google, Bing, Mail, Yahoo в первую очередь обнаруживают этот файл с содержащимися в нем директивами. Они оценивают сайт и выполняют содержащиеся в robots.txt условия. После удаления из поиска страниц, являющихся нецелевыми, сразу наблюдается рост индексации сайта.

    Некоторые web-документы исключаются с помощью директивы Disallow. Таким образом из индексации убираются:

    • отдельные динамические web-документы
    • все динамические документы:
    • также можно свести на нет документы, имеющие динамические характеристики:

    Robots.txt позволяет удалять “лишние” URL из поиска. Для одностраничника или маленького ресурса файл можно не создавать. Крупный портал или интернет-магазин уже встраивает его в код по необходимости. Файл robots.txt ограничивает доступ Google, Yandex и другим поисковым роботам к документам на HTTP-сервере.

    Для создания файла robots.txt можно использовать блокнот и word, а также другие текстовые, редакторы. Файл размещается в корневой папке сайта. Его адрес: name.com/robots.txt или name.ru/robots.txt. В robots.txt обозначаются правила индексации и ставится расширение: формат txt. Робот поисковой системы ищет файл URL /robots.txt. Команды могут быть обозначены символами любого регистра. Данный факт не влияет на работу поисковых машин. Можно написать как Yandex, так и yandex. Также можно автоматически сгенерировать robots.txt на специальных онлайн-сервисах. Однако в этом случае нет гарантии, что от поисковика окажется скрыта необходимая информация.

    Страницы, которые необходимо закрывать для поиска с помощью robots.txt.

    1. Из индексации сайта, продающего товары онлайн, следует исключать страницы с размещенными формами заказа.
    2. Страницы с фильтрами для товаров в каталогах.
    3. Не должна индексироваться корзина покупок.
    4. URL, содержащие внутренний поиск, которые могут создавать дубли.
    5. web-документы, содержащие формы регистрации на сайте, поскольку на них вводится личная информация.

    Иногда эти страницы можно оставить открытыми для индексации. Это необходимо сделать, если их коды содержат keywords.

    Настройка роботс txt

    Роль файла robots.txt для индексации поисковыми машинами

    При корректной настройке robots.txt Google и Yandex будут учитывать ее в поиске. Существует вероятность, что на индексацию в других поисковиках файл не сможет повлиять.

    Первоначально необходимо настроить директиву User-agent. Она определяет, для какой поисковой системы предназначен файл.

    User-agent: Yandex — для всех поисковых роботов Yandex.

    User-agent: YandexBot определяет правила для поисковой машины индексации от “Яндекса”.

    Все роботы “Гугл” реагируют на директиву User-agent: Googlebot.

    Директива, прописывающаяся для для всех роботов, кроме Google и Yandex, выглядит так: User-agent: *. User-agent говорит роботу, что нужно совершить действие. после нее в коде должна отображаться информация о том, какое именно действие требуется от робота.

    Директивы для отдельных сервисов “Яндекса”:

    • YandexMedia отвечает за данные мультимедиа;
    • YandexAddurl обращается к web-документу, который загрузили, используя форму “добавить URL”;
    • YandexMetrika для робота “Яндекс. Метрики”;
    • YandexImageResizer используется для мобильных сервисов;
    • YandexImages отвечает за картинки “Яндекса”;
    • YandexVideo — для робота, оценивающего видео на “Яндексе”;
    • YandexBlogs нужен для поиска по блогам;
    • YandexFavicons отвечает за индексацию пиктограмм интернет-ресурсов;
    • YandexDirect — робот для “Яндекс. Директа”;
    • YandexNews, соответственно, для новостей на “Яндексе”;

    Для сервисов Google файл robots.txt имеет другие директивы:

    • AdsBot-Google проверяет характеристики целевого web-документа;
    • Googlebot-News предназначен для новостей;
    • Googlebot-Image — работает с картинками “Гугла”;
    • AdsBot-Google-Mobile-Apps нужен для приложений смартфонов;
    • Googlebot-Video — директива для видеохостингов.

    Другие поисковые системы применяют свои директивы. Mail.ru для поиска в Mail.ru, sturp для Yahoo, bingbot для Bing.

    Настройка robots.txt

    В странах СНГ более популярна поисковая система Yandex. В связи с этим требуется отдельно прописывать директивы для него, Google и остальных поисковых роботов.

    Алгоритм настройки файла robots.txt выглядит так:

    • Для начала следует закрыть от поисковых роботов:
    1. админку интернет-ресурса;
    2. регистрацию и авторизацию;
    3. личный кабинет;
    4. формы для заказов и доставки;
    5. корзину с покупками.
    • Исключите из индексации скрипты json, ajax и папку cqi.
    • Необходимо закрыть от поисковиков, кроме Google и “Яндекс”, стили и темы оформления, js.
    • Все функции поиска следует закрыть от индексирования.
    • Убрать от поисковых роботов служебные страницы сайта, где нет ключевых слов (например, с ошибкой 404).
    • Далее необходимо убрать из индексирования все дублирующиеся web-документы, в том числе содержащие технические копии.
    • Удалить из поиска URL, содержащие с сортировку, фильтры, сравнения.
    • Закрыть от поисковиков веб-документы с UTM-метками и сессиями.
    • В поисковой строке браузера необходимо набрать site:site.ru. Откроются страницы, которые видны при индексации. Если среди них оказались лишние, их следует добавить в код файла robots.txt.
    • Добавить директивы Host и Sitemap.
    • В некоторых случаях требуется добавить Clean-Param и Crawl-Delay.
    • На этом этапе стоит провести проверку корректности robots.txt c помощью Google и Yandex.
    • Спустя пару недель стоит снова проверить поисковую выдачу. Если видны страницы, которые должны быть закрыты, требуется повторить алгоритм.

    Директивы, использующиеся в создании robots.txt

    • Disallow и Allow используются для закрытия и открытия страниц поисковым роботам. В их коде присутствуют операторы, дающие указания относительно нюансов закрытия и открытия страниц.

    * (звездочка) означает любое количество знаков. Иногда она ставится на месте пропущенных символов. Завершать код звездочкой нет необходимости. Ее нахождение там учитывается в любом случае.

    После $ (знака доллара) символы уже не идут. Он всегда завершает код.

    # (решетка) разделяет индексируемые роботом и неиндексируемые документы. Все, что после, поисковиком не определяется.

    Disallow закрывает от индексации web-документы и разделы сайтов. Allow необходима для того, чтобы Yandex, Google или другой поисковик обязательно проиндексировал целевые страницы.

    Порядок указанных в файле директив не играет роли. Важнее местоположение директорий в коде.

    http://name.com/template/ — не определяется поисковиками

    http://name.com/template/style.css — так же не видит поисковый робот

    http://name.com/theme/style.css — видно поисковому роботу

    Есть ситуации, когда для индексирования необходимо указывать Allow в каждой папке, закрытой от поискового робота. Так стоит сделать для таблиц стилей, определяющих сайт уникальным.

    Если необходимо скрыть от поисковых роботов весь сайт, прописывается

    • Директива Sitemap включается в код файла для указания пути, ведущего к файлу Sitemap. Адрес страницы совпадает с указанным в строке браузера.

    В этом случае также не важно, где в файле robots.txt находится директива.

    • Директива Host указывает, что является основным зеркалом ресурса. Она актуальна для определения в случае с вариантами, имеющими www или не содержащими www. Необходима для индексации поисковыми роботами Mail и Yandex. Для остальных поисковиков директива бесполезна. Основное зеркало при этом содержит https://, но не включает http://. Иногда требуется прописать порт сайта.
    • Интервал, в течение которого поисковые машины скачивают страницы, определяет директива Crawl-delay. Необходима для больших магазинов или порталов, нагружающих работу сервера. Одностраничники могут обойтись без Crawl-delay. Не влияет на Google. Работает с Mail, Yahoo, Yandex, Bing. Поддерживается поисковыми машинами Яндекса, Mail.Ru, Bing, Yahoo. Время указывается в секундах. Может быть дробным.

    Временной промежуток для скачивания страниц индивидуален для конкретного сайта. Чем больше стоит цифра, тем меньше страниц поисковик загрузит в течение одной сессии. Наиболее подходящее время подбирается для каждого сайта путем тестирования. Лучше начинать с маленьких значений — 0.1, 0.3, 0.4. Впоследствии можно их наращивать. Поисковые машины Mail.Ru, Bing и Yahoo сразу предполагают меньшие показатели. В связи с этим с самого начала для них стоит указывать большие цифры, чем для роботов Яндекса.

    • Директива Clean-param прописывается исключительно для роботов “Яндекса”. Включает параметр страниц и адреса разделов. Закрывает от индексации URL с обозначенными в коде признаками.

    Clean-param: book_id http://name.com/documents/

    Clean-param: book_id&sid http://name.com/documents/

    Clean-param способна скрыть от поисковых машин идентификаторы сессий и UTM-метки.

    Правильно ли создан robots.txt

    Поисковые сервисы предусмотрели проверку файла robots.txt:

    • “Яндекс.Вебмастер” осуществляет ее по ссылке — Инструменты — Анализ — robots.txt;
    • Google Search Console — Сканирование — Инструмент проверки файла robots.txt.

    В результате проверки можно выявить некорректную работу файла robots.txt на сайте или его отсутствие. Среди ошибок:

    • исключение из индексирования robots.txt ( код Disallow: / );
    • UTM-метки, а также индентификаторы сессии продолжают быть видимыми для поисковых машин;
    • нет конкретных указаний по индексации, прописаны только директивы общих правил;
    • файл robots.txt содержит ограниченное количество директив:

    Allow: *.css
    Allow: *.png
    Allow: *.js
    Allow: *.gif

    Однако настройки других директорий скрывают файлы jpg, css, png, js, gif от поисковиков.

    • в директиве Host забыли указать протокол HTTPS или сама директива указана в файле несколько раз;
    • нарушения пути к Sitemap;
    • неправильное обозначение зеркала сайта или его протокола.

    Продвигаешь свои товары и услуги в интернете? У нас для тебя еще больше инструментов, лайфхаков и вдохновения на Яндекс.Дзен.Подписывайся!

    Правильный файл robots.txt

    Robots.txt (стандарт исключений для поисковых роботов) — один из важнейших системных файлов веб-сайта, представляет собой TXT-файл, содержащий правила индексирования для роботов поисковых систем. Был впервые представлен и принят консорциумом W3C 30 июня 1994 года. С тех пор используется большинством известных поисковых машин, хотя не является обязательным стандартом и используется на добровольной основе.

    Для чего нужен robots.txt?

    Robots.txt является своего рода “маршрутной картой” для поисковых ботов и инструктирует их на этапах индексации сайта. Он объясняет роботам, какие директории или страницы сайта индексировать, а какие нет. С его помощью можно закрыть от индексации:

    • важные директории и файлы на сайте, например панель администратора, личные кабинеты пользователей и т.д.;
    • технические, служебные страницы (напр. страница 404, версии страниц для печати, скрипты);
    • страницы регистрации и авторизации;
    • страницы внутреннего поиска по сайту;
    • формы заказов, квитанции, данные по доставке и т.д.;
    • разные конфиденциальные файлы;
    • дублированные или пустые страницы;
    • текстовые документы, например PDF и другие части сайта, которые не должны попадать в поиск.

    Как создать правильный robots.txt?

    Создается robots.txt с помощью любого текстового редактора, поддерживающего веб-код, например Notepad++ (рекомендую) или AkelPad.

    Название файла допускается только в нижнем регистре (lower-case) — «robots.txt», но не Robots.txt или ROBOTS.TXT.

    Файл нужно сохранить в кодировке UTF-8 или ASCII.


    Robots.txt должен располагаться в корневой директории сайта и открываться по адресу: https://www.вашдомен.com/robots.txt

    При наличии нескольких поддоменов или доменов с нестандартными портами, robots должен располагаться в корневой директории для каждого из них отдельно:

    http://поддомен.вашдомен.com/robots.txt
    http://вашдомен.com:8181/robots.txt

    Важно: Отсутствие файла или пустой robots.txt означает, что поисковики могут индексировать абсолютно весь сайт — все его папки и файлы, а значит они будут в свободном доступе для каждого пользователя интернета.


    * Чтобы просмотреть изображение полностью, откройте его в новой вкладке.

    Синтаксис robots.txt

    Синтаксис файла robots довольно прост. Он состоит из директив, каждая начинается с новой строки, через двоеточие задается необходимое значение для директивы.

    Директивы чувствительны к регистру и должны начинаться с заглавной буквы.

    Основными являются три директивы, которые рекомендуется применять в такой последовательности:

      User-agent:указывается название поискового робота, для которого будут применятся правила

    В одном файле robots можно использовать сразу несколько User-agent, обязательно разделяя их пустой строкой, к примеру:

    User-agent: Yandex
    Disallow: /administrator/
    Allow: /wp-content/uploads/

    Для более гибкой настройки директив можно использовать дополнительные выражения:

    • * (звездочка) — перебор всех значений, любая последовательность символов;
    • $ (доллар) — конец строки;
    • # (решетка) — позволяет вставить комментарий. Все что идет за этим символом — робот не воспринимает до конца следующей строки;

    User-agent: * # правила будут действовать для всевозможных поисковых роботов
    Disallow: /script$ # заблокирован ‘script’, но открыт ‘/script_public.pl’

    Примечание: Файл robots.txt не рекомендуется сильно засорять, он не должен быть слишком габаритным (Google — до 500 кб, Yandex — до 32 кб), иначе поисковик его просто проигнорирует.

    Дополнительные директивы robots.txt

    Clean-Param: указывается параметр URL (можно несколько), страницы с которым нужно исключить из индекса и не индексировать

    Данная директива используется только для User-agent: Yandex ! В Google параметр URL можно указать в Search Console или же использовать канонические ссылки (rel=»canonical»).

    Clean-Param позволит избавиться от дублей страниц, которые возникают в результате генерации динамических URL (реферальные ссылки, сессии пользователей, идентификаторы и т.д.).

    К примеру, если у вас на сайте появилось много страниц такого типа:

    www.mywebsite.com/testdir/index.php?&id=368:2014-05-14-18-59-45&catid=34&Itemid=63
    www.mywebsite.com/testdir/index.php?&id=378:2014-05-14-18-59-45&catid=34&Itemid=62
    www.mywebsite.com/testdir/index.php?&id=476:2015-04-18-16-33-18&catid=57&Itemid=1

    И вы хотите, чтобы робот индексировал только www.mywebsite.com/testdir/index.php

    Создаем правило для очистки параметров «id», «catid» и «Itemid», например:

    User-agent: Yandex
    Disallow: /administrator/
    Allow: /wp-content/uploads
    Sitemap: https://www.mywebsite.com/sitemap.xml
    Host: https://mywebsite.com
    Clean-param: id&catid&Itemid /testdir/index.php
    Можно так же создать правило очистки параметров URL не только для определенной страницы, но и для всего сайта. Например, создать правило очистки UTM-меток:

    Crawl-delay: указывается время задержки в секундах между сканированием страниц

    Данная директива полезна, если у вас большой сайт на слабом сервере и каждый день добавляется большое количество материалов. Поисковики при этом сразу же начинают индексировать сайт и создают нагрузку на сервер. Чтобы сайт не упал, задаем тайм-аут в несколько секунд для поисковиков — то есть задержка для перехода от одной к следующей странице.

    User-agent: Yandex
    Disallow: /administrator/
    Allow: /wp-content/uploads
    Sitemap: https://www.mywebsite.com/sitemap.xml
    Host: https://mywebsite.com
    Clean-param: id&catid&Itemid /testdir/index.php
    Crawl-delay: 3
    Таким образом, только через три секунды краулер перейдет к индексированию следующей страницы.

    Данная директива сообщает ботам, что у сайта есть карта сайта, что поможет ботам быстро обнаруживать новые страницы при индексации. Если сайт часто наполняется, это особенно актуально, так как ускорит и улучшит индексацию (напомню, вы можете проверить индексацию страницы в нашем сервисе).

    User-agent: Yandex
    Disallow: /administrator/
    Allow: /wp-content/uploads
    Sitemap: https://www.mywebsite.com/sitemap.xml

    Host: указывается главное «зеркало» сайта, то есть его предпочтительная версия

    Например, сайт доступен по http и https версии, чтобы краулер не запутался в “зеркалах” при индексации и не наделал дублей, указываем главный домен в директиве Host.

    Данная директива используется только для User-agent: Yandex

    User-agent: Yandex
    Disallow: /administrator/
    Allow: /wp-content/uploads
    Sitemap: https://www.mywebsite.com/sitemap.xml
    Host: https://mywebsite.com

    Если сайт не на https, тогда указываем домен без протокола http: mywebsite.com

    Примечание: 20 марта 2018 года Яндекс заявил, что директива Host не обязательна, и вместо нее можно теперь использовать 301-й редирект.

    Примеры robots.txt для WordPress и Joomla

    Перейдем к конкретным примерам правильной настройки robots для двух популярных CMS:

    WordPress

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: /wp-
    Disallow: *?s=
    Disallow: *&s=
    Disallow: */embed
    Disallow: /xmlrpc.php
    Disallow: *utm=
    Disallow: *openstat=
    Disallow: /tag/
    Allow: */uploads

    User-agent: Yandex
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: /xmlrpc.php
    Allow: /wp-*.jpg
    Allow: /wp-admin/admin-ajax.php
    Allow: */uploads
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif
    Allow: /*/*.js
    Allow: /*/*.css
    Allow: /wp-*.png
    Sitemap: https://путь к вашей карте XML формата
    Host: https://mywebsite.com

    User-agent: GoogleBot
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: /wp-
    Disallow: *?s=
    Disallow: *&s=
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: /xmlrpc.php
    Disallow: *utm=
    Disallow: *openstat=
    Allow: */uploads
    Allow: /*/*.js
    Allow: /*/*.css
    Allow: /wp-*.png
    Allow: /wp-*.jpg
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif
    Allow: /wp-admin/admin-ajax.php
    Sitemap: https://путь к вашей карте XML формата

    Joomla

    User-agent: Yandex
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/
    Disallow: /layouts/
    Disallow: /cli/
    Disallow: /bin/
    Disallow: /logs/
    Disallow: /components/
    Disallow: /component/
    Disallow: /component/tags*
    Disallow: /*mailto/
    Disallow: /*.pdf
    Disallow: /*%
    Disallow: /index.php
    Clean-Param: utm_source&utm_medium&utm_campaign
    Clean-Param: openstat
    Sitemap: https://путь к вашей карте XML формата
    Host: https://mywebsite.com

    User-agent: Googlebot
    Allow: /*.css?*$
    Allow: /*.js?*$
    Allow: /*.jpg?*$
    Allow: /*.png?*$
    Disallow: /administrator/
    Disallow: /cache/
    Disallow: /includes/
    Disallow: /installation/
    Disallow: /language/
    Disallow: /libraries/
    Disallow: /modules/
    Disallow: /plugins/
    Disallow: /tmp/
    Disallow: /layouts/
    Disallow: /cli/
    Disallow: /bin/
    Disallow: /logs/
    Disallow: /components/
    Disallow: /component/
    Disallow: /*mailto/
    Disallow: /*.pdf
    Disallow: /*%
    Disallow: /index.php
    Sitemap: https://путь к вашей карте XML формата

    Robots.txt или meta robots?

    И тем не менее, не всегда поисковик строго придерживается правил, описанных в файле robots.txt Как уже говорилось, стандарт не обязательный и используется поисковичками добровольно. Бывают случаи, когда страница закрыта в robots.txt, но в HTML-коде в теге <meta name=”robots”> она открыта для индексирования. Тогда робот может все равно проиндексировать страницу.

    Пример:

    <meta name=”robots” content=”index, follow”>
    Чтобы такого не произошло, страницы желательно дополнительно закрывать от индексации в meta robots:

    <meta name=”robots” content=”noindex, nofollow”>

    Ссылочный вес страницы можете закрывать (nofollow) или открывать (follow) на свое усмотрение, но если нужно полностью убрать страницу из поиска, то лучше применять: noindex, nofollow

    Проверка и тестирование robots.txt

    Созданный с нуля и оптимизированный файл robots.txt не забудьте отправить на проверку в инструменты для вебмастеров в ПС Яндекс и Google:

    Эти инструменты позволяют проверить валидность robots.txt и на лету покажут ошибки, если они есть. Файл robots можно редактировать онлайн и сразу протестировать. Затем, если ошибок нет — просто скопируйте себе все строки и обновите robots.txt.

    Читайте также: A/B тест рассылки


    Яндекс Вебмастер


    Google Search Console

    Заключение

    Таким образом, robots.txt играет очень важную роль в технической оптимизации сайта и позволяет выполнить ряд полезных функций, улучшая таким образом и его индексацию, и безопасность.

    Но подходить к оптимизации этого файла нужно осторожно, уделяя особое внимание всем директивам и их значениям. Можно легко ошибиться в регистре или закрыть от индексации, по невнимательности, важные части сайта или весь сайт, поэтому используйте файл с умом.

    Директивы и настройки файла Robots.txt: что нужно знать

    Команда AskUsers

    Для индексации сайта роботы поисковых систем определяют, к каким разделам у них есть доступ. Эти данные прописаны в текстовом файле robots.txt.

    Для индексации сайта роботы поисковых систем определяют, к каким разделам у них есть доступ. Эти данные прописаны в текстовом файле robots.txt. Он работает в качестве преграды для поисковых алгоритмов и указывает, какие страницы могут смотреть роботы, а какие для них закрыты. Глубину ограничений настраивают с помощью директив. Роботы воспринимают их как инструкции к действию. И если они видят команду Disallow с указанием разделов сайта, то не будут их индексировать. В этой статье расскажем, как настраивать директивы для Яндекса и Google и как составить правильный robots.txt.

    Почему индексация сайта зависит от файла robots.txt

    Если не хотите, чтобы частные и корпоративные данные попадали в поисковые системы, нужно закрыть к ним доступ. Поэтому в robots.txt стоит прописать запрет на доступ к панели администратора и конфиденциальным данным.

    Неверно составленный файл испортит индексацию в поисковиках. Стоит неправильно указать директивы роботс для сайта, и из поисковой выдачи вылетит половина страниц и разделов, приносящих трафик. Составление правильного синтаксиса — еще одно требование при работе с robots.txt. Появление ошибки в командах и спецсимволах приводит к тому, что во время анализа и проверки ресурса робот не поймет ограничений и проиндексирует страницу, которую вы хотели закрыть. Или наоборот — закроется посещаемый раздел, и сайт лишится трафика. Мы уже писали о том, как повысить трафик за счет работы с релевантностью страницы.

    Какие бывают директивы и как их настраивать

    User-agent

    Определяет, для каких поисковых алгоритмов составлен роботс. Эту команду указывают первой при создании файла. Как и остальные директивы User-agent составляется по шаблону. Вот правильный порядок — название директивы, двоеточие, пробел, значение команды. В случае с User-agent значением будет название поисковых роботов.

    Disallow

    Запрещает роботам индексировать указанные страницы и подразделы. Чтобы закрыть весь ресурс от поисковых алгоритмов, в значении команды поставьте символ «/». В данном примере запрет касается подраздела «page», который расположен следом за правильным URL-адресом сайта. Например, http://directive.ru/page.

    Синтаксис директивы можно настраивать символом «*». Нужно поставить его перед «/» и прописать формат документов, которые необходимо запретить для индексации. Например, «doc» или «pdf». Все документы с этим форматом роботы будут игнорировать.

    Allow

    Разрешает доступ к страницам. Для этой команды актуальны все настройки Disallow. В этом примере мы запретили поисковым алгоритмам индексировать весь сайт с помощью Disallow, кроме разделов, которые начинаются с /page ( Allow).

    Можно настраивать взаимодействие разрешающей и запрещающей директив с таким синтаксисом:

    Доступ к страницам /blog закрыт, а подраздел /blog/page работы проиндексируют.

    Sitemap

    Указывает путь к XML-карте сайта. Если их несколько, для каждой новой используйте отдельную команду. О том, как настраивать карту сайта и почему она важна для SEO, читайте здесь.

    Clean-param

    Команда убирает лишние страницы, которые повторяют содержание индексируемых разделов. Clean-param очищает URL, удаляя ненужные метки, фильтры, информацию о сессиях и т.д. Возьмем такую страницу:

    И настроим директиву:

    Роботы во время проверки уберут из индексации выбранный динамический URL для всех страниц /page.

    Crawl-delay

    Указывает алгоритмам Яндекса, сколько секунд нужно подождать перед загрузкой очередного раздела. Команда спасает ваш сервер от дополнительной нагрузки, когда роботы часто заходят на ресурс. Синтаксис самый простой:

    Правильная настройка robots.txt

    Можно использовать шаблоны, где указаны стандартные настройки без анализа особенностей вашего ресурса. Вслепую загружать такой файл на сайт не стоит — роботы могут криво проиндексировать его.

    Настраивать robots.txt всегда лучше самостоятельно. Четко проверяйте, какие страницы нужно закрыть для индексирования, и не допускайте ошибок в командах. Синтаксис файла роботс устроен по простым и понятным законам — не нарушайте их, чтобы алгоритмы верно проиндексировали ваш ресурс.

    Расскажем, как указать правильные настройки в чек-листе:

    • Одна строка — одна директива. Проверка этого принципа — первая цель после того, как составлен роботс.
    • Значение команды пишите в одной строчке.
    • Составляйте их без точек с запятой, кавычек и заглавных букв.
    • То же самое для меток слежения (*utm, *clid и т.д.).
    • Настройка Host, Clean-param и Crawl-delay для Гугла производится в Google Search Console.
    • Основное правило составления файла — никаких пустых строк. Они появляются только между директивами User-agent и между завершающей User-agent и Sitemap.
    • Разрешите доступ ко всем файлам JS и CSS из системных папок. Необходимо для корректной индексации.
    • Укажите в Allow известные форматы изображений (*.jpg, *.png и т.д.). Это перестраховка для того, чтобы страницу не проиндексировали без картинки.
    • Аккуратно настраивайте доступ ко всем страницам со служебной информацией, секретными и персональными данными. Их лучше закрыть от роботов.
    • Для Яндекса укажите корректный Host, следите за синтаксисом.

    Как добавить robots.txt и где лежит файл

    Роботс составляют в простой текстовой программе — блокноте. Анализ работы поисковых алгоритмов показал, что лучше собирать файл прямо там, а не в других редакторах. Блокнот поддерживает кодировку UTF-8, а некоторые программы работают с другими настройками. А их поисковики могут некорректно проиндексировать.

    Обязательно нужно указать имя файла — robots.txt. Сохраняем его и размещаем строго в корневом каталоге сайта. Файл должен открываться, например, по адресу — http://www.directive.ru/robots.txt. Подраздел — http://www.directive.ru/blog/robots.txt — не подойдет, в этом случае роботы его не проиндексируют.

    Настраивать роботс можно и после загрузки на сайт. Если допустили ошибку и заметили после анализа, ее легко поправить в файле.

    Проверка синтаксиса

    После размещения robots.txt в корневом каталоге стоит провести анализ настройки директив. Даже если вы не в первый раз составляете список команд для роботов, лучше воспользоваться проверкой файла на предмет ошибок. Правильный синтаксис — залог успешного индексирования. Например, одна ошибка в команде Host будет стоить вам трафика.

    Для анализа используйте Вебмастеры Яндекса и Google. Нужно указать адрес ресурса и в пустое поле скопировать текст из роботса. Проверка займет пару секунд, и сервис сообщит о найденных ошибках.

    0 0 голоса
    Рейтинг статьи

когда выйдет новый властелин колец

киноляпы в российских фильмах

великий уравнитель смотреть онлайн на телефоне

Ссылка на основную публикацию