Что такое meta name robots?

Мета-тег Robots

Мета-тег Robots должен содержать инструкции для поисковых роботов по отношению к веб-странице, на которой он указан.

Содержание

Видео по теме

Для чего нужен мета-тег Robots?

Как прописать мета-тег Robots?

Как и другие мета-теги в HTML, Meta Robots указывается в блоке head веб-страницы и должен содержать два обязательных атрибута name и content :

Атрибут Name мета-тега Robots

Важно знать, что атрибут name не обязательно должен содержать значение robots : в нём можно указывать название конкретного робота, для которого указана инструкция в атрибуте. Если указывается значение robots , то инструкция в атрибуте content предназначается для всех поисковых роботов. Таким образом, можно комбинировать инструкции для определённых роботов с помощью нескольких мета-тегов на одной веб-странице:

Отметим, что в 99.9% случаев мета-тег Robots содержит общие для всех роботов инструкции и прибегать к использованию нескольких мета-тегов нет необходимости.

Директивы мета-тега Robots

В качестве значения атрибута content указывается одна или несколько директив (инструкций), перечисленных через запятую. Существуют общие директивы, понятные всем поисковым роботам, а также директивы, понятные только роботам определённых поисковых систем.

Общие директивы

В таблице представлены директивы мета-тега Robots, понятные роботам Яндекса и Google.

Универсальные директивы мета-тега Robots
Директива Значение
all Используется по умолчанию. Означает, что в отношении веб-страницы не предусмотрены исключающие правила для роботов.
noindex Запрещает индексирование (отображение в поисковой выдаче) веб-страницы.
nofollow Запрещает переход по ссылкам на веб-странице.
none Запрещает индексирование и переход по ссылкам на веб-странице.
noarchive Запрещает выводить ссылку на сохраненную копию веб-страницы в сниппете поисковой выдачи.

Директивы для Google

В таблице ниже представлены директивы, понятные только роботам Google.

Директивы мета-тега Robots для Google
Директива Значение
nosnippet Запрещает отображать фрагмент содержания страницы в поисковой выдаче, размещенный под заголовком сниппета.
notranslate Запрещает отображать предложение перевести страницу в сниппете.
noimageindex Запрещает индексировать изображения на странице.
unavailable_after:[date] Запрещает отображать страницу в поисковой выдаче после указанного в формате RFC 850 времени.
nositelinkssearchbox Запрещает отображение поля поиска по сайту в поисковой выдаче.

Директивы для Яндекса

Кроме общих для всех роботов директив, робот Яндекса способен учитывать отдельную директиву noyaca , запрещающую использовать описание из Яндекс.Каталога при формировании сниппета поисковой выдачи:

Комбинирование директив

В качестве значения атрибута content в мета-теге Robots можно применять комбинации директив, перечисляя их через запятую. Рассмотрим на примерах.

Значение «index, follow» или «all»

Для разрешения индексирования и перехода по ссылкам можно не указывать мета-тег Robots совсем, или использовать следующие значения:

Значение «noindex, nofollow» или «none»

Для запрета индексирования страницы и перехода по ссылкам на ней можно применять следующие значения:

Значение «noindex, follow»

Если страницу не следует отображать в поисковой выдаче, но можно её сканировать на предмет ссылок, то применяется комбинация директив noindex, follow :

Значение «index, nofollow»

Если страницу следует отображать в поисковой выдаче, но не следует переходить по ссылкам на ней, то применяется комбинация index, nofollow :

Рекомендации по применению

Необходимо очень внимательно использовать мета-тег Robots, т. к. он может стать причиной непопадания страниц сайта в поисковую выдачу. Чтобы исключить возможные недоразумения, следуйте указанным рекомендациям:

Что такое meta name robots?

Индексация страниц с точки зрения SEO имеет огромное значение и необходимо владеть базовыми техническими знаниями в SEO. Поэтому сегодня я расскажу вам про мета-тег robots, про который не знают многие оптимизаторы.

Что такое meta name robots?

Прошу не путать с robots.txt, так как это совершенно разные файлы. Meta robots необходим, а Robots.txt призван для того чтобы создавать правила индексирования страниц для поисковых роботов.

Чтоб было нагляднее давайте разберем на примере:

Это пример файла robots.txt

Кстати, совсем недавно написал полноценную статью про правильную настройку robots.txt

Вот это пример мета-тега robots с атрибутами name и content

Как вы видете синтаксис довольно прост + параметры данного тега нечувствительны к регистру. Можно написать и в таком формате

В принципе синтаксис мы уже увидели. Данный тег должен располагаться в разделе <head> тут</head> и нигде больше! Но использовать данный тег можно несколько раз на странице.

Список параметров мета-тега name robots:

Для всех поисковых систем

index – позволяет индексировать текст страницы

noindex – не индексировать текст страницы

follow – индексировать ссылки на этой странице

nofollow – не индексировать ссылки на этой странице

all – индексировать текст и ссылки на странице

none — не индексировать текст и ссылки на странице

noarchive – не показывает ссылку на сохраненную копию на странице поисковой системы

Только для Яндекса:

noyaca – не использовать описание Яндекс Каталога в результатах выдачи Яндекса

Только для Google:

nosnippet – не использует фрагмент содержания в результах поиска Google

noodp – не использует описание из каталогов ODP/DMOZ в результатах поиска Google

unavailable_after:[date]: — возможность указать точную дату и время, когда необходимо прекратить индексирование страницы

noimageindex – не использует картинки сайта в качестве источника ссылки, которая отображается в поисковой системе Google

Если тег meta name robots отсутствует на страницы, то мы автоматически разрешаем роботу индексировать текст и ссылки на странице.

Итак, разберем каждый пример отдельно

Этот пример позволит закрыть от индексации текст страницы, но будет учитывать все ссылки на сайте и соответственно проиндексирует их. Та же ситуация произойдет если, мы добавим follow

Разницы нет, писать можно так и так.

Если мы хотим полностью закрыть страницу от индексации через тег meta name, то есть два способа:

<meta name=”robots” content=”noindex, nofollow” />

И <meta name=”robots” content=”none” />

(Также можно использовать на странице тег noindex и и атрибут nofollow)

Оба варианта позволят роботу не учитывать текст и ссылки на странице.

Этот тег учитывает все ссылки и текст

Далее я расскажу в каких случаях использовать.

Использование meta name robots

Когда нужен robots.txt, а когда meta name robots?

Плюсы meta name robots.txt

Данный файл мы можем указывать, когда необходимо закрыть целые разделы, несколько страниц от индексации поисковых роботов. Причем, чтобы запретить раздел, мы прописываем это только одной строкой и если мы хотим разрешить индексирование одной страницы, то добавляем дополнительно строку.

В принципе более подробно про robots.txt я рассказал здесь.

Мета-тег name robots в этом случае проигрывает, потому что невозможно указать данный тег на весь раздел (придется выставлять отдельно на каждой странице, что очень неудобно и затратно).

Ну в целом и все. Главное, что мы выигрываем время.

Теперь разберем, когда лучше всего использовать meta name robots.

1. Страница в разработке.

Допустим, вы не до конца доделали страницу и в дальнейшем планируете его закончить, тогда вы можете внести ее на сайт, но попросить поисковую систему не индексировать эту страницу. В дальнейшем, когда страница будет готова, вы удалите этот тег.

Тег будет выглядеть так:

<meta name=”robots” content=”none” />2. Дублированный контент.

Если вы не знаете, то архивы, ярлыки создают дублирование контента. Но закрывать эти страницы от индексации полностью необязательно. Достаточно, тег meta name robots с запретом индексации текста, но индексацию ссылок не трогать.

Ответы на вопросы

Что будет, если использовать одновременно meta name robots и robots.txt ?

Поисковой системе без разницы что вы используете для управления индексацией (файлом robots.txt или мета тегом robots). Важно чтобы эти элементы не противоречили друг другу. Поэтому будьте внимательны.

Яндекс про meta robots.txt

Прочитал у Яндекса интересную заметку в справке:

“Если мета-теги не указаны, робот считает, что они имеют положительное значение (index, follow, archive). Если робот обнаруживает конфликт между тегами, выбирается именно положительное значение.

<meta name=»robots» content=»all»/>

<meta name=»robots» content=»noindex, follow»/>

<!—Робот выберет значение all, текст и ссылки будут проиндексированы.—>

Исключение — атрибут all не влияет на noarchive:

<meta name=»robots» content=»all»/>

<meta name=»robots» content=»noarchive»/>

<!—Текст и ссылки будут проиндексированы, но в результатах поиска не будет ссылки

на сохраненную копию страницы.—> “

Google про мета-тег robots

Интересную информацию я нашел в справочнике Гугла:

Чтобы заблокировать большую часть поисковых роботов, добавьте следующий метатег в раздел <head> веб-страницы:

Если вы хотите закрыть доступ к странице только роботам Google, используйте такой код:

Другие поисковые системы могут иначе интерпретировать атрибут noindex на странице и показывать ее в результатах поиска.

По поводу ноуиндекс ничего нового мы не узнали, но зато я увидел вот что! В атрибуте name указано значение googlebot, а это говорит о том, что можно использовать различных поисковых ботов. Это я увидел в англоязычном справочнике Гугла.

Meta name robots

Странно здесь одно, что в справочнике Яндекса никакой информации про это я не увидел.

Заключение

Конечно, не стоит закрывать все ссылки на сайте, обязательно ссылайтесь на полезные ресурсы для посетителя и никаких nofollow, noindex вам не понадобится. Потому что роль данных тегов важна с точки зрения индексации, но не с точки зрения продвижения вашего сайта. Ну к примеру, я не использовал данный тег и мои сайты ранжировались нормально. Это скорее некая дополнительная фича к robots.txt.

Не злоупотребляйте спамными техниками и прочими черными методами продвижения сайтов и старайтесь не слушать биржи о покупке ссылок и волшебном продвижении в ТОП 10, и ничего за это вам не будет. Поймите – их цель продать вам продукт и они будут вливать вам как можно больше воды. Можно продвигать сайт без них, есть конкретные кейсы и примеры (точнее без покупки ссылок), ну а в сегодняшней статье всё.

Оставляйте вопросы в комментариях, а пока у меня к вам несколько вопросов:

Как вы используете meta-robots name?

Используете ли вы различных ботов (googlebot, googlebotnews) для запрета индексации той или иной страницы?

Спецификации метатега robots, атрибута data-nosnippet и HTTP-заголовка X-Robots-Tag

В этом документе рассказывается о том, как управлять показом контента в результатах поиска Google, задавая настройки на уровне страницы и текста. Настройки на уровне страницы задаются с помощью HTTP-заголовка или метатега HTML. Для настроек на уровне текста в HTML-элементы в коде страницы добавляется атрибут data-nosnippet .

Имейте в виду, что эти настройки учитываются только в том случае, если у поисковых роботов есть доступ к страницам, на которых они заданы.

Тег и директива <meta name=»robots» content=»noindex» /> предназначены только для поисковых роботов. Если вы хотите заблокировать какого-либо другого робота, например, AdsBot-Google , вам могут потребоваться специальные директивы (например, <meta name=»AdsBot-Google» content=»noindex» /> ).

Как использовать метатег robots

Метатег robots позволяет задавать на уровне страницы детальные настройки, которые определяют, как эта страница будет индексироваться и показываться в результатах поиска Google. Метатег robots следует размещать в разделе <head> страницы. Пример:

Код в этом примере запрещает поисковым системам показывать страницу в результатах поиска. Заданное для атрибута name значение robots указывает, что директива предназначена для всех поисковых роботов. Если вы хотите закрыть доступ только одному из них, вместо robots укажите в значении атрибута name название нужного робота. Отдельные поисковые роботы также называются агентами пользователя (поисковый робот использует агент пользователя для отправки запроса страницы). Агент пользователя стандартного поискового робота Google называется Googlebot . Чтобы запретить сканирование страницы только роботу Googlebot, измените тег, как указано в примере ниже:

Такой тег сообщает Google, что эту страницу не следует показывать в результатах поиска. Атрибуты name и content можно указывать без учета регистра.

Для разных целей поисковые системы могут использовать разных роботов. Полный список роботов Google можно найти здесь. Например, если вам нужно, чтобы контент со страницы был представлен в результатах веб-поиска Google, но не в Google Новостях, используйте следующий метатег:

Если нужно задать разные настройки для разных поисковых роботов, используйте несколько метатегов robots:

Как использовать HTTP-заголовок X-Robots-Tag

Заголовок X-Robots-Tag можно указывать в HTTP-ответе, отправляемом с определенного URL. В заголовках X-Robots-Tag поддерживаются те же директивы, что и в метатегах robots. Вот пример HTTP-ответа с заголовком X-Robots-Tag , запрещающим поисковым роботам индексировать страницу:

Вы можете включить в один HTTP-ответ несколько заголовков X-Robots-Tag или перечислить директивы через запятую. Вот пример HTTP-ответа, где заголовок X-Robots-Tag с директивой noarchive объединен с заголовком X-Robots-Tag , которому назначена директива unavailable_after .

Перед директивами X-Robots-Tag может указывать название агента пользователя. Например, чтобы ваша страница появлялась в результатах поиска лишь некоторых поисковых систем, используйте следующий набор HTTP-заголовков X-Robots-Tag :

Директивы, для которых агент пользователя не указан, будут выполняться всеми поисковыми роботами. HTTP-заголовок, название агента пользователя и другие значения указываются без учета регистра.

Если несколько директив противоречат друг другу, применяется более строгая из них. Например, для страницы с директивами max-snippet:50 и nosnippet будет действовать директива nosnippet .

Действующие директивы индексирования и показа контента

Указанные ниже директивы позволяют управлять индексированием страницы и показом ее фрагмента в результатах поиска. Эти директивы указываются в метатеге robots и X-Robots-Tag . Фрагмент в результатах поиска – это короткий текст, который помогает пользователям понять, соответствует ли найденный контент их запросу. В следующей таблице перечислены все директивы, которые выполняют роботы Google, а также их значения. Каждое значение соответствует отдельной директиве. Директивы можно объединять, перечисляя через запятую. Они указываются без учета регистра.

noindex

Не показывать эту страницу в результатах поиска. Если не указать эту директиву, страница будет проиндексирована и сможет показываться в результатах поиска.

nofollow

noarchive

nosnippet

Не показывать в результатах поиска текстовый фрагмент или видео. Статические уменьшенные изображения (если имеются) могут по-прежнему отображаться, если они будут более удобными для пользователя при просмотре. Это условие выполняется для всех типов результатов поиска (веб-поиск Google, Google Картинки, рекомендации).

Если не указать эту директиву, роботы Google могут создать фрагмент текста и видео на основе информации со страницы.

max-snippet: [number]

Ограничение на количество символов в текстовом фрагменте (не более [number]), который показывается в результатах поиска. (Учтите, что один и тот же URL может появляться на странице результатов поиска несколько раз). Не распространяется на предварительный просмотр изображений и видео. Распространяется на все виды результатов поиска (веб-поиск Google, Google Картинки, рекомендации и данные, предоставляемые Ассистентом). Тем не менее ограничение не применяется в тех случаях, когда издатель предоставил отдельное разрешение на использование контента, например добавил структурированные данные или заключил лицензионное соглашение с компанией Google. Тогда эта настройка не отменяет подобные дополнительные разрешения. Если этой директиве присвоить некорректное числовое значение, она будет игнорироваться.

Если же не указать ее, Google будет выбирать длину фрагмента самостоятельно.

  • 0 – нет фрагмента для показа. Является эквивалентом nosnippet .
  • -1 – Google будет самостоятельно выбирать длину фрагмента, которая позволит эффективнее привлекать пользователей на ваш сайт.

Чтобы запретить показ фрагмента в результатах поиска:

Чтобы разрешить показ во фрагменте 20 символов или менее:

Чтобы указать, что ограничений на количество символов при показе во фрагменте нет:

max-image-preview: [setting]

Эта директива определяет максимальный размер изображений, которые могут показываться в результатах поиска для этой страницы.

Если не указать директиву max-image-preview , будет возможен предварительный просмотр изображения размером, заданным по умолчанию.

Допустимые значения для элемента [setting]:

  • none – нет изображения для предварительного просмотра.
  • standard – может быть показано изображение для предварительного просмотра по умолчанию.
  • large – может быть показано более крупное изображение, вплоть до максимальной ширины области просмотра.

Это распространяется на все виды результатов поиска (веб-поиск Google, Google Картинки, рекомендации и данные, предоставляемые Ассистентом). Тем не менее ограничение не применяется в тех случаях, когда издатель предоставил отдельное разрешение на использование контента, например добавил структурированные данные или заключил лицензионное соглашение с компанией Google. В частности, структурированные данные могут определять каноническую и AMP-версию статьи.

Если вы не хотите, чтобы ваши канонические страницы и их AMP-версии показывались в Google Поиске и рекомендациях с более крупными изображениями, укажите в директиве max-image-preview значение standard или none .

max-video-preview: [number]

Эта директива задает для фрагмента видео со страницы ограничение по длительности в секундах при показе в результатах поиска (не более [number]).

Если не указать директиву max-video-preview , в результатах поиска сможет показываться фрагмент видео. В этом случае определять возможную продолжительность предварительного просмотра будет Google.

  • 0 – может использоваться статическое изображение, но его размер не должен превышать значение, заданное настройкой max-image-preview .
  • -1 – ограничения отсутствуют.

Директива распространяется на все виды результатов поиска (веб-поиск Google, Google Картинки, рекомендации, поиск по видео и данные, предоставляемые Ассистентом). Если этой директиве присвоить некорректное числовое значение, она будет игнорироваться.

notranslate

noimageindex

unavailable_after: [date/time]

Эта директива запрещает показывать страницу в результатах поиска после даты и времени, указанных в одном из основных форматов, таких как RFC 822, RFC 850, ISO 8601 и др. Эта директива игнорируется, если не указано допустимое значение даты и времени. По умолчанию у контента нет срока действия.

Если не указать эту директиву, страница может показываться в результатах поиска неограниченное время.

Обработка комбинированных директив индексирования и показа контента

В одном метатеге robots можно создать инструкцию из нескольких директив, перечисленных через запятую. Ниже приведен пример метатега robots, который запрещает поисковым роботам индексировать страницу и сканировать ссылки на ней:

В следующем примере фрагмент текста ограничивается 20 символами, но разрешен показ крупных изображений:

Если перечислены различные директивы для нескольких поисковых роботов, поисковая система будет суммировать запреты. Пример:

Обнаружив эти метатеги, робот Googlebot будет действовать так же, как при наличии на странице директив noindex, nofollow .

Как использовать HTML-атрибут data-nosnippet

Фрагменты текста на HTML-странице можно специально пометить, чтобы они не показывались в результатах поиска. Для этого служит атрибут data-nosnippet HTML-элементов span , div и section . Атрибут data-nosnippet является логическим и может указываться без значения. Код должен отвечать стандартам HTML и содержать все необходимые закрывающие теги.

Обычно при индексировании робот Google отрисовывает страницы, но это происходит не всегда. Поэтому атрибут data-nosnippet может извлекаться как до отрисовки, так и после нее. Чтобы избежать неопределенности, не используйте JavaScript для добавления атрибута data-nosnippet в существующие узлы или для его удаления из них. Если вы добавляете элементы в структуру DOM при помощи JavaScript, указывайте атрибут data-nosnippet в момент создания этих элементов. Если вы хотите применить атрибут data-nosnippet к нестандартным элементам, размещайте их внутри тегов div , span или section .

Использование структурированных данных

Метатеги robots определяют, какое количество контента Google может автоматически извлекать с веб-страниц и показывать в результатах поиска. Однако многие издатели также применяют структурированные данные schema.org, чтобы показывать в результатах поиска нужную им информацию. Заданные в метатегах robots ограничения не распространяются на структурированные данные, кроме значений article.description и description , которые указываются для творческих работ. Чтобы задать максимальную длину текстового фрагмента в результатах поиска с учетом этих значений description , используйте метатег robots с директивой max-snippet . К примеру, если на странице есть структурированные данные для рецептов ( recipe ), определенный ими контент может показываться в карусели рецептов независимо от ограничения длины текстового фрагмента. Длину текстового фрагмента можно ограничить при помощи max-snippet , однако эта директива метатега robots не действует, когда информация предоставляется с применением структурированных данных для расширенных результатов.

Вы можете редактировать типы структурированных данных и их значения на веб-страницах. Добавляйте или удаляйте информацию, чтобы роботу Google были доступны только нужные сведения. Обратите внимание, что структурированные данные могут использоваться в Поиске, даже если они объявлены внутри элемента с атрибутом data-nosnippet .

Практическая реализация заголовка X-Robots-Tag

Заголовок X-Robots-Tag можно добавить в HTTP-ответы с помощью файлов конфигурации в серверном ПО сайта. Например, на серверах Apache такие настройки хранятся в файлах .htaccess и httpd.conf. Преимущество использования заголовка X-Robots-Tag в HTTP-ответах состоит в том, что с его помощью можно задать директивы сканирования на уровне всего сайта, а поддержка регулярных выражений обеспечивает дополнительную гибкость.

Например, чтобы добавить заголовок X-Robots-Tag с директивой noindex, nofollow в HTTP-ответ для PDF-файлов со всего сайта, включите небольшой фрагмент кода в корневой файл .htaccess/httpd.conf (Apache) или .conf (NGINX).

Заголовки X-Robots-Tag можно использовать для тех файлов, для которых HTML-метатеги robots недоступны, например для изображений. В приведенном ниже примере директива noindex X-Robots-Tag добавляется для файлов изображений (PNG, JPEG, JPG, GIF) на всем сайте:

Особенности обработки директив индексирования и показа при сканировании

Обнаружение метатегов robots и HTTP-заголовков X-Robots-Tag происходит при сканировании URL. Если сканирование страницы запрещено файлом robots.txt, то директивы, касающиеся индексирования или показа контента, будут проигнорированы. Чтобы гарантировать выполнение директив, не следует запрещать сканирование URL, для которых они заданы.

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.

SEO Маяк

Мета-тег robots. Правильная настройка индексации сайта

Всем привет! Данный пост считаю обязательным к прочтению, так как далеко не все веб-мастера знают, как использовать мета-тег robots и как с помощью этого инструмента можно настроить индексацию сайта.

В последнее время на seo-mayak.com я публиковал много статей, посвященных различным функциям WordPress и как некоторым может показаться, немного отклонился от основной тематики блога.

Это вовсе не так! Я по прежнему уверен, что без базовых знаний в программирования, не о каком успешном продвижении речь идти не может. Я не зря последовательно описываю функции, о существовании которых просто обязан знать каждый веб-мастер, чтобы самостоятельно вести свой проект.

Сегодня мы опять будем работать с функциями, хотя основным героем будет конечно мета-тег robors.

Также я предложу Вам обновленный вариант файла robors.txt, который будет изменен до неузнаваемости, благодаря взаимодействию с мета тегом robots и PHP.

meta tag robots

Но сначала я хочу сказать несколько слов о том, к чему может привести неправильная настройка индексации сайта для роботов Яндекса и Гугла. Поехали!

Последствия не правильной настройки индексации

Если Вы посмотрите на файл robots.txt моего блога, то увидите всего несколько строк:

Но что будет, если какой-нибудь веб-мастер, по неопытности или из каких-либо других соображений решит, что так правильно и настроит индексацию своего сайта аналогичным образам.

Сразу скажу ничего хорошего из этого не выйдет! Если отменить некоторые запрещающие директивы в файле robots.txt, такие как:

В этом случаи поисковые роботы получат разрешение на сканирование текстов дублирующих страниц, за что, с большой долей вероятности, сайт может угодить под АГС, Пингвин или другие фильтры.

Так что, без специальных знаний никому не советую менять свой robots.txt по моему примеру или по аналогичным примерам с других сайтов и открывать доступ поисковым роботам к не уникальному контенту.

Примеры URL страниц, которые могут попасть в индекс:

/category/seo-prodvizhenie — страницы с категориями;
/2014/05 — страницы с архивами
/tag/prodvizhenie — страницы меток
/?attachment_id=3269 — страницы с прикрепленными файлами
/page/2 — страницы постраничной навигации
/feed — страницы фида
/?s= — страницы внутреннего поиска

Отдельный разговор у нас будет по дублям страниц, создаваемых функцией древовидных комментариев, так называемых replytocom, так что подписывайтесь на обновления блога .

Я перечислил все основные дубли, которые могут быть проиндексированы роботами Яндекса и Гугла, если на их пути не будет никаких преград, но в зависимости от структуры сайта, возможны и другие дубли, так что на каждом отдельном ресурсе, надо проводить свой тщательный анализ.

Итак, почему я убрал большинство запрещающих директив из своего файла robots.txt и тем самым открыл путь поисковым роботам? Основной причиной послужило то, что Гугл заносит заблокированные в robots.txt страницы в свой Supplemental index, если на них ведут внутренние или внешние ссылки.

Не думайте, сами страницы с дублями я не оставил без защиты от индексации, просто я внедрил в код каждой из них мета-тег robots, что уже на 100% убережет их от попадания в сопливый индекс. В конце статьи я покажу как это делается.

В исходном коде мета-тег robots выглядит следующим образом:

meta tag robots1

Не так давно, одна моя старая знакомая попросила меня высказаться, по поводу настройки индексации с помощью плагина All in One SEO Pack. Мысль сводилась к следующему.

Что, если открыть доступ в файле robots.txt, но запретить индексацию в All in One SEO Pack, в разделе «Настройки индексирования», проставив галочки возле соответствующий пунктов ?

В принципе мысль правильная и некоторые труженики SEO именно так и советуют делать, но если заглянуть в исходный код страниц, заблокированных через All in One SEO Pack, то увидим следующее:

meta tag robots2.1

Как видите в мета-теге отличается один параметр.

А теперь давайте поближе познакомимся с мета-тегом robots и разберемся: какие параметры он может принимать и на что они влияют.

Мета-тег robots и его параметры

Мета-тег robots очень важный инструмент, с помощью которого можно довольно тонко настроить индексацию сайта, хотя параметров, которые он может принимать, не так много.

Синтаксис настолько простой, что его даже описывать не надо, достаточно просто взглянуть на примеры, кроме того мета-тег robots и его параметры не чувствительны к регистру.

Мета-тег можно написать так:

Привожу список всех параметров мета-тега robots:

index — индексировать текст страницы.
noindex — не индексировать текст страницы
follow — следовать по ссылкам и индексировать их.
nofollow — не следовать по ссылкам и не индексировать их
all — индексировать текст страницы, а также следовать по ссылкам и индексировать их.
none — не индексировать текст страницы, а также не следовать по ссылкам и не индексировать их.

Отсутствие мета тега, автоматически разрешает роботу индексировать текст страницы и все ссылки находящиеся на ней.

Отсутствие параметра, также трактуется роботом как разрешение. Например:

В данном случаи робот не будет индексировать текст, но пройдет по всем ссылками и естественно проиндексирует их. Тоже самое сделает робот если встретит мета-тег robots с такими параметрами:

Если Вы заметили, именно такие параметры проставляет плагин All in One SEO Pack, но об этом чуть позже.

Вот пример полного запрета индексации:

Снятие всех запретов:

Но что будет делать робот, если наткнется на противоречивые директивы? Например:

В данном случаи из двух противоречащих друг другу параметров, робот сделает выбор в пользу разрешающей директивы.

Данный параметр в мета-теге robots наложит запрет на добавление содержимого страницы в кэш поисковых систем:

Здесь надо понимать, что если на страницу наложен полный запрет (noindex, nofollow), то в кэш она тоже не попадет.

Вот в принципе и все параметры, которые может принимать мета-тег robots, надеюсь понятно объяснил, но если будут вопросы, задавайте их в комментариях.

А теперь вернемся к плагину All in One SEO Pack. Как вы поняли, параметры прописанные разработчиками плагина для мета-тега robots, дают разрешение поисковым роботам следовать по ссылкам и индексировать их.

И если открыть доступ к страницам сайта в файле robots.txt и целиком положится на защиту от индексации, любезно предоставляемой вышеупомянутым плагином, то можно забыть: про правильный анкор-лист сайта, а также про экономию времени, отведенного роботу на индексацию сайта, и как следствие, своевременное попадание страниц с полезным контентом в основную выдачу. Кроме всего прочего, плагин не закрывает дубли, создаваемые постраничной навигацией.

О параметрах noindex, follow мы еще поговорим в следующей статье, которая будет полностью посвящена теме — дубли страниц replytocom, так что подписывайтесь на обновления блога .

Еще хотел сказать несколько слов, касательно сравнения файла robots.txt и мета-тега robots. Можно предположить, что мета-тег robots имеет некий приоритет в «глазах» поисковых роботов над директивами файла robots.txt. Хочу заметить, что вопрос приоритета в данном случаи вообще не стоит.

Если директивы файла robots.txt запрещают сканировать страницу и считывать ее содержимое, что, как мы выяснили, не уберегает ее от индексации, то мета-тег robots может быть обнаружен роботом только в процессе сканирования и его директивы вступят в силу только после считывания страницы. Надеюсь разница понятна. Идем дальше.

Как разместить мета-тег robots на страницах

Итак, мы подошли к самому интересному. Сейчас мы займемся внедрением мета-тега robots в исходный код страниц, которые надо закрыть от индексации.

Прежде всего нам надо выявить функции, отвечающие за вывод страниц с дублями контента.

Вот эти функции:

is_category() — функция вывода страниц с категориями;
is_archive() — функция вывода любых архивов;
is_year() — функция вывода архивов по годам;
is_month() — функция вывода архивов по месяцам;
is_day() — функция вывода архивов по дням;
is_date() — функция вывода архивов по датам;
is_author() — функция вывода архивов по авторам;
is_tag() — функция вывода страниц с метками;
is_tax () — функция вывода таксономии произвольных типов записей;
is_attachment() — функция вывода страниц с прикрепленными файлами;
is_paged() — функция вывода постраничной навигации;
is_feed () — функция вывода страницы фида;
is_search()> — функция вывода страниц внутреннего поиска.

Наша задача заключаться в следующем. Нам надо добавить мета-тег robots с запрещающими параметрами noindex, nofollow в исходный код каждой дублирующей страницы, между тегами <head></head>.

Для этого открываем файл functions.php и в самое начало, после php тега <?php , вставляем такую функцию:

Теперь я немного поясню как будет работать данная функция.

Функция добавляет условие, которое будет срабатывать при вызове любой из функций, перечисленных в скобках и с помощью команды echo , добавит мета тег robots в исходный код дублирующих страниц.

Далее, с помощью хука wp_head цепляем наше подготовленное действие к функции wp_head(), которая выведет мета-тег robots в шапку страницы, между html тегами <head><head>.

Как видите сложного ничего нет, но тем не менее, без минимальных знаний в PHP, у нас бы ничего не получилось.

Конечно потребуется время, на то, чтобы страницы выпали из «сопливого» индекса Google, но выпадут они обязательно!

Что такое мета-тег Robots (meta name robots)? 7 основных вариантов + варианты для GoogleBot

мета-тег Robots meta name

При проведении SEO-оптимизации страниц сайта, иногда нужно изменить поведение поискового робота на конкретной странице. Например, запретить ему индексировать её содержание. Или же индексацию разрешить, но не позволять ему переходить по ссылкам. Сделать это можно при помощи специального мета-тега meta name robots.

«Способ применения» данного тега несколько отличается от использования файла Robots.txt — в данном файле можно дать указания поисковому роботу сразу для всего сайта, используя специальные регулярные выражения.

Но если вы хотите скрыть от поисковиков определённую страницу и не прописывать её в Robots.txt ( чтобы вообще никто о ней не знал ), то лучше прописать на самой странице данный мета-тег.

Что такое мета-тег Robots и как его использовать?

Это один из многочисленных тегов, используемых для сообщения роботам и/или браузерам т.н. метаданных (т.е. информации об информации). Среди самых известных и часто используемых:

Что прописывать в тег robots?

Выглядит он так:

пример записи мета тега robots

Вместо многоточия может быть 7 основных вариантов. Каждый вариант — это комбинации специальных указаний index/noindex и follow/nofollow, а также archive/noarchive :

  1. index, follow . Это сообщает поисковикам о том, что нужно произвести индексацию данной страницы (index), а также следовать (follow) по ссылкам, которые есть на странице.
  2. all . Аналогично предыдущему пункту.
  3. noindex,follow или просто noindex . Запрещает индексировать данную страницу, но разрешает роботу переходить по ссылкам, расположенным на ней.
  4. index,nofollow или просто nofollow . Запрещает переходить по ссылкам, но разрешает индексировать страницу — т.е. содержимое страницы будет отправлено в поисковый индекс, но другие страницы, на которые стоят ссылки, в индекс не попадут (при условии, что робот иными способами до них не доберётся).
  5. noindex, nofollow . Указание не индексировать документ и не переходить по ссылкам, содержащимся в нём.
  6. none . Аналогично предыдущему пункту.
  7. noarchive . Данное указание запрещает показывать ссылку на сохранённую копию страницы в результатах выдачи:

Сохранённая копия страницы в Яндекс

Ссылка на сохранённую копию страницы в Яндексе

Если мета-тег Robots не указан, то принимается значение по умолчанию:

значение по умолчанию мета-тега Robots

То же самое происходит, если на странице указано несколько этих тегов.

Все вышеперечисленные варианты понимаются большинством поисковых систем и, в частности, Яндексом. Google тоже хорошо распознаёт эти комбинации, но также вводит кое что ещё:

  • Вместо name=robots можно указать name=googlebot — «обращение» конкретно к роботу Google.
  • content=nosnippet (запрещает показывать сниппеты в поисковой выдаче) и content=noodp (запрещает брать содержимое сниппетов из описания сайта в каталоге DMOZ).
  • content=noimageindex . При поиске по картинкам запрещает отображение ссылки на источник картинки.
  • content=unavailable_after:[date] . В качестве date следует указать дату и время, после которой Гугл перестанет индексировать эту страницу. Едва ли это когда-нибудь пригодится

В общем, Google несколько расширяет содержимое мета-тега Robots.

Куда прописывать meta name robots?

Традиционно, все мета-теги прописываются между «head» и «/head» в HTML-коде страницы.

В WordPress они легко выставляются при помощи популярного плагина All in One Seo Pack:

All in One Seo Pack - meta robots

Мета Robots в All in One Seo Pack

Таким образом, если вам необходимо «спрятать» определённую страницу от поисковых роботов — используйте данный мета-тег.

0 0 голоса
Рейтинг статьи

300 спартанцев фильм 3 дата выхода

warcraft 2 кино дата выхода

пираты карибского моря даты выхода

Ссылка на основную публикацию