Управление индексацией на сайте через robots.txt

Раздел блога: SEO-приёмы | 16 августа 2007, 22:41

Наверняка большинство из читающих мою заметку людей уже знают о существовании этого в общем-то незатейливого файла. Факт в том, что его незатейливость и простота может довольно корректно указать поисковой системе, что же всё-таки индексировать на вашем сайте, а что следует оставить "в тени".

Парадокс весь в том, что эта некоторая простота синтаксиса файла robots.txt скрывает в себе большие проблемы, если его не приручить, т. е. не научиться его правильно составлять. Ведь любая ошибка может стоить вам многого. В этой статье я расскажу вам, как использовать подобный файл с умом и избежать возможных проблем.

Начнём, пожалуй, с истории рождения стандарта robots.txt. Как гласит история, стандарт robots.txt был принят консенсусом 30 января 1994 года и опубликован, с тех пор используется большинством известных поисковых машин.

Позже этот стандарт начинали всячески модифицировать различные поисковые компании, которые внедряли новую функциональность в ранее созданный стандарт.

Как например, компания Yahoo, которая ввела для своего поискового бота YahooSlurp, дополнительную возможность запрета индексации типов файлов по их расширению, добавив возможность использования символов * и $ в полях Disallow. Позже эта возможность была одобрена Google, а затем и "Яндексом" в конце 2007 года. "Яндекс" также добавил возможность использования дополнительного поля Host для определения основного зеркала сайта.

Недавно была добавлена возможность использования ещё одного поля.

Sitemap: http://www.site.ru/sitemap.xml

Поле Sitemap позволяет поисковой системе указать, где находится специальным образом сгенерированная карта Sitemap для сайта, что помогает снять обязанность веб-мастеров каждый раз загружать новую карту Sitemap на сервер поисковой системе и позволить поисковой системе самой загружать Sitemap с сайта. Возможность использования директивы в настоящий момент поддерживается в Google, Yahoo, Ask, Bing и "Яндекс". Тут можно подробнее ознакомиться со стандартом Sitemaps.

Что такое robots.txt?

Robots.txt – это специальным образом оформленный текстовый файл, находящийся в корне сайта, в котором содержатся директивы, следуя которым поисковая система может понять стратегию индексирования информации на вашем сайте.

Структура robots.txt:

Файл состоит из полей. Структура полей такова: сначала идёт информация о том, какой поисковик должен следовать указаниям в директиве (строка содержит User-Agent поискового бота или *, как рекомендация для всех поисковых систем), далее идёт поле Disallow, в котором указывается название объекта, который необходимо скрыть от индексирования.

Раздел рекомендаций между инструкциями для одной поисковой системы распознаётся от раздела рекомендаций для другой поисковой системы пустой строкой, а раздел, в свою очередь, формируется полем User-Agent. В одном разделе может быть сразу несколько полей User-Agent, начинающихся с новой строки.

Стандарт robots.txt поддерживает комментарии. Всё, что начинается от символа # до конца строки, является комментарием.

Строки файла robots.txt являются регистрозависимыми (primer.html и Primer.html - разные файлы).

Следует заметить любопытный факт, что файл robots.txt создавался и создаётся с основной целью – запрета индексации, следовательно, и все поля, в нём прописанные, явно указывают на запрет индексации частей сайта. Однако поисковые системы постепенно вводят поле Allow, которое всегда должно стоять раньше директивы Disallow, но пока официально оно не признано, хоть и используется некоторыми поисковыми системами (Например, "Яндексом", Google и Bing).

Некоторые поисковые системы используют собственные "информационные" директивы. В Bing Live и "Яндексе" через robots.txt реализована установка значения скорости индексации документа. Делается это так:

User-agent: MSNbot
Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.

User-agent: Yandex
Crawl-delay: n где n - величина задержки в секундах перед индексированием очередной страницы.

В начале 2009 года в поисковой системе "Яндекс" введена директива Clean-param, при помощи которой веб-мастер может указать, как индексировать динамические параметры, которые не влияют на содержание страницы. Это могут быть различные идентификаторы сессий, пользователей и т. д., что увеличивает эффективность индексации страницы. (Ознакомиться с ней можно здесь).

Пример одного из составленных файлов robots.txt:

User-agent: *
Disallow: /User-agent: Googlebot
Disallow: /text/

Это важно знать:

1) Файл robots.txt должен находиться только в корневой директории сайта, только тогда он будет учитываться поисковыми системами.

2) Называть файл необходимо robots.txt, Robots.txt будет уже ошибкой.

3) На каждой строке должно быть поле Disallow, запрещающее индексацию только одного объекта. Если нужно запретить несколько директорий или файлов, то для этого пишем поле Disallow на каждой новой строке. В записи должно быть хотя бы одно поле Disallow. Также не забудьте про поле User-Agent - оно не должно быть пустым (либо *, либо имя робота). Если используется директива Allow, то она всегда должна стоять раньше Disallow.

4) Запомните простые комбинации:

Disallow: - разрешение индексировать всё содержимое сайта,
Disallow: / - запрет на индексацию всего сайта.
Disallow: /name – запрет на индексацию любых файлов и директорий, которые называются или имеют в своём названии name.
Disallow: /name/ - запрет на индексацию директории name.
Disallow: /*.gif$ - запрет на индексацию всех файлов, имеющих расширение .gif.
Disallow: /name.php – запрет на индексацию файла name.php.
Disallow: /name.php?action=print – запрет индексации переменной, например, страниц для печати.
Allow: / - всё наоборот (разрешается индексировать), синтаксис такой же, как и с Disallow
# - при помощи решётки можно писать комментарии: они не учитываются роботами поисковых систем и носят сугубо информативный характер.

5) Поле Host используется "Яндексом" для определения основного зеркала сайта. Например, так: Host: www.site.ru. Это поле говорит поисковой системе "Яндекс", что в результатах поиска лучше выводить именно такую ссылку на ваш сайт (с www).
Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Важно помнить, что если вы хотите, чтобы поисковая система "Яндекс" приняла во внимание директиву Host в вашей файле, то создайте одинаковые файлы robots.txt на всех "зеркалах" сайта. Только тогда зеркальщик "Яндекс" выделит главное зеркало, согласно данным в Host.

6) Поле Sitemap используется для указания поисковой системе, где находится сгенерированная для поисковых систем карта сайта.(Sitemap: http://www.site.ru/sitemap.xml). Применяется в Google, Ask, Yahoo, Bing и "Яндекс".

User-Agent: Yandex
http://www.site.ru/sitemap-main.xml
http://www.site.ru/folder/sitemap-second.xml
# В случае, когда на сайте используется несколько файлов Sitemap, то их желательно перечислить в файле robots.txt

7) Если инструкции задаются для нескольких поисковых систем, то поля User-Agent
должны вводиться через перевод строки (клавишу Enter).

Вот так:

User-Agent: msnbot
User-Agent: Slurp
Disallow: /admin/

Ошибки в файле robots.txt:

1) Неверный порядок расположения полей:

Неправильно:

Disallow: /
User-agent: *

Правильно:

User-agent: *
Disallow: /

2) Совершаются синтаксические ошибки:
Нет пустой строки:

Неправильно:

User-agent: Googlebot
Disallow: /
User-agent: *
Disallow:

Правильно:

User-agent: Googlebot
Disallow: /User-agent: *
Disallow:

Ошибки в синтаксисе Disallow:

Disallow: * (приводит к запрету на индексацию всего сайта).
Disallow: /text/ /text2/ (нельзя использовать одно поле для разных директорий).

Правильно:

Disallow: /text/
Disallow: /text2/

Поле User-Agent:

User-agent: (поле не должно быть пустым)

Поле Host:

Неправильно:

Host: http://www.site.ru/ # (нельзя использовать протокол и слеш в конце)
Host: .site.ru # (любые ошибки в написании доменных имён не допустимы)
Host: 200.114.47.5 # (указан IP вместо адреса)

Правильно:

Host: www.site.ru
или
Host: www.site.ru:8080
# - если ваш сайт доступен по какому-то другому порту (стандартный порт 80, если используется именно он, то его не указывают).

Желательно делать так:

Не пишите все поля с больших букв, комментарии лучше переносить на новую строку. С осторожностью используйте дополнительные директивы (Host, Crawl-Delay): убедитесь, что поисковые системы способны их правильно трактовать. Неправильные действия могут вызвать недопонимание тех систем, которые не используют эти поля, а также не забывайте, что поле Disallow должно быть даже тогда, когда некоторые поисковые системы игнорируют его. Не создавайте размер файла robots.txt больше, чем 256 килобайт.
На этом всё, спасибо за внимание.

Перейти в начало страницы

Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).

Количество комментариев: 220

vitaweb:
20 августа, 2007 г. в 9:16 pm
Написание этой статьи меня подтолкнуло к подключению информации о моей карте сайта в этом файле.
anetta:
17 октября, 2007 г. в 8:37 am
Хороший материал, спасибо!
Только кажется в этом разделе ошибка:

"2) Совершаются синтаксические ошибки:
Нет пустой строки:
...
Правильно:

User-agent: Googlebot
Disallow: / User-agent: *
Disallow:"

а где пустая строка?

И еще тут:

"Правильно:

Host: www.site.ru/"

зачем слэш в конце?
Олег:
2 марта, 2008 г. в 4:25 am
Не полностью раскрыта тема. Не показан запрет на индексацию ссылок.
Anna:
17 мая, 2008 г. в 9:40 am
Как запретить индексацию только определённому роботу.
Например Яндексу?
Serg:
31 мая, 2008 г. в 1:18 pm
А можно например разрешить индексацию сайта только Яндексом, Рамблером и Гуглей, а всем остальным типа МСН и Яху запретить? Как это правильно оформить?
Serg:
15 июня, 2008 г. в 12:02 am
На последний вопрос ответа не будет?
Anti Вepressant:
27 июня, 2008 г. в 11:37 am
А как удалить уже попавшие в индекс Google страницы с помощью robots.txt?
Автор блога Виталий:
30 июня, 2008 г. в 7:38 pm
Anti Вepressant, вот так:

User-agent: Googlebot
Disallow: /

В статье об этом написано. Читайте внимательно.
ELF0007:
13 июля, 2008 г. в 9:02 am
А можно просто в пхп код страницы вставить код который будет редирект ставить на другую страницу)
главное никто кроме яндекса небудет знать что его обманывают. вот такой своего рода клоакин)
Дмитрий:
23 ноября, 2008 г. в 7:14 am
Есть идея закрыть от поисковиков каталог, в котором лежит php файл с обратными линками на каталоги. Вычисляется ли данное действие ботами каталогов?
Автор блога Виталий:
28 ноября, 2008 г. в 1:16 am
Дмитрий, в основном, да
Vladimir:
20 декабря, 2008 г. в 3:07 pm
Anti Вepressant:
27 июня 27, 2008 г. в 11:37 am
А как удалить уже попавшие в индекс Google страницы с помощью robots.txt?

Автор блога Виталий:
30 июня 30, 2008 г. в 7:38 pm
Anti Вepressant, вот так:

User-agent: Googlebot
Disallow: /

Ответ: НУ-НУ, это шутка? Закрыли весь сайт от индексаии гугла!
Сергей:
9 января, 2009 г. в 3:25 pm
И здесь ни слова о фреймовых сайтах.
Автор блога Виталий:
13 января, 2009 г. в 2:28 am
Vladimir, это один из способов удалить страницы из индекса Google. Вопрос был про это.

Vladimir, фреймовый сайт - это всего лишь набор нескольких страниц, которые открываются в одном окне. Если вам нужно запретить индивидуальную индексацию страниц, то блокируйте нужные страницы от индексации, которые открываются во фрейме.
Otzyvy:
16 января, 2009 г. в 11:22 pm
А для яндекса общего кода достаточно?
Автор блога Виталий:
17 января, 2009 г. в 3:27 am
Otzyvy, что подразумевается под "общим кодом"?
РоботЯга:
7 февраля, 2009 г. в 9:59 am
А помоему лучше вообще фреймовые сайты (по возможности, конечно) не использовать - это только запутывает роботы и усложняет индексацию
Анатолий:
14 февраля, 2009 г. в 8:40 pm
mysoftmaster.ucoz.ru а почему этот(мой) сайт не хочет индексироватся?
Admin:
23 февраля, 2009 г. в 5:46 pm
еще бы дописать о запрете индексирования ссылок,а так статья в целом не плохая.+1
admingarant:
14 марта, 2009 г. в 5:54 am
а как попасть в эту самую корневую директорию?
Павел:
8 июня, 2009 г. в 10:11 am
Что будет если разместить Satemap не в корне сайта
alex:
25 августа, 2009 г. в 1:27 pm
Спасибо за статью! у меня вопрос:
почему страницы закрытые с помощью robots.txt попадают в дополнительные результаты? значит гугл эти страницы все таки индексирует?
Автор блога Виталий:
30 августа, 2009 г. в 11:26 am
alex, информация, которая содержится в файле robots.txt, носит рекомендативный характер, поэтому всё зависит от политики самой поисковой системы.
IncognitoSS [HepB]:
11 октября, 2009 г. в 6:17 pm
Подскажите пожалуйста, как через robots.txt запретить поисковикам и ндексацию вот этой категории(интернет магазин) bez-predela.net/shop.php/ яндекс пишет в вебмастере, что слишком много ссылок и мне хотелось бы запретить индексацию этой категории, дабы не влететь в бан.
Автор блога Виталий:
16 октября, 2009 г. в 3:30 pm
IncognitoSS, попробуйте так:

User-agent: Yandex
Disallow: /shop.php/

В данном случае, мы запрещаем индексировать файлы, содержащиеся в категории shop.php.
Евгений:
13 ноября, 2009 г. в 6:19 pm
Я в растерянности:Яндекс не хочет индексировать домены текелау,хоть убей
nstudio.tk
snflowers.tk
Они на бесплатных хостингах, но открыты к индексации, в нихесть файл роботс,но толку мало.
Что делать?
Автор блога Виталий:
13 ноября, 2009 г. в 8:44 pm
Евгений:
Как давно подавали заявку на индексацию?
IncognitoSS [HepB]:
14 ноября, 2009 г. в 11:35 pm
Автор блога Виталий: Спасибо!
Alex:
26 ноября, 2009 г. в 10:48 am
Как проинтексировать в яндексе домен .tk (проблема как у Евгения)
Автор блога Виталий:
28 ноября, 2009 г. в 3:47 pm
Alex
Домены .tk индексируются "Яндексом" на общих основаниях и никаких ограничений на их индексацию нет. Опишите, пожалуйста, как давно эксплуатируется сайт, который обслуживается этим доменом? Какие методы первоначальной раскрутки использовались? Обязательное условие: сайт должен быть на русском языке!

Насколько мне известно, в "Яндексе" в приоритете индексирования стоят домены .RU и .SU, а также стран СНГ. Остальные на общих оснвованиях, и их первичная индексация может происходить несколько месяцев.

Если домен не индексируется дольше 3 месяцев, то есть смысл написать в службу поддержки "Яндекса".
Superman:
6 января, 2010 г. в 6:31 pm
Не так давно зарегил 3 сайта .tk, яндекс отлично все проиндексировал. Примерное неделю ждал.Помочь в индексации может следующее: делаем sitemap и на него 2-3 ссылки с сапы покупаем.
Эльвира:
1 февраля, 2010 г. в 2:11 pm
Огромное спасибо!
А как закрыть от индексации в файле robots.txt счетчики, например, liveinternet или mail?
Автор блога Виталий:
6 февраля, 2010 г. в 5:22 pm
Эльвира:

Счётчики не являются поисковыми системами, поэтому из закрыть нельзя. Возможно, вы имеете в виду роботы, обслуживающие поиск на этих порталах? Для портала Mail.ru можно попробовать закрыть информацию для робота от Gogo.ru, т. к. поисковая база именно этой системы используется в данный момент на портале Mail.ru.
Евгений:
8 февраля, 2010 г. в 5:32 pm
Скажите, а как запретить индексирование отдельных статей в каталоге?
Алексей:
9 февраля, 2010 г. в 1:07 pm
Подскажите пожалуйста с первым сайтом никаких проблем не было , а со вторым такая история, при анализе сайта определяется стандартный robots.txt закрывающий доступ на индексацию написал свой как на первом сайте, открывающий доступ для индексации всего сайта, но при просмотре все равно выскакивает стандартный, сайт на ucoz. В общем никак не могу изменить стандартный robots.txt на свой
Евгений:
11 февраля, 2010 г. в 8:49 pm
Ответ Алексею.На Ucoze, если сайт только создан, сайт находится на карантине в течении 30 дней. Поэтому Robots.txt изменить нельзя.
Mariya:
15 февраля, 2010 г. в 5:30 pm
Сегодня яндекс выкинул почти все страницы, что-то с файлом robots.txt, какая-то ошибка, что делать не знаю.
Автор блога Виталий:
16 февраля, 2010 г. в 8:41 pm
Евгений:
Спасибо вам большое за помощь в ответе на комментарии.

Mariya:
Добавьте ваш сайт в панель "Яндекс.Вебмастер". В этой панели есть встроенный анализатор файлов robots.txt. Если что-то не так, сама поисковая система даст вам об этом знать. Если ваш сайт уже добавлен в эту панель, то внимательно изучите ошибки индексации, которые могли иметь место быть.
Не исключён также вариант, что выброс страниц из индекса временный в связи обновлением поисковой выдачи или же произошла ошибка, которая сама собой разрешится в результате следующего обновления индекса поисковой системы.
Если ничего не помогает, обратитесь в службу поддержки Яндекса через специальную форму.
Kano:
1 марта, 2010 г. в 8:43 am
Хорошо, но если я хочу запретить индексацию внутренних поддиректорий - то какой будет синтаксис?
advardss:
3 марта, 2010 г. в 1:58 pm
Всех женщин с наступающим женским днем.
Подскажите пожалуйста, как грамотно прописать robots.txt , чтобы исключить для индексации некоторые страницы только для Яндекса, а всем остальным сайтам дать добро на полную индексацию.
за ранее спасибо.
Автор блога Виталий:
6 марта, 2010 г. в 4:29 pm
advardss:

Синтаксис вашего файла будет выглядеть примерно так (чтобы что-то запретить делать Яндексу, достаточно указать его User-agent в этой строке, затем прописать файлы, которые вы планируете запретить для индексации, для остальных поисковых систем используем символ *, между 2-мя правилами обязательно должна быть пустая строка):

User-agent: Yandex
Disallow: /name.php

User-agent: *
Disallow:

Kano:
В вашем случае для запрета индексаций внутренних директорий, вы должны в файле перечислить все те директории, которые индексировать роботу поисковой системы не стоит. Синтаксис в таком случае будет примерно таким (где name, name2 и name 3 - имена поддиректорий сайта):

User-agent: *
Disallow: /name/
Disallow: /name2/
Disallow: /name3/
Somblya:
6 марта, 2010 г. в 8:28 pm
Помогите пожалуйста разобраться что мне на сайте запретить к индексации? И как правильно это сделать?
Мне многие говорят, что у меня много ненужно открыто к индексированию. И этим я порчу продвижение сайта.
Я вроде и так позакрывал что додумался.
Автор блога Виталий:
11 марта, 2010 г. в 1:54 am

Somblya:
Запрещайте к индексации всё, что непосредственно не относится к контенту сайта.
Владимир:
12 марта, 2010 г. в 8:50 am
И все-таки, какой максимальный размер SITEMAP на сегодня (в килобайтах, количестве URL, etc)? У меня есть новый сайт на 14000 страниц - на сколько файлов бить карту?
Lektor:
13 марта, 2010 г. в 11:35 am
Если не трудно, товарищи разясните. Сайт существует уже пол года ни разу не было поискового робота, посещяемость есть, сайт наполнен. В корневой дерриктории нет документа robots.txt
В адресную строку после своего сайта ввожу robots.txt
выдаёт
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search

исправить не могу

Составлю и помещю robots.txt документ,

User-agent: *
Disallow:

будет правильно? Будут роботы индексировать? Или что сделать подскажите?
Автор блога Виталий:
14 марта, 2010 г. в 2:53 am
Владимир:
Один Sitemap-файл может содержать в себе не больше 50 000 адресов и быть объёмом не больше 10 мегабайт (можно сжать gzip). Тут важно, чтобы размер файла был не больше 10 мегабайт.

Lektor:
Да, вы правильно составили файл, в таком случае ваш сайт будут индексировать поисковые системы.
Рома:
14 марта, 2010 г. в 2:11 pm
Иногда приходится очень долго ждать пока страница проиндексируется, а иногда это происходит очень быстро.
С чем это связано и какие самые надёжные способы чтобы ускорить индексацию?
Автор блога Виталий:
16 марта, 2010 г. в 8:42 pm
Рома:
Скорость индекскации вашего сайта зависит от множества факторов, среди которых могут быть и доступность вашего сервера, качество и количество ссылок, которые ссылаются на сайт, частота обновления самого сайта. Многие оптимизитары считают универсальным показателями, которые могут привести к увеличению скорости индексации сайта, именно увеличение скорости публикации контента на сайте, а также постоянный прирост качественных внешних ссылок на уже созданные страницы сайта.
Димон:
17 марта, 2010 г. в 12:19 pm
Здравствуйте!
У меня такой вопрос. Вот я хочу запретить все страницы, в URL которых есть знак вопроса. Нужно добавить директиву
Disallow: /?

Правильно?
***
Ну и вообще мне интересно выполнение правила вида "Запретить к индексации все страницы, содержащие XXX".
Как это реализовать? Спасибо
Дмитрий:
18 марта, 2010 г. в 10:53 am
Помогите пожалуйста как запретить индексацию динамической страници, например вот такой /product.php?view_product=10401 Заранее спасибо
Максим:
18 марта, 2010 г. в 9:27 pm
Уважаемые пользователи 2 недели назад мой сайт перестал индексироваться написав в яндекс ответа уже 10 дней нет, делаю в яндекс-вебмастер запрос робот.тхт он выдает:

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search

где он это берет ведь фаила нет и я его несоздавал???

я создал фаил и прописал внем вот это:

User-agent: *
Disallow:

и все правильно ли это для индексации всего сайта во всех поисковых системах или надо так:

User-agent: Yandex
Allow: /

и как создать сайт мап??? или он сам создается??? заранее спасибо буду очень признателен быстрому ответу и особенно в аську 115-00-14 заранее спасибо
Автор блога Виталий:
20 марта, 2010 г. в 1:48 am
Димон:
Знак вопроса (?) - это часть URL-адреса, через которую передаются параметры запроса. В адресах страницы этот символ не встречается, поскольку это служебный оператор.
Но вы можете запретить переменную после знака ?.
В статье такой пример уже был разобран:

User-agent: *
Disallow: /name.php?action=print

В данном случае мы запрещаем переменную action со значением print
Запретить к индексации все страницы, содержащие XXX, можно через регулярные выражения. В статье тоже об этом была информация, воспользуйтесь символами *необходимое символы, идущие подряд в файле, для запрета$

Дмитрий:
Прописываем целиком эту страницу со всеми параметрами.

Максим:
У вас, вероятно, хостинг от Ucoz. Насколько я знаю, этот хостинг ставит ограничение для всех новых сайтов и невозможность редактировать файл robots.txt первое время. Для решения этой проблемы обратитесь в службу поддержки.

Разрешение индексировать все документы сайта:
User-agent: *
Disallow:

Информацию о том, как создавать файл Sitemap, вы можете найти в моей статье: http://dataword.info/sitemaps-google.php
Димон:
22 марта, 2010 г. в 1:02 pm
Спасибо, Виталий!
Меня просто смущает *name.php
User-agent: *
Disallow: /name.php?action=print
***
Я бы запретил так:
User-agent: *
Disallow: /?action=print
или так нельзя?
**********************
Оператор * я понимаю так
1) Например, мне нужно запретить всё, что заканчивается на index.php, тогда я пропишу так
Disallow: /*index.php
2) Для запрета того, что начинается на букву z, я бы прописал так:
Disallow: /z*
***
Много напутал?
Автор блога Виталий:
23 марта, 2010 г. в 11:12 pm
Димон:
Всё зависит от того, какие страницы сайта уже есть в индексе поисковой системы. Если в поиске присутствуют URL site.ru/?action=print, то тогда и в robots.txt так же пишем, если site.ru/index.php?action=print, то запрещаем после слеша именно комбинацию index.php?action=print. Важно избежать дублей страниц в поиске и избегать параметров ссылок, которые влияют на URL. Нужно избегать факт загрузки по разным URL одной и той же страницы.

1) чтобы запретить все файлы index.php, нужно прописать все директории, которые содержат этот файл.
User-agent: *
Disallow: /index.php
Disallow: /content/index.php

Конструкция:
Disallow: /name
Запретит индексацию и файлов и папок, которые имеют комбинацию name.

Disallow: /z
запрет всего, что начинается на z

* символ чаще всего используется в User-Agent, поэтому лучше избегать избыточного его использования в файле robots.txt. А если есть необходимость использовать * как регулярное выражение, то тогда в связке с $.
Димон:
24 марта, 2010 г. в 3:19 pm
Понял! Огромное спасибо.
Просто подбираю сейчас оптимальный роботс для Джумлы.
Света:
25 марта, 2010 г. в 4:57 pm
Вот это я понимаю, понятное объяснение.
Подскажи звездочка
User-agent: *
обозначает, что запрет относится к вышеназванному поисковику?
Автор блога Виталий:
25 марта, 2010 г. в 8:45 pm
Света:
User-agent: *
Эти правила со знаком * относятся ко всем поисковикам.

Если нужно задать для какого-то отдельного поисковика свои правила индексации, то указываем его в User-Agent вместо звёздочки.
Например:
User-agent: Yandex
В данном случае мы регулируем порядок индексации сайта для "Яндекса".
Наталия:
26 марта, 2010 г. в 3:59 am
хорошая статья, спасибо!
Света:
7 апреля, 2010 г. в 9:29 pm
Здорово объясняешь,
мы проделали с корпоративным сайтом перезеркаливание и редирект 301 на основной домен, но что-то долго ничего не происходит. Хотя я знаю, надо ждать...
ille:
23 апреля, 2010 г. в 11:37 am
Kак запретить к индексации дубли джумлы? Урлы страниц-дублей оканчиваются "=999999".
Автор блога Виталий:
23 апреля, 2010 г. в 12:35 pm
ille:
В файле robots.txt можно прописать не только названия директорий, запрещённых к индексации, но и файлов. Если таких дублей немного, то, думаю, будет смысл прописать эти страницы.
Если же нет, то пропишите запрет на индексацию файлов по определённой схеме.
Дмитрий:
25 апреля, 2010 г. в 3:25 pm
Можно ли делать запреты такого вида "Disallow: /index.php?" ?
Автор блога Виталий:
25 апреля, 2010 г. в 7:16 pm
Дмитрий:
Да, можно, но нужно делать уточнение, какую именно переменную и с каким значением не индексировать.
Алик:
27 апреля, 2010 г. в 11:28 am
Долго искал статью о роботсе, где бы было доходчиво написано для таких чайников как я. Спасибо за доступное объяснение.
Владимир:
30 апреля, 2010 г. в 8:19 am
А какие права нужно поставить на файл robots.txt чтобы робот мог его прочитать, а остальные по запросу site.ru/robots.txt - нет?
Автор блога Виталий:
1 мая, 2010 г. в 1:33 pm
Владимир:
Скорее, вам нужно редактировать не права, а настроить веб-сервер таким образом, чтобы он обрабатывал User-Agent и от его значения принимал решение, блокировать доступ к файлу или нет. Если вы используете веб-сервер Apache, то реализовать это можно в файле .htaccess
AIvPetrov:
11 мая, 2010 г. в 4:23 pm
Хорошая инструкция, спасибо! А то никак не могу из индекса ненужную страницу удалить..
Anton:
11 мая, 2010 г. в 6:08 pm
Здравствуйте, очень интересная статья, но самое приятное что автор отвечает на вопросы без коронных фраз многих специалистов "Ищи и найдёшь", у меня такой вопрос на который я нигде не могу найти ответ, буду надеяться на Вашу подсказку. У меня есть интернет магазин на джумле 1.5, сложилась такая ситуация каждая страница товара имеет два урл адреса,
/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1
и
/component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0

оба индексируются,я хочу второй закрыть для индексации, подскажите пожалуйста как мне это сделать? всё обыскал, но ответа не нашёл(((
Автор блога Виталий:
11 мая, 2010 г. в 9:05 pm

Anton:
Знаете, я бы поработал с движком Joomla. Дело в том, что URL, которые она геренирует в обычном режиме, совершенно неудобны для понимания. Часто вызывают нарекания как людей, которые пользуются сайтом, из-за невозможности запомнить такую ссылку, так и сложности индексации сайта поисковым системам. Многие веб-мастеры настраивают движок на ЧПУ-адреса (человекопонятные урлы).
Если ваш сайт был недавно проиндексирован, и пока что посещаемость не так велика, то имеет смысл переделать URL на более короткие и запоминающиеся.
Ознакомьтесь со следующими статьями:
http://joomlaportal.ru/content/view/100/53/
http://www.seo-joomla.net/ru/seo-optimizatsiya-joomla-1.5.html

Во второй статье даются очень хорошие примеры, которые помогут настроить движок с точки зрения SEO, чтобы избежать возможных проблем в индексации контента на сайте.
Anton:
12 мая, 2010 г. в 1:58 am
понимаете,дело в том что это уже ссылки ЧПУ, у меня стоит sh404SEF (если я не ошибаюсь он так называется), и все ссылки у меня выглядят благородно вот так: "http://site.ru/press.html", а вот со страницами на которых находится товар, т.е. грубо говоря на страницах где есть кнопочка "Купить" существует такая проблема которую я описал в предыдущем сообщении.
Хочу заметить, что эти ссылки, которые я представил в прошлом сообщении гораздо понятнее и короче чем были до того как я установил ЧПУ, а были они такими: "http://site.ru/index.php?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1&vmcchk=1&option=com_virtuemart&Itemid=1"

Хочу заметить что таких страниц у меня всего девять.
Я как понимаю должен сейчас закрыть к индексации:
"http://site.ru/component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0"

Будет ли корректным и не будет ли закрывать к индексации ссылки "http://site.ru/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1"
Если я сделаю как было указанно у вас на примере, в роботс напишу такую строчку:
Disallow: /pop*
или как правильно сделать?
Я уже запутался, помогите пожалуйста разобраться
Автор блога Виталий:
12 мая, 2010 г. в 12:19 pm

Anton:
Если страниц у вас всего 9, то, я думаю, можно каждую со всеми параметрами (если ссылка каждый раз постоянная и не генерируется каждый раз заново с новыми параметрами) перечислить в файле robots.txt для того, чтобы исключить их из индекса поисковой системы.

Disallow: /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0

А после того, как их пропишете, воспользуйтесь формой http://webmaster.yandex.ru/delurl.xml "Яндекса", в которой можно исключить запрещённые к индексированию страницы из поиска. Желательно также вообще как-нибудь убрать из шаблона эту ссылку или подменять её другой.
Anton:
12 мая, 2010 г. в 2:34 pm
Спасибо Вам большое!
А скажите пожалуйста /component/virtuemart/ будет индексироваться тогда в других урлах?
в этом в том числе: "http://site.ru/component/virtuemart/?page=shop.product_details&flypage=flypage.tpl&product_id=1&category_id=1".
А как у Гугла можно убрать из страницы из поиска?
Автор блога Виталий:
12 мая, 2010 г. в 10:10 pm
Anton:
Инструкция по удалению страницы из Google:
1) Создайте (если у вас ещё нет аккаунта на "Инструментах веб-мастера Google") аккаунт (https://www.google.com/webmasters/tools/).
2) Добавьте и подтвердите права на владение сайтом
3) После того, как вы пройдёте эти шаги успешно, зайдите в "Инструменты " https://www.google.com/webmasters/tools/
/>
В подразделе "Конфигурация сайта - Доступ для сканера" выбираете пункт "Удалить URL" и создаёте заявку (предварительно запретите эти файлы в robots.txt).

Как правило, поисковая система учитывает все символы в URL, включая и переменные с параметрами в адресной строке, поэтому если вы укажете конкретную переменную с конкретным значением, то удалится из индекса страница именно с этими переменными и параметрами.
/component/virtuemart/ - в других URL должна индексироваться, т. к. в robots.txt будет указан точный адрес той или иной страницы.
Anton:
16 мая, 2010 г. в 3:55 pm
Всё что Вы сказали сработало)
Но вот я хотел выяснить один интересующий меня момент!

Если я в Роботс пропишу вместо
Disallow: /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0

Disallow: /*pop*
или
Disallow: /pop

это будет правильным решение? или тогда тоже блокироваться будут ссылки в которых есть часть: /component/virtuemart/?page=shop.product_details&product_id=1
Автор блога Виталий:
17 мая, 2010 г. в 10:34 pm

Anton:
Disallow: /*pop* - такое оформление вам не поможет, т. к. * используется для обозначения User-Agent. Если вы хотите пользоваться регулярными выражениями для того, чтобы настроить индексацию, то нужно использовать символ * в совокупности с ? и специальный синтаксис, по которому задаются регулярные выражения.

Disallow: /pop - такая конструкция будет запрещать индексировать все файлы и папки сайта, названия которых НАЧИНАЮТСЯ с pop.
Андрей:
20 мая, 2010 г. в 8:33 pm
А если на сайте не 9, а ~700 страниц подобного вида /component/virtuemart/?page=shop.product_details&product_id=1&flypage=flypage.tpl&pop=0

И переделака/доработка cms это последний вариант решения проблемы, то как можно всё таки их закрыть одним правилом через robots.txt, или же это невозможно?

Спасибо!
Автор блога Виталий:
22 мая, 2010 г. в 11:55 pm
Андрей:

Как вариант, выделить общую часть URL у всех этих 700 страниц и прописать её в robots.txt в виде одной строки.

В файл robots.txt можно помещать не больше 256 000 символов.
Anton:
24 мая, 2010 г. в 3:07 am
Спасибо большое, мне Ваши советы очень помогли!

Подскажите пожалуйста для общего развития, если есть ссылки подобного типа http://site.ru/vmchk/igri.html и http://site.ru/igri.html а хочу что бы первый вариант не индексировался можно в Робот прописать:

Disallow: /vmchk

при этом будут ли индексироваться ссылки http://site.ru/igri.html ?
Автор блога Виталий:
24 мая, 2010 г. в 10:26 pm
Anton:
Disallow: /vmchk - такая директива будет запрещать индексацию ВСЕХ объектов от корня сайта, которые НАЧИНАЮТСЯ с этих симоволов. Т.е. будет запрещена индексация файлов и директорий, содержащих в себе такую начальную комбинацию от корня сайта.

Пример:
vmchk1111 - если, допустим, на сайте будет такая папка, то её индексация будет невозможна
vmchk-file.php - если на сайте будет (в корне сайта) такой файл, то его индексация тоже будет невозможна.

В вашем случае это поможет запретить к индексации файл по URL http://site.ru/vmchk/igri.html

Поскольку во втором URL не содержится комбинации vmchk, то страница будет индексироваться.
Наталья:
28 мая, 2010 г. в 8:06 am
Скажите а такой файл правильный,
User-agent: *
Disallow:
Автор блога Виталий:
29 мая, 2010 г. в 8:37 pm
Наталья:
Да, правильный. Будет разрешено индексировать всё содержимое сайта.
Larisa:
14 июня, 2010 г. в 12:48 pm
Пожалуйста, помогите исправить ошибку - как раз по теме!
Яндекс-метрика пишет:
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Страницы с ошибкой
Документ запрещен в файле robots.txt
Файл robots.txt содержит директиву, запрещающую роботу Яндекса индексирование этого документа. Чтобы робот мог проиндексировать документ, удалите запрещающую директиву. Ничего не запрещала:(
Три страницы выпали из индекса.
Что делать?
Автор блога Виталий:
16 июня, 2010 г. в 12:18 pm
Larisa:
Дайте ссылку на ваш файл robots.txt. Без анализа самого файла трудно что-либо сказать.
Gelik:
25 июня, 2010 г. в 2:50 am
Здравствуйте, так и не понял из вашей статьи - можно ли запретить индексацию url адресов, содержащих определенный символ?
Например, у меня имеется очень много url адресов содержащих символ " = ", все эти адреса я хотел бы запретить к инднксации. Вот примеры таких url -
www.site.ru/index.php?option=com_virtuemart&Itemid=1&
www.site.ru/index.php?page=shop.product_details&
www.site.ru/index.php?category_id=32&
www.site.ru/index.php?flypage=flypage_images_1.tpl
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0

Это не все возможные варианты, вариантов очень много, всех их объединяет одно, в каждом url есть символ " = ".

Скажите пожалуйста, можно ли одной строчкой запретить индексацию всех url адресов, содержащих этот символ?
Автор блога Виталий:
30 июня, 2010 г. в 12:39 pm
Gelik:
Запретить индексировать всё можно при помощи регулярных отношений, но стоит ли идти на такой крайний шаг. Ведь символ "=" служит символом присваивания переменной определённого значения. В некоторых случаях даже при помощи этого символа отдаются страницы сайта. Стоит ли идти на такие крайние меры?

Я бы вам посоветовал запретить к индексации ненужные переменные. Например, так:
Disallow: /index.php?option
Disallow: /index.php?page
Disallow: /index.php?category_id
Disallow: /index.php?flypage

Блокировать по символу "=" нецелесообразно, т. к. это служебный символ, и него одна функция в строке URL.
Gelik:
30 июня, 2010 г. в 9:03 pm
Спасибо за ответ, скажите, а как же быть с адресами такого вида? :
www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0

Здесь после html идут ненужные символы, такие страници нужно тоже запретить к индексу, наверное это делается так?
Disallow: /.html?

По поводу целесообразности - на моем сайте установлен ЧПУ и все страници имеют такой вид:
http://site.ru/index.php?/Detskie_kolyaski.html
http://site.ru/index.php?/Detskie_kolyaski/Detskie_kolyaski_2_v_1.html
http://site.ru/index.php?/Detskaya_kolyaska_2_v_1_ABC_Design_Turbo_3_S_Germaniya.html

Другие, левые страницы я (и уверен что и Яндекс ) видить не хотим. Сайтом управляет joomla, это такая СМС, которая может генерить такие страници десятками в течении месяца. Если делать, так как вы советуете, а именно -
Disallow: /index.php?option
Disallow: /index.php?page
Disallow: /index.php?category_id
Disallow: /index.php?flypage

То я боюсь, что просто не смогу быть уверен, что указал все возможные варианты в робот.тхт, поэтому целесообразней будет как раз запретить все url содержашие символ " = ", этот вариант удалит все текущие, не нужные страници и не даст попасть в индекс новосгенеренным. Скажите пожалуйста, как это можно реализовать?
Автор блога Виталий:
1 июля, 2010 г. в 1:37 am

Gelik:
Заблокировать все страницы с расширением .html можно при помощи регулярных выражений:

Disallow: /*.html$

Такой синтаксис исключит абсолютно ВСЕ страницы с расширением .html. Если ваша CMS генерирует именно страницы с таким форматом, то вы ЗАПРЕТИТЕ ИНДЕКСАЦИЮ ВСЕХ ФАЙЛОВ САЙТА (т. к. все контентные страницы имеют это расширение).

Заблокировать все страницы, содержащие "=", я вам не рекомендую, поскольку в некоторых случаях этот символ используется для создания команд, поисковики эту строку могут некорректно интерпретировать.

Советую вам блокировать имена переменных, которые создаёт эта CMS:

Disallow: /*fontstyle$

В этом случае будут заблокированы все файлы с переменной fontstyle, а также файлы, которые в своих именах будут содержать эту комбинацию символов.
Gelik:
1 июля, 2010 г. в 2:17 am
Виталий, прошу уточнить послдний момент, вы написали -

"Disallow: /*fontstyle$

В этом случае будут заблокированы все файлы с переменной fontstyle, а также файлы, которые в своих именах будут содержать эту комбинацию символов."

Вы пишете, что будут заблокированы ФАЙЛЫ, а мне бы хотелось заблокировать URL адреса, или вы это и имели ввиду?
То есть, при выражении "Disallow: /*fontstyle$", будут заблокированы страници с адресами, например -

www.site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0
и
www.site.ru/index.php?fontstyle=f-smaller&pop=0
/>
и
www .fontstyle.ru/бла-бла-бла
и
www.site.ru/index.php?fontstyleblablabla.html

Все ли я правильно понял? спасибо за ваши ответы!
Автор блога Виталий:
1 июля, 2010 г. в 9:41 pm
Gelik:
При использовании Disallow: /*fontstyle$ будут заблокированы любые символы в URL после первого символа /. Извините, в прошлом комментарии неправильно выразился, запрет касается URL. Под запрет попадает и индексация файлов с такой комбинацией, и переменных.

Т. е.
www .site.ru/index.php?/Detskaya_kolyaska_lyulka_Inglesina_Classica_s_shassi_Balestrino_Italiya.html?fontstyle=f-smaller&pop=0 - будет заблокировано

www .site.ru/index.php?fontstyle=f-smaller&pop=0 - будет заблокировано

www .fontstyle.ru/ - к доменам это не относится, блокировка касается только содержания конкретного сайта с корневой директории (т. е. с символа "/").

www .site.ru/index.php?fontstyleblablabla.html - будет заблокировано
Дмитрий:
2 июля, 2010 г. в 12:38 am
Здравствуйте!!Пожалуйста помогите!!!Я новичок в это деле!Создал сайт на плаформе "ucoz" ,зарегистрировался в гугл , сайт досих пор не появился в поисковике,даже когда вбиваешь сам сайт / не могу снять запрет индексации для гугл.Заранее спасибо)
Автор блога Виталий:
3 июля, 2010 г. в 8:23 pm

Дмитрий:
В системе UCOZ стоит ограничение на новые сайты. Сделано это с целью избежания создания сайтов для спама. Через месяц после регистрации сайта на UCOZ можно будет этот файл и открыть сайт для индексации для всех поисковых машин Интернета.
Толя:
5 июля, 2010 г. в 3:40 pm
Здравствуйте. Подскажите, пожалуйста.
Есть ссылки типа:
www.site.ru/magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=29&category_id=4
www.site.ru/magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=27&category_id=4
magazin.html?page=shop.ask&flypage=flypage.tpl&product_id=21&category_id=4
Такие ссылки нужно запретить к индексации. Подойдет ли такая запись?
Disallow: /*shop.ask$
Заранее, спасибо за ответ.
Автор блога Виталий:
5 июля, 2010 г. в 9:08 pm
Толя:
Можно вашим способом, можно и таким:

Disallow: /magazin.html?page=shop.ask
Толя:
5 июля, 2010 г. в 10:48 pm
Благодарю! Спасибо за помощь)
Толя:
5 июля, 2010 г. в 10:50 pm
Автор блога Виталий:
Можно вашим способом, можно и таким:

Disallow: /magazin.html?page=shop.ask
А случайно не надо после всей строчки знака $ или * ?
Толя:
6 июля, 2010 г. в 12:50 am
Проверил через вебмастер.яндекс, вроде все работает правильно, еще раз спасибо!
Автор блога Виталий:
7 июля, 2010 г. в 1:23 am
Толя:
Нет, не надо. Регулярные выражения используются только тогда, когда нужно изолированный сегмент в URL заблокировать.
Ильдаро:
12 июля, 2010 г. в 2:39 pm
Отличная статья. Но у меня вопрос!
Если я включил в джумле свой (встроенный) ЧПУ, как можно удалить запретить стары урлы типа /index.php?com=comp&bla=bla... Достаточно ли
Disallow: index.php
или нужно Disallow: index.php*
?

И еще.
В этом же случае (при встроенном чпу). передается партнерский ID. Вида site.ru/?pid=2. Правильно ли (и нужно ли?) Ставить:
Clean-param: bns /*
?

И еще!
Disallow: /*component/page,shop.product_details/
Disallow: /*flypage,shop.flypage/
Disallow: /*vmcchk,1/
Это я хочу поставить, т.к. flypage я удалил из кода и теперь все внутренние ссылки БЕЗ него. И "component/page,shop.product_details/option,com_virtuemart" теперь тоже нет. Везде теперь "component/option,com_virtuemart/page,shop.browse/"
т.е. привел в порядок последовательность в урл. В джумле не имеет значения порядок, а для поисковиков, как известно, имеет.

Джумла и VM у меня старые... каюсь. Но обновлятся пока не планирую (слишком много кода исправлено). Жду полноценного релиза VM.

И вообще нужны ли какие-то подобные манипуляции, если гуглу и яндексу "скормлен" SiteMap?

Заранее огрооомное спасибо!
Ильдаро:
12 июля, 2010 г. в 3:09 pm
Ну и в догонку:

Allow: /components/com_virtuemart/shop_image/category
Allow: /components/com_virtuemart/shop_image/product
Disallow: /components/

Яндекс/Гугл "доберутся" до картинок?
Автор блога Виталий:
16 июля, 2010 г. в 1:50 pm

Ильдаро:
Мы уже разбирали пример с joomla чуть выше в комментариях. Там есть много полезной информации.
Disallow: /index.php - запретит индексацию ВСЕХ страниц, которые начинаются с index.php. Поэтому целесообразно запретить к индексации отдельные переменные в адресе, используя регулярные выражения.
Например так:
Disallow: /index.php?com - запрет на индексацию адресов, которые начинаются через эту переменную.

Запрет реферральских ссылок и идентификаторов сессии делается так (для ссылки site.ru/?pid=2):
Clean-param: pid /

Запрет на индексацию отдельных переменных деляется через регулярные выражения

Disallow: /*component/page,shop.product_details$
Disallow: /*flypage,shop.flypage$
Disallow: /*vmcchk,1$

В Sitemap должны быть прописаны адреса, которые необходимо индексировать. Но если даже и имеются данные о старых адресах на сайте, то поисковая система не будет им следовать, поскольку приоритет отдаётся рекомендациям в файле robots.txt

Да, доберутся, но только в том случае, если директива Allow будет стоять раньше, чем директива Disallow.
Ильдаро:
16 июля, 2010 г. в 4:00 pm
Да ничего страшного, если index.php не будет индексироваться. ЧПУшные ссылки-то "съедятся". А для чего $ в конце Disallow: /*component/page,shop.product_details$ ?

"page,shop.product_details" может стоять и в середине URL. Или я чего не понимаю?
+ Clean-param: pid /* будет работать только для Яндекса, имеет ли смысл добавить "Disallow: /*?pid" для Гугла?
Автор блога Виталий:
18 июля, 2010 г. в 11:08 pm

Ильдаро:
Символ $ в регулярных выражениях обозначает конец строки. Его нужно указывать тогда, когда важно показать сегмент, выделить что-то из общего потока данных.

Когда вы указываете сегмент данных в URL, то не имеет значения, где он стоит. Он будет заблокирован в любом случае.

Да, для Google сделайте отдельное правило запрета, т. к. Clean-param - реализован компанией "Яндекс".
strikestar:
8 августа, 2010 г. в 8:47 pm
я тоже сделал домен этот на сайт strikestar.tk/ , но пока ничего не индексируется(((
Дмитрий:
30 августа, 2010 г. в 1:51 pm
Как запретить индексацию всего домена?
Автор блога Виталий:
1 сентября, 2010 г. в 5:18 pm
Дмитрий:
Директивой Disallow: /
Дмитрий:
13 сентября, 2010 г. в 5:32 pm
Автор блога Виталий:
Спасибо...
boris_elf:
6 октября, 2010 г. в 1:51 pm
а как запретить индексацию всего html сайта (150 страниц), кроме нескольких ?
Автор блога Виталий:
11 октября, 2010 г. в 4:33 pm
boris_elf:
На структуру сайта нужно смотреть, чтобы можно было сказать что-то конкретное. Про какой сайт идёт речь?
Наиль:
14 октября, 2010 г. в 3:47 am
Здравствуйте, ситуация следующая:
в движке урлы имеют вид:
/index.php?option=com_content&task=view&id=283&Itemid=1

Можно ли с помощью robots.txt сделать так, чтобы все урлы индексировались без последней части &Itemid=n

то есть поисковик воспринимал урл
/index.php?option=com_content&task=view&id=283&Itemid=1
как
/index.php?option=com_content&task=view&id=283 и все подобные урлы соответственно?

Данный вариант
Disallow: /*&Itemid=$
не подходит для этого, я прав?
Автор блога Виталий:
14 октября, 2010 г. в 5:17 pm
Наиль:
Можно сделать через директиву "Яндекса" Clean-param:

Clean-param: Itemid index.php?option=com_content&task=view&id
ivolga:
26 октября, 2010 г. в 10:49 pm
Добрый день. Очень надеюсь на вашу помощь. Яндекс посчитал за дубли странички блогов категорий и разделов, в которых по одной превьюшке статей и сами статьи и выкинул из индекса статьи. Как правильно закрыть от индексации все страницы разделов и категорий, оставив только главную и собственно, сами статьи. Отдельно по имени перечислять - нет возможности, нужно что-то универсальное((((
Марина:
27 октября, 2010 г. в 10:35 pm
Здравствуйте, Виталий! Подскажите, пожалуйста, если знаете. Почему статью, которая относится к определенной категории, можно открыть во всех категориях (по разным ссылкам)? Сайт на Joomla.

Например, статья primer.html открывается по ссылкам:

kategoria1/primer.html

kategoria2/primer.html

kategoria3/primer.html

И это относится ко всем статьям.
Вика:
28 октября, 2010 г. в 4:08 pm
Здравствуйте, Виталий!
Мне необходимо исключить некоторые страницы, к примеру:
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=316
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=345
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=353
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=354
Disallow: /2010-09-07-09-35-46.html?sobi2Task=sobi2Details&catid=62&sobi2Id=355

Правильна ли такая запись, и, может быть, можно как-нибудь упростить?
forababy:
29 октября, 2010 г. в 2:01 am
Виталий, доброго времени суток!

Подскажите такой момент: в магазине на индексацию попало куча страниц "задать вопрос по товару" с вот такими адресами (меняются только цифры) - site.ru/index.php?page=shop.ask&flypage=flypage.tpl&product_id=124&category_id=16&option=com_virtuemart&Itemid=54

Хотел бы все их исключить из поиска. И сделал так:

Disallow: /index.php?page=shop.ask

Правильный ли сей вариант? И будут ли нормально индексироваться страницы с самими товарами?
Автор блога Виталий:
2 ноября, 2010 г. в 1:42 am

ivolga:
Как вариант, прописать на страницах разделов и категорий метатег (в html-шаблоне, который генерирует страницы раздела и категории): < meta name="Robots" content="noindex, nofollow" / >

Марина:
Можно попробовать сделать редирект ("301 - страница перемещена навсегда" - чтобы убрать дубль из поиска) при обращении по определённому адресу к серверу через файл .htaccess. Если есть возможность редактировать html-шаблон страниц сайта, который генерирует страницы для этой категории, то прописать в нём метатег, запрещающий их индексацию: < meta name="Robots" content="noindex, nofollow" / > .

Вика:
Запись верна. Можно упростить через регулярные выражения:
Disallow: / *sobi2Id=316$
Disallow: / *sobi2Id=345$
Disallow: / *sobi2Id=353$
Disallow: / *sobi2Id=354$
Disallow: / *sobi2Id=355$

forababy:
Пропишите в html-код шаблона страницы поиска по вашему магазину метатег: < meta name="Robots" content="noindex, nofollow" / >
Кирилл:
3 ноября, 2010 г. в 2:52 am
Уважаемый Виталий, Вы писали, что в файл robots.txt можно помещать не больше 256 000 символов

У меня не простая задача. Нужно закрыть от индексации раздел сайта, но оставить 2000 определенных страниц.
И видимо мне придется перечислить все эти 2000 страниц, вида http://agrealt.ru/base.php?sort=datetime&sort_type=desc&page=19 в роботсе

Поймут ли поисковые системы, что все эти страницы нужно оставить ?
Нет ли ограничений у robots.txt по размеру файла ? Или по кол-ву строк ?

Заранее благодарен за ответ!
Автор блога Виталий:
4 ноября, 2010 г. в 7:16 pm
Кирилл:
Прописать сначала Allow, в котором для сокращения символов можно использовать регулярные выражения, которые можно применить для тех страниц, которые вы хотите оставить в индексе. А затем записать директиву Disallow, которая запретит индексировать всё остальное.

Допустим, так:
User-agent: *
Allow: / *sort_type=desc&page=19$
Allow: / *sort_type=desc&page=20$
Allow: / *sort_type=desc&page=21$
................................. (тут перечисление остальных страниц)
Disallow: /base.php?sort=datetime&sort_type=desc

Ограничение по размеру файла изначально было установлено в 256 000 символов, однако поисковые системы могут не придерживаться строго этого правила. К сожалению, мне не удалось найти информацию о том, сколько точно символов поддерживает поисковая система "Яндекс" для файла robots.txt на данный момент.
Автор блога Виталий:
7 ноября, 2010 г. в 7:04 pm

Кирилл:
Получил ответ от "Яндекса". Файл robots.txt по весу не может быть больше 32 килобайт, что соответствует примерно 32 000 символам.
sockraina:
8 ноября, 2010 г. в 1:16 pm
Как закрыть от индексации Гуглом, в роботс, зеркало сайта?
У меня сейчас вот так, но все равно 3 страницы зеркала Гугл видит и индексирует (даже учитывая, что редирект с зеркала стоит на основной домен)

User-Agent: *
Disallow: /admin.php
Disallow: /p.php?typ=
Disallow: /http://хххх.com/

Основной сайт ххх.com.ua
Автор блога Виталий:
8 ноября, 2010 г. в 11:04 pm
sockraina:
Зеркало и основной домен находятся на одном сервере?
sockraina:
9 ноября, 2010 г. в 11:21 am
Да. По сути это один и тот же сайт.
Автор блога Виталий:
9 ноября, 2010 г. в 1:52 pm

sockraina:
1)Избавиться от ссылок, ведущих на зеркало (в том числе и внешних), изменить существующие, ведущие на xxx.com, и заменить их на xxx.com.ua или закрыть от индексакции через rel="nofollow" в теге a.

2)Подождите ещё некоторое время (редирект 301), Google удалит все страницы с редиректом из выдачи. Несколько апдейтов поисковых систем, как правило, помогают.
Каким образом, кстати, у вас сделан redirect? Через javascript или php? Лучше через php обозначить редирект 301 - перемещён навсегда. В то время как некоторые поисковые системы редирект javascript считают именно 302 - т. е. перемещён временно, а это не означает, что страница исчезнет из выдачи поисковой системы.

3)Если спустя несколько месяцев эти 3 страницы так и останутся в выдаче, то можно попробовать написать скрипт через .htaccess, который бы выдавал по User-Agent Google подставную страницу по тем адресам страниц, которые не хотят исчезать из индекса, в которой прописать метатег robots, запрещающий индексировать страницу.

4)Если не поможет, то вынесите домен-зеркало на другой сервер, пропишите в корне сайта файл robots.txt, в котором содержится следующая информация:
User-Agent: *
Disallow: /
Сайт этого зеркала, естественно, не должен содержать документов (ну или пустой index.html, в котором бы тоже был прописан метатег Robots, который бы запрещал индексировать страницу. Если страницы всё ещё сидят в выдаче, то тоже можно создать по этим URL документы, в которых был бы прописан метатег, запрещающий индексацию).
Сергей:
16 ноября, 2010 г. в 1:03 pm
Помогите!!!
Сайт на Ucoze,Файл robots.txt cделал,а как его затолкать в корневую дирректорию сайта не понимаю.
Заранее Всем Спасибо.
Автор блога Виталий:
16 ноября, 2010 г. в 8:01 pm
Сергей:
Если сайт существует не больше месяца, то изменить файл robots.txt у вас не получится.
Борис:
19 ноября, 2010 г. в 10:21 am
у меня непонятно откуда взялся дубль главной страницы , хотя все страницы статические ...

В общем я написал Disallow: /index.php?C=M;O=A то есть просто запретил эту страницу ее полный адрес

А вебмастер яндекс пишет мне ошибку "Возможно, был использован недопустимый символ" как мне запретить эту страницу правильно site.ru?C=M;O=A
Наиль:
29 ноября, 2010 г. в 6:25 pm
Думаю, что это мне поможет...
Accel:
1 декабря, 2010 г. в 7:10 pm
Спасибо за статью, отличная!
У меня страницы с товарами вида:
первая
www.сайт/catalog/194
последующие в этой же категории
www.сайт/catalog/194?page=1
www.сайт/catalog/194?page=2
...

Я хочу оставить для индекса только первую страницу в каджой категории и убрать все, которые в адресной строке содержат "?page="
Директива
Disallow: *?page=*
Мне поможет?
gooddemo:
4 декабря, 2010 г. в 2:33 pm
Будет ли правильно следующее правило?

User-agent: *
Allow: /index.html
Disallow: /

Нужно разрешить индексацию только главной страницы.
Автор блога Виталий:
5 декабря, 2010 г. в 1:56 pm
Борис:
Очень странная у вас адресация на сайте. Возможно, есть смысл придумать более внятные URL и переработать движок сайта.
Запретить по частям можно попробовать через регулярные выражения:
Disallow: /*C=M$
Disallow: /*O=A$

Accel:
Воспользуйтесь регулярными выражениями.
Disallow: /*page$
Кроме этого работает ещё и такой вариант:
Disallow: /catalog/194?page

gooddemo:
Таким образом вы введёте в заблуждение поисковую систему и, возможно, даже нарушите склейку index.html и / - т. е. одна страница в поиске будет выдаваться под двумя адресами, т. е. дубль.

Правильный способ такой:
User-agent: *
Disallow: /директория1/
Disallow: /директория2/
Disallow: /директория3/
Disallow: /директория4/
и далее перечисляйте все директории на сайте и файлы в корневой директории, индексацию которых нужно запретить. Можно применять регулярные выражения.
gooddemo:
5 декабря, 2010 г. в 10:34 pm
А как можно запретить индексацию пары страниц без указания их в роботе или разрешить индексацию только определенных?
SlavaP:
6 декабря, 2010 г. в 4:56 pm
Приветствую!
На своём сайте (каталоге сайтов) разместил ситемап в трёх экземпляров с разными расширениями, хотя нужен только один:
| sitemap.xml | sitemap.xml.gz | sitemap.txt |
И в роботсе их всех прописал!
Все поисковые машины их успешно читают!
Это может помешать, или я переборщил?
Автор блога Виталий:
19 декабря, 2010 г. в 12:53 am
SlavaP:
выберите любой (желательно sitemap.xml или sitemap.xml.gz ) и пропишите один файл в robots.txt. А также можно прописать нужный вам файл через Яндекс.Вебмастер. Там же можно посмотреть, какой из уже существующих файлов учитывается поисковой системой "Яндекс".

gooddemo:
Чтобы запретить индексацию страниц сайта, без указания их в robots.txt, можно прописать метатеги на странице. Как это сделать, читайте в моей статье, опубликованной на этом сайте.
Если на странице не прописаны метатег Robots, то по умолчанию индексация такой страницы разрешена.
Ирина:
19 декабря, 2010 г. в 1:20 pm
Спасибо вам большое за объяснения. Нашла для себя много полезного.
У меня вопрос. Недавно Яндекс стал индексировать страницы служебного адреса mail.www.мой-сайт.com. Мне это совершенно не нужно. Это один и тот же сайт www.мой-сайт.com, только выдается по служебному адресу.

Было в роботе прописано
User-agent: *
Disallow: /includes/
...
Disallow: #form
Host: www.мой-сайт.com - Это не помогло

может быть нужно не так? А вот так?

Disallow: /includes/
...
Disallow: #form

User-agent: Yandex
Disallow:
Host: www.personal-trening.com

Но тогда Яндекс не будет сканировать все, что ему попадется? В общем, ищу ответ на этот вопрос уже неделю и никак не найду. Заранее благодарна за ответ!
Ирина:
19 декабря, 2010 г. в 1:21 pm
Извините, пожалуйста! Скопировала из робота и не заменила название сайта. Измените, пожалуйста.
Ирина:
19 декабря, 2010 г. в 2:06 pm
Я уже проверила, если внизу, после всех запретов указать

User-agent: Yandex
Disallow:
Host: www.мой-сайт.com

то Яндекс индексирует все подряд. Тогда у меня вопрос. Почему индексируется mail.www.мой-сайт.com, если с самого начала у меня было указано в роботе

User-agent: *
Disallow: /includes/
...
Disallow: #form
Host: www.мой-сайт.com

и на mail.www.мой-сайт.com в вебмастере не указано ни одной ссылки? Спасибо заранее за ответ
Автор блога Виталий:
23 декабря, 2010 г. в 12:50 pm
Ирина:
А вы не можете перенести служебный функционал на другой поддомен и удалить с DNS-сервера запись о домене mail.www.мой-сайт.com? Как я понимаю, он у вас является алиасом к основному домену?

Если нет, то настройте веб-сервер Apache так, чтобы он делал редирект 301 (перемещено навсегда) на домене mail.www.мой-сайт.com на домен www.мой-сайт.com
Или же, если это возможно, для домена mail.www.мой-сайт.com генерируйте метатег Robots с параметрами noindex, nofollow.

Также временно можно попробовать перенести поддомен mail.www.мой-сайт.com в отдельную папку или даже на отдельный сервер, в robots домена mail.www.мой-сайт.com прописать, что индексация запрещена. Далее идёте в Яндекс и просите удалить сайт из индекса. Там есть специальная форма для этого.
Также на самих страницах сайта настроить редирект 301 на нужный домен.

User-agent: Yandex
Disallow:
Host: www.мой-сайт.com
В этой инструкции сказано, что конкретно роботу Яндекс разрешено всё индексировать. Чтобы запретить индексацию сайта для Яндекса используйте
User-agent: Yandex
Disallow: /
Host: www.мой-сайт.com
Ирина:
23 декабря, 2010 г. в 3:00 pm
Спасибо большое за ответ. mail.www.мой-сайт.com и www.мой-сайт.com - это по сути один и тот же сайт. Так что все, что прописывается в одном - автоматом отображается и в другом.

И перенести, как вы понимаете, я в поддомен не могу. Это просто служебная конструкция. Как я поняла, с роботом здесь ничего не сделаешь.

Что я сделала? В .htaccess указала редирект не только без www на www, но и с mail туда же. Посмотрим результат. Пока прошло несколько дней - результата нет.
Автор блога Виталий:
24 декабря, 2010 г. в 8:21 pm
Ирина:
Какой редирект вы сделали? 301?
А результат сразу же не будет отображаться в поиске. Нужно дождаться обновления результатов выдачи Яндекса и смотреть посещения робота по логам сервера и через панель для веб-мастера от Яндекса.
Ирина:
25 декабря, 2010 г. в 2:50 pm
Да, 301. Обновление поисковой базы Яндекса уже было не раз - но второй адрес не изчезает и страниц в поиске не становится меньше. Но пока жду.

В принципе, можно было бы и не сильно переживать - страницы-то все равно в поиске. Но у меня стоит поиск от Яндекса (он очень удобен для моего сайта). Все было отлично, и вдруг стали появлятся адреса в виде mail.www.мой-сайт.com/... Опять же, и это можно было пережить, но страницы иногда дублируются - что мне совсем не нравится. И что, главное, это может не понравится, в конце концов, Яндексу
Саша:
14 января, 2011 г. в 9:07 pm
Как можно сделать чтобы основным был сайт.ру а не www.сайт.ру?

Если написать Host: сайт.ru/ то пишет
Некорректное имя главного зеркала сайта
Автор блога Виталий:
27 января, 2011 г. в 2:59 pm
Саша:
Внимательно читайте правила написания директивы Host.
Host: site.ru

Никаких http, двоеточий и слешей быть не должно. Просто имя домена пишите.
Максим:
1 февраля, 2011 г. в 11:20 am
У меня вопрос про запрет index.php на Joomla
Как мне дубли закрыть такого типа?

www.сайт.ru/страница#1 (оригинал)
www.сайт.ru/index.php/страница#1 (дубль)

Disallow: /index.php

Такое закрытие повлияет на индексацию главной страницы www.сайт.ru?
Автор блога Виталий:
5 февраля, 2011 г. в 2:29 pm
Максим:

Disallow: /index.php/страница#1 - можно закрыть страницу-дубль, прямо указав её в этом файле.
Также постарайтесь убрать ссылку на дубль в самой CMS, после этого можно в ADD.URL Яндекса предложить удалить страницу-дубль.

"Disallow: /index.php
Такое закрытие повлияет на индексацию главной страницы www.сайт.ru?
"
Да, такое закрытие закроет для индексации главную страницу сайта.
Владимир:
4 марта, 2011 г. в 7:14 am
Здравствуйте. У меня партнерский сайт с общей базой.
Яндекс такие сайты, полностью открытые для индексации банит. Разрешается открыть только главную страницу. По этому у меня такой robots.txt:
User-agent: *
Disallow:
User-agent: Yandex
Disallow: /a
Disallow: /p

Как мне добавить еще одну страницу с моим уникальным контентом к индексации яндекса?
moysite.ru/a-freeadds/articles
Я чегото никак не соображу.
Elena:
6 марта, 2011 г. в 12:56 am
Добрый день!
У сайта появилось много дублей
Подскажите пожалуйста, Виталий, Как закрыть странички типа ..
/catalog/index.php/?SECTION.......
/catalog/?SECTION.........
В общем интересует именно закрыть страницы с слеш+вопрос подряд
Подойдет ли такое
Disallow: / */?*
Заранее спасибо
Автор блога Виталий:
11 марта, 2011 г. в 5:34 pm
Владимир:
Это можно реализовать. Достаточно использовать директиву Allow.

User-agent: *
Disallow:

User-agent: Yandex
Allow: /a-freeadds/articles/
Disallow: /a
Disallow: /p
Автор блога Виталий:
11 марта, 2011 г. в 5:39 pm
Elena:
Можно сделать, используя регулярные выражения.
User-agent: *
Disallow: /*SECTION$

Этим мы запретим индексацию всего, что содержит в себе комбинацию SECTION. Точно также можно закрыть и другие разделы сайта.
Сергей:
15 марта, 2011 г. в 9:48 am
Правельно ли я написал текст в robot.txt?
Разрешаю индекс всего сайта (Allow: /) по тому что недавно запретил (Disallow: /)

User-agent: *
Allow: /
Host: tk-skarabey.ru.ru
Станислав:
18 марта, 2011 г. в 3:09 am
Здравствуйте, на ваш сайт последняя надежда! Прочитал все коменты но конкретно ответа на свою проблему не нашёл. а проблема в следующем 13.03 мой сайт выпал из индекса - Документ запрещен в файле robots.txt Я нефиига сайту не делал, только сменил название,помогите как решить проблему!?

вот мой robots.txt;

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Автор блога Виталий:
18 марта, 2011 г. в 4:35 pm

Сергей:
Лучше написать так:
User-agent: *
Disallow:
Host: tk-skarabey.ru.ru

Станислав:
Изменили название чего? Имя файла или его расширение? Тег title?
И ещё:
Какой именно документ запрещён в файле robots? Давайте от этого будем отталкиваться, чтобы найти вашу проблему.
Станислав:
18 марта, 2011 г. в 6:36 pm
Я менял тег title(Название сайта)В "я масиер" пишется; Страниц в поиске 0
Внешних ссылок на страницы сайта 2840
Дата последнего посещения сайта роботом 13.03.2011
Загружено роботом 14
Исключено роботом 1

Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Документ запрещен в файле robots.txt
Станислав:
18 марта, 2011 г. в 6:59 pm
Вот ещё , может это что вам прояснит;

Список страниц, исключённых роботом при обходе сайта. Причиной исключения может быть ошибка при загрузке или обработке страницы. Кроме того, в поисковый индекс не попадают страницы, запрещённые в файле robots.txt и т.п.

Раздел
pitomic.moy.su/index/
Причина
Информация: страницы намеренно запрещены к индексированию или не должны индексироваться.
Сергей:
19 марта, 2011 г. в 1:06 pm
""Сергей:
Лучше написать так:
User-agent: *
Disallow:
Host: tk-skarabey.ru""
Так мне нужно разрешить, а не запретить....
Станислав:
19 марта, 2011 г. в 2:21 pm
Спасибо Сергей!!! Маленькое уточнение, я написал вместо tk-skarabey.ru свой адрес сайта и ещё, что значит в конце адреса""
Виктор:
20 марта, 2011 г. в 5:51 pm
Привет)

Можно ли заменить:
Disallow: /uploads/images/gallery/prikoly_zhenschiny/thumb/
Disallow: /uploads/images/gallery/toilet_bowl/thumb/
Disallow: /uploads/images/gallery/pyanye_muzhiki/thumb/
Disallow: /uploads/images/gallery/zabavnye_zhivotnye/thumb/
Disallow: /uploads/images/gallery/amusing_dogs/thumb/

на:
Disallow: /uploads/images/gallery/*/thumb/

Так сработает? (нужно запретить к индексации каталог /thumb/)
Виктор:
20 марта, 2011 г. в 6:01 pm
Вот, что у меня получилось:
Allow: /uploads/images/*/
Disallow: /uploads/images/*/thumb/
Disallow: /uploads/images/gallery/*/thumb/
Станислав:
23 марта, 2011 г. в 5:39 pm
Сергей, как ты и советовал я поменял свой robots.txt на данный, но 20.03 2011 снова пишет что сайт запрещен в файле robots.txt

User-agent: *
Disallow:
Host: имя.moy.su
Sitemap: http://имя.moy.su/sitemap.xml
Sitemap: http://имя.moy.su/sitemap-forum.xml
Sitemap: http://имя.moy.su/sitemap-shop.xml

В чём ошибка, почему пишет запрещен в файле robots.txt
Автор блога Виталий:
23 марта, 2011 г. в 8:42 pm

Сергей:
Disallow: (в варианте использования её без /) аналогична директиве Allow. Для достижения максимальной совместимости поисковых роботов рекомендуется использовать, где это возможно, директиву Disallow.

Виктор:
Запретить массово индексацию документов по типичным URL можно через регулярные выражения. Допустим, нам не нужны документы, содержащие в адресе thumb, то для этого можно прописать следующую директиву:
Disallow: /*thumb$

Станислав:
Я проверил ваш файл robots.txt через онлайн форму "Яндеса", робот не выдал никаких ошибок.
Станислав:
24 марта, 2011 г. в 1:59 am
В чём же тогда дело , чё сайт в "бане" помогите кто нибудь!!!
Автор блога Виталий:
24 марта, 2011 г. в 3:27 pm
Станислав:
Возможно, ваш сайт попал под санкции из-за нарушения поисковой лицензии "Яндекса" (http://company.yandex.ru/legal/termsofuse/). Напишите в службу поддержки "Яндекса" для выявления возможных причин, приведших к таким последствиям.
Станислав:
25 марта, 2011 г. в 5:18 pm
Огромное спасибо, плюс я наконецто достучался до "Платона Щукина" Оказывается 1.01.2011 Яша банит почти всех кто продвигается по системе "сео"
Станислав:
25 марта, 2011 г. в 5:20 pm
Обещали через месяц вернуть
Андрей:
29 марта, 2011 г. в 3:23 pm
У меня форум запрещен к индексации в robots.txt, сделал все как рекомендовали на сайте форума, форум находится в папке forum в корне сайта.
Что неправильно сделал:

User-agent: *
Disallow: /forum/faq.php
Disallow: /forum/mcp.php
Disallow: /forum/memberlist.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/search.php
Disallow: /forum/style.php
Disallow: /forum/ucp.php
Clean-param: sid /forum/index.php
Андрей:
30 марта, 2011 г. в 9:34 am
Вот собственно сайт...http://weldingsite.com.ua
Виктор:
3 апреля, 2011 г. в 7:17 am
Виктор:
Запретить массово индексацию документов по типичным URL можно через регулярные выражения. Допустим, нам не нужны документы, содержащие в адресе thumb, то для этого можно прописать следующую директиву:
Disallow: /*thumb$

Виталий, может так правильнее будет:
Disallow: *thumb
Ведь мне необходимо запретить к индексации все каталоги thumb вместе с вложенными файлами.
Автор блога Виталий:
3 апреля, 2011 г. в 6:04 pm
Виктор:
Лучше использовать правильный синтаксис регулярных выражений, чтобы избежать ошибок индексирования сайта разными поисковыми системами.
Автор блога Виталий:
3 апреля, 2011 г. в 6:08 pm
Андрей:
Я проверил ваш файл robots.txt через службу Яндекса и не нашёл ошибок в его составлении вами.
Alex:
6 апреля, 2011 г. в 7:26 pm
Подскажите, пожалуйста! На главной странице и на главной странице архива каждый день меняется материал. затем он по постоянному адресу переносится в архив. нужно, чтобы поисковики индексировали архив. Такое чувство, что яндексу не нравится такая неразбериха. сегодня статья - на главной, завтра - она на главной архива. и только потом у нее постоянный адрес. // или ничего страшного в этом нет?
Автор блога Виталий:
8 апреля, 2011 г. в 1:43 pm
Alex:
Немного не понял, URL страницы в результате таких действий меняется? (На главной странице доступ к материалу осуществляется по одному адресу, а в архиве - по другому?) У страницы с материалом нет фиксированного URL-адреса?
Какой у вас используется движок сайта?
Дмитрий:
10 апреля, 2011 г. в 8:12 pm
Здравствуйте, Виталий ! Мне очень понравился ваш блог и ваши грамматные ответы на комментарии. Не могли бы вы мне помочь ? Есть сайт timflair.ru (не уверен, можно ли писать тут адрес своего сайта). На сайте порядка 900 видео (с ютюба) и около 50 статей (из них только 10 (пока)) уникальные, ост. копии с других сайтов (людям в озноком. целях). Яндекс же проиндексировал 19000 страниц !!!! По началу не парило, но в последнее время начал терять позиции по главным запросам. Прочитав вашу инфо (и др. статьи), сделал свой файл robots. Не могли вы его посмотреть и сказать правильно ли я запретил к индексации каталоги и статьи (две последнии) ?? И может посоветуете,что еще следут скрыть от роботов ??? Копированные статьи я скрываю через noindex,nofollow .... Буду вам безмерно благодарен !! Я сайт сам делал, но далеко не ас))) все методом тыка и помощи яндекса )))
Дмитрий:
10 апреля, 2011 г. в 8:19 pm
Да, и еще забыл спросить, являются ли мои видео ролики с ютюба (по средствам компонента hwdVideoShare) плагиатом (или как правильно...дублем )) ??? И если да, то Может есть смысл закрыть полностью от индексации компонент и продвигать лишь уникальные статьи... а если закрыть, то как ????
Автор блога Виталий:
13 апреля, 2011 г. в 1:22 am
Дмитрий:
На вашем сайте противоречит информация, записанная в файле robots.txt, с информацией файла Sitemap. (его, кстати, неплохо было бы сжимать средствами сервера в формат .gz).
Например, в robots.txt вы запрещаете индексировать документы в папке /all-videos/ (Disallow: /index.php/all-videos), но в то же время эта директория со всеми включающими её файлами зачем-то прописана в файле Sitemap. Если вы хотите избежать двойственности и излишней нагрузки поисковыми роботами вашего сервера, то рекомендовал бы убрать из того файла те разделы сайта, индексацию которых вы хотите исключить.

Ещё момент по файлу robots.txt. У вас указаны некоторые директивы без / на конце (Disallow: /index.php/all-videos) - этим вы запрещаете индексацию не только папок, но и файлов, которые содержат в себе название all-videos, если вы хотите запретить к индексации содержание именно папки, то дописывайте всегда / в конце (Disallow: /index.php/all-videos/).

По поводу Noindex. Дело в том, что этот тег учитывается только поисковой системой Яндекс, для Google же ваши тексты открыты для индексации. Советую всё же либо указывать первоисточники информации, либо вообще удалить неуникальный контент с сайта (можно также закрыть страницы с неуникальным контентом через robots.txt или через метатеги http://dataword.info/metatags-seo.php), чтобы не попасть под санкции поисковых систем. Возможно, снижение позиций сайта в результатах поиска - причина этих санкций.

Ролики с Youtube плагиатом не считаются, ибо распространяются со ссылкой на первоисточник (сам сайт Youtube) изначально. Непосредственно медиаконтент (само видео) от Youtube на сторонних сайтах не индексируется поисковыми системами.
Поисковые системы работают только с текстом, частичная индексация материалов возможна только, если код от Youtube сопровождается текстовыми комментариями, которые поисковые системы способны распознать, и уже принимать решение об учёте или не учёте этой текстовой информации.

Вообще же я бы не советовал вам увлекаться сокрытием информации от поисковых систем. Ведь большинство сайтов интернета получают значительную часть трафика именно через них.
Дмитрий:
14 апреля, 2011 г. в 12:05 am
Спасибо огромное за помощь !!! Виталий, а вы не занимаетесь оптимизацией и продвижением ??? если да, то сообщите ваши цены, пожалуйста. У меня на сайте есть все мои координаты. Или может кого посоветуете? И еще раз СПАСИБО !
Дмитрий:
14 апреля, 2011 г. в 10:44 am
Файл sitemap я что то не найду... где вы посмотрели инфо о нем и где его редактировать - не знаю ?? Я делал карту сайта пошагово с помощью компонента xmap (joomla). Уменя там две карты сайта, одна по идеи индекс. только нужные мне каталоги, которые отоброжаются здесь - http://www.timflair.ru/index.php/site-menu.html, вторая вроде просм. только в html формате (для удобства ползов. сделал её как меню видео "ALL CATEGORIES" и поиск. не индексируется...я ошибаюсь ?? На обе поставил галочку :"Сжать XML карту сайта, для увеличения пропускной способности".
Дмитрий:
14 апреля, 2011 г. в 11:06 am
по файлу robots.txt - так мне на одном форуме посаветовали, но я читал по этому поводу и тоже засомневался... я правильно понимаю: Disallow: /index.php/timflair запретит и эту категорию - index.php/videoflair/viewcategory/18/timflair.html (так как там есть "timflair"), а /index.php/timflair/ запретит эту категорию и все её файлы, вида - index.php/timflair/viewvideo/9/timflair/timflair.html или index.php/timflair/viewcategory/18/timflair.html для примера ????
Также закрыл, как посоветовали страницы с неуникальным контентом через robots.txt:
Disallow: /index.php/konkursi
Disallow: /index.php/sobitiya
все дубли в этих категориях... видимо тоже со слешом надо.
Автор блога Виталий:
1 мая, 2011 г. в 4:40 pm

Дмитрий:
Нет, не запретит.
Disallow: /index.php/timflair запретит следующее:
1) /index.php/timflair.jpeg - все файлы в этом каталоге, у которых есть такое имя
2)/index.php/timflair/file.html - папку timflair и всё её содержимое
3) /index.php/timflair1/file.html - папку timflair1 и всё её содержимое.
4) /index.php/timflair1.html - файл timflair1.htm, т. к. в его имени встречается комбинация timflair.
Другими словами, запрет действует на имена всех похожих файлов и папок, которые стоят после index.php. На последующие сочетания слов timflair, которые стоят дальше директории timflair, он не распространяется, поэтому index.php/videoflair/viewcategory/18/timflair.html будет индексироваться поисковыми системами (потому что на месте timflair стоит комбинация videoflair).

Да, закройте со слешем.
Disallow: /index.php/konkursi/
Disallow: /index.php/sobitiya/

Пропишите путь до карты Sitemap, которую используете, в админке для веб-мастера каждой используемой вами поисковой системы.
Ланос:
29 мая, 2011 г. в 2:56 pm
классная статья, но комменты круче! наконец-то понял как запретить роботам индексировать страницы с сортировкой в опенкарте, оказывается достаточно было поставить Disallow: *параметр_сортировки
Денис:
2 июня, 2011 г. в 4:24 pm
User-agent: *
Disallow: /dealers/*
Disallow: almaty.chtk.ru/
Disallow: astana.chtk.ru/
Disallow: belgorod.chtk.ru/*
Disallow: cheboksary.chtk.ru/*
Disallow: chelyabinsk.chtk.ru/*
Disallow: ekaterinburg.chtk.ru/*

Хочу чтобы главная страница поддоменов только проиндексировалось, а внутренние страницы были закрытыми от индексации, подскажите пожалуйста как можно их сделать?
Иринка:
3 июня, 2011 г. в 4:38 pm
Так существует директива allow или нет? Я тут нагуглила, что Роботс только запрещает все, а разрешать не может. И что директивы allow нет. Или уже что-то поменялось???
Николай:
7 июня, 2011 г. в 7:10 pm
Что бы это значило:
О╩©User-agent: *
Disallow: /*ru
Disallow: /*en
Disallow: /*city
Disallow: /*login
Disallow: /*register
Disallow: /*new
Disallow: /*search
Disallow: /*goto
Disallow: /*cpanel

После анализа Яндекс.Вебмастером результат:

1: О╩©User-agent: *

Обнаружена неизвестная директива

2: Disallow: /*ru

Перед правилом нет директивы User-agent
Krolik_muzikant:
14 июня, 2011 г. в 11:37 am
Как с помощью robots.txt основного сайта запретить индексацию поддомена основного сайта? У меня гугл начал mail.site.ru индексировать o_O
Светлана:
25 июня, 2011 г. в 7:41 pm
Здравствуйте, подскажите, пожалуйста. Прочитала, что если есть проиндексированные страницы с УРЛ имеющим pageN/, то это прямая дорога под АГС. Это правда? Ведь в блогах на первой странице, если она динамическая собираются все записи и получается много страниц. Их нужно закрывать от индексации? Если да, то как правильно прописывать запрет?
Автор блога Виталий:
8 июля, 2011 г. в 11:39 pm
Денис:
Поддомены - отдельные сайты. Для каждого поддомена нужно создать отдельные файлы robots.txt

Иринка:
Существует. Просто данная директива стала учитываться поисковыми системами значительно позже.

Николай:
О╩© - что это за символ такой у вас? Уберите его.

Krolik_muzikant:
На поддомене создайте отдельный файл robots.txt, запрещающий индексировать поддомен.

Светлана:
Я не замечал такой взаимосвязи, но вообще желательно укорачивать URL для лучшей читаемости адреса страницы. Желательно убирать дубли (адреса, по которым открывается одна и та же страница). Сделать это можно разными способами. В основном, используют настройки ЧПУ через .htaccess.
Александр:
19 сентября, 2011 г. в 12:20 am
User-agent: Yandex
Disallow:
Host: stroy-obzor.com
Sitemap: http://stroy-obzor.com/sitemap.xml

Есть ли ошибки?
Александр:
19 сентября, 2011 г. в 10:43 pm
Уважаемый Админ, видно, что Вы спец по robots.txt!
Подскажите пожалуйста, как можно закрыть от индексации определенный модуль, например "Последних новостей", который находится на всех страницах и часто Яндекс хватает заголовки от туда и индексирует их, а не нужную страницу.

Какой синтаксис для закрытия модуля в файле robots.txt в Joomla 1.5?

С уважение Александр
Филип:
27 сентября, 2011 г. в 3:40 pm
Такой вопрос!
В поиске Яндекса есть морда (сайт.ру) моего сайта и сайт.ру/index.html Как убрать index.html ??? Или же так и оставить? Не мешает ли это роботам (они же одинаковые)???
Андрей:
27 сентября, 2011 г. в 4:04 pm
У меня такой же вопрос как у Филипа!
Такая запись подойдёт?
User-agent: *
Disallow: /index.html
Host: мой_сайт.ru
Иван:
12 октября, 2011 г. в 7:38 am
А можно закрыть через роботс от индексации только часть страницы? Например, комментарии. Или придётся использовать ноиндекс-нофолоу?
Nickola:
21 октября, 2011 г. в 9:10 am
Доброго времени суток!
Ситуация такая: Есть главный сайт и целая куча зеркал. Причем при правке роботса одного из сайтов – автоматически эти изменения происходят в роботсе всех остальных. Т.е. закрывая зеркала я перекрываю основной сайт. Подскажите, как тут быть. 301 редирект не хочу настраивать, т.к. зеркала приносят трафик из гугла хороший. Настройка же редиректа удалит зеркала из гугла. Спасибо!
Александр:
3 ноября, 2011 г. в 1:14 pm
Вычисляется ли данное действие ботами каталогов?
AdsenSe Devvver:
20 февраля, 2012 г. в 7:34 am
Только что настраивал одной девушке роботс.... одна ошибка и запрещен от индексации весь сайт!
Евгений:
14 июня, 2012 г. в 12:01 pm
Я robots.txt вообще не использую и все нормально работает.
Автор блога Виталий:
25 ноября, 2012 г. в 12:39 am
Александр:
Да, синтакс вашего файла верен. Проверить синтаксис можно тут: http://webmaster.yandex.ru/robots.xml#results

Иван:
поскольку минимальная частица индекса - страница сайта (один URL), поэтому часть страницы можно закрыть только через теги.

Nickola:
Каким способом вы редактируете robots.txt? Правьте robots.txt каждого сайта вручную.

Александр:
Какое действие? Вообще все манипуляции с файлом robots.txt так или иначе влияют на индексацию страниц сайта.

Евгений:
При отсутствии в корне сайта файла robots.txt поисковая система автоматически определяет политику разрешения индексации всего контента, что находится на сайте (по принципу: что не запрещено, то разрешено).
Angelina:
24 января, 2013 г. в 2:18 pm
Здравствуйте, я хотела бы спросить у вас про свой сайт FotoNiceDay.ru

Страниц сайта в результатах поиска выдает очень много 271, причем там в основном страницы картинок. Например, такие ссылки FotoNiceDay.ru/fotografii/gvido-daniele-handimals/attachment/hand_animals_017
Как мне сделать, чтобы этих страниц картинок не было в поиске?
irk-daredevil:
4 февраля, 2013 г. в 4:31 pm
проблемы такая был файл links.php, я его удалил, а эта пакость оставила хвосты вида:
/links.php?rz=0
/links.php?rz=1
..
/links.php?rz=a
/links.php?rz=z #всего 41 ссылка
Чем вылечить? меня яндекс в позициях скинул
пробовал Disallow: /links.php?rz* + в файле robots
Disallow: /*.php?
Автор блога Виталий:
7 февраля, 2013 г. в 7:45 pm
Angelina:
Для этого нужно запретить определённые части URL в файле robot.txt при помощи регулярных выражений.

Например, так:
Disallow: /*attachment/hand_animals_$

Если есть возможность, то отредактируйте также и метатеги тех страниц, которые выдаются в поиске. Как это сделать, читайте тут: http://dataword.info/metatags-seo.php
Автор блога Виталий:
7 февраля, 2013 г. в 7:48 pm
irk-daredevil:
можно вручную через Яндекс, можно сделать редирект 301 при доступе по этим адресам через .htaccess
можно в файле robots.txt через регулярные выражения:
Например, так:
Disallow: /*rz$
Скидков Михаил:
16 мая, 2013 г. в 10:27 am
мне в вебмастере яндекс и гугл пишет мол вот эти страницы дают ошибку /.html и /internet-magazini-so-skidk
как их закрыть? посоветуйте.
если вот так, будет правильно?:

Disallow: /.html
Disallow: /internet-magazini-so-skidk
Marat:
5 июля, 2013 г. в 3:53 pm
Добрый день! Тут есть знатоки? Значит так, порставил запрет в robots.txt дублей страниц joomla (Disallow: /index.php/), после этого весь сайт исчез из яндекса. Попробовал удалить крайний слэш (Disallow: /index.php), результат тот же!!! HELP товарищи!!! В дублях страниц моего сайта присутствует (ibdex.php), хотелось , что бы подобных дублей не было. Посоветуйте!!!

----------мой роботс.тхт-----
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /images/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Allow: /index.php?option=com_xmap&view=xml&id=1
Disallow: /index.php
Host: tverbaza.ru
Sitemap: http://tverbaza.ru/index.php?option=com_xmap&view=xml&id=1
Marat:
5 июля, 2013 г. в 3:56 pm
Уважаемые!!! Забыл указать свой сайт :tverbaza.ru Если есть мастера, зацените, что с ним не так. Уже третий раз за два месяца вылетает из индекса Яндекса, затем через неделю опять появляется.... мистика какая-то!!!
Marat:
5 июля, 2013 г. в 3:57 pm
С профи готов поделиться денежкой....
Автор блога Виталий:
16 октября, 2013 г. в 5:39 pm
Скидков Михаил:
Да, ваш вариант должен сработать.
Автор блога Виталий:
16 октября, 2013 г. в 5:41 pm

Marat:
В вашем случае желательно использовать маску, по которым можно однозначно идентифицировать страницу дубль. Маски делаются через регулярные выражения.

Кроме этого, по вашему вопросу могу порекомендовать сервис оценки сайтов, где можно бесплатно или за небольшую сумму получить аудит вашего сайта, который, возможно, поможет найти ответ на ваш вопрос. http://vitaweb.pp.ru/critics.php

Желаю вам профессиональных успехов!
Александр:
25 октября, 2013 г. в 4:03 am
Вот еще интересная статья по теме http://naotvet.ru/indeksatsiya-tolko-glavnoy-stranitsi
gennicDIKY:
18 октября, 2014 г. в 11:15 pm
fizruk http://hdishka.net/61-fizruk.html online
Максим:
12 ноября, 2014 г. в 12:26 pm
У меня есть много дублей страниц, которые заканчиваются вот так ?p=2, ?p=3, ?p=4 и т.д. чтобы закрыть эти страницы прописал в pobots.txt так
Disallow: /*?*
но ничего не произошло. Подскажите что делаю не так. Спасибо!
Павел:
26 марта, 2015 г. в 10:52 pm
Как снизить нагрузку на сайт от робота?
Можно ли как то прописать лимит посещений робота в сутки? на сайте тысячи страниц и хостинг жалуется на нагрузку от роботов.
Что делать?
Клипаман:
20 июня, 2015 г. в 1:54 pm
Спасибо прочитал в онлайне и все посмотрел
Andrey_Yermolenko:
17 сентября, 2015 г. в 3:38 pm
Друзья, подскажите, кто то сталкивался с сервисом http://www.mymeizu.net ?
Советую всем воспользоватся данным инет магазином, тем кто решил заказать себе телефон
но не знает где. Здесь цены самые демократические, покупал там несколько раз,
все шустро и лаконично! Рекомендую!
Kalilariz:
6 марта, 2016 г. в 12:20 am
http://vk.com/vizaza - Viza Plus in Dnepropetrovsk 80 EURO Poland Work
Егор:
10 марта, 2016 г. в 2:59 am
У меня сайт про игры, фильмы и сериалы, где пишутся полноценные статьи. Но иногда приходится делать кратенькие статьи, типа как на КиноПоиске с краткой инфой, трейлером и небольшой аннотацией. Так вот, когда я опубликовываю эти маленькие мини-статейки, резко прерывается активность на сайте и просмотры почти полностью останавливаются.
Инфу с других сайтов не копирую, пишу сам, как и аннотации. Хотя они во многом похожи, ведь нельзя же поменять имя режиссёра или актёров. По своему объёму статейки около 150 слов, может с этим связано?
Помогите, уже нет сил разбираться, надоела вся эта фигня до чёртиков.
Сергей:
1 апреля, 2016 г. в 12:29 pm
вот такой роботс есть у меня на одном из сайтов videosecurity.md/robots.txt - возможно его как то уменьшить??
Семен:
24 июля, 2016 г. в 10:11 am
Все просто и понятно спасибо!
PashaNus:
15 января, 2017 г. в 1:45 pm
Всем привет!
Вчера зашел на кинопрталы, привычные мне, удивленно нашел что они не работают, то есть их киношки не показывают, типо в вашей стране видео запрещенно!
Теперь фильмы не посмотреть онлайн по всюду фильмы заблокированы, что снова назад на торренты?
Виктория:
14 июня, 2017 г. в 8:08 am
Доброго времени суток. Уже который день подряд не могу понять, почему яндекс вебмастер показывает вот такую штуку
https://uploads.disquscdn.com/images/74c19609fcb394f5da1db59c0fbe9f8d684d823af78822218f2d45e313cc5a00.png
Мол весь сайт закрыт от индекса, хотя в самом файле robots.txt кажется проблем нет. Помогите советом, сайт молодой, да и я новичок в этом деле. https://uploads.disquscdn.com/images/497b88b7e42a449f8cbf8f8b8acd4fb62fa5b9620ce491ce3923e4a3e2c28b41.png Как же мне его таки открыть для индексации?
Danieligow:
22 августа, 2017 г. в 11:51 am
variant5
PatriickFlify:
25 августа, 2017 г. в 10:49 pm
variant5
nickers:
10 февраля, 2018 г. в 1:53 pm
????? ?????? ? ??????? ????????? http://hdfilm.pro
Bobcatfal:
27 августа, 2018 г. в 8:26 am
Основные плюсы погрузчиков DISD
Помимо очевидных достоинств по качеству вдобавок стоимости день-деньской специальная строительная техника данного бренда отличается максимальной производительностью. Спецтехника южнокорейского бренда короче эффективная. Надежность техники обеспечена улучшением технических характеристик как и совершенствованием ранее существующих погрузчиков. Конструкция погрузчика рассчитана на долгосрочную работу. Спецтехника проста в эксплуатации, к тому же эксплуатационные затраты вполне приемлемы.
Две модели DISD - это DISD SD200 в свой черед DISD SD300
tscortRun:
12 ноября, 2018 г. в 1:38 pm
heloo