Если у вас на севере или сайте есть служебные файлы, которые не должен индексировать гугл, то отсутствие ссылок на этот файл и запрет в robots.txt не спасают. Потому что если какой-нибудь эвристический сканер поиска контента найдет этот файл, то он его куда-нибудь скопирует, возможно со ссылкой, потом там походит гугл и всё всплывет. Ну или сам куда-то для удобства добавишь ссылку, а гугл её найдёт.
Запрет в robots.txt приведет просто к тому, что в серпе гугла возле этого результата появится фраза типа "снипета нет потому что в robots.txt заблокировано".
Можно вызывать свой файл с параметром, а без параметра ничего не показывать, например вызывать так:
http://1.2.3.4/file.php?a=a
но это неудобно тем, что в коде нужно вставлять эту проверку.
Можно добавить авторизацию по паролю, но это ещё больше кода.
Можно в коде в самом верху добавить:
header('HTTP/1.1 404 Not Found');
Тогда человек в браузере видит файл, а робот уходит не солоно хлебавши.
Гугл предлагает в этих случаях юзать X-Robots-Tag HTTP header.
ОтветитьУдалитьhttps://developers.google.com/webmasters/control-crawl-index/docs/faq#h17
https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
Сам не тестил, просто спеки почитал, когда заметил, что в выдаче крутятся тысячи запрещенных в роботсе страниц.
1. Модерацию комментов отключил :)
ОтветитьУдалить2. Спасибо, ценное дополнение, но не для нашей вселенной :)
3. Кроме гуглботов в инете шарятся ещё толпы полоумных сканеров, которые срать хотели на роботс.тхт и X-Robots-Tag HTTP header. Они понимают только 444 от nginx а ещё лучше iptables DROP