Как да създадете роботи. Как да редактирате txt файл на robots

31.07.2022

Прочетете също

Достъпност на Windows за хора с увредено зрение Задайте теми с висок контраст

NVIDIA GeForce Experience няма да актуализира драйвери Как да актуализирате всички драйвери наведнъж

Виртуална машина Virtualbox

Влизане в BIOS на лаптоп Acer

Windows 10 Creators актуализация 1709

Обяснение на стойностите:

Потребителски агент: * - имате достъп до всички търсачки наведнъж, Yandex - само Yandex.
Disallow: изброява папки и файлове, които са забранени за индексиране
Хост - изпишете името на вашия сайт без www.
Sitemap: Връзка към XML карта на сайта.

Поставете файла в главната директория на сайта с помощта на Filezilla или чрез хостинг сайта. Хвърлете го в главната директория, така че да е достъпен на връзката: your_site.ru/robots.txt

Подходящ е само за тези, които имат CNC (връзките са написани с думи, а не под формата на p=333). Просто отидете на Настройки - Постоянни връзки, изберете долната опция и въведете /% postname% в полето

Някои предпочитат сами да създадат този файл:

За да започнете, създайте бележник на вашия компютър и го наименувайте роботи (не използвайте главни букви). В края на настройките размерът му не трябва да надвишава 500 kb.

потребителски агент- Име търсачка(Yandex, Googlebot, StackRambler). Ако искате да се обърнете към всички наведнъж, поставете звездичка *

След това посочете страниците или папките, с които този робот не може да индексира Забрани:

Първи са изброени три директории, следвани от конкретен файл.

За да разрешите индексирането на всичко и всички, трябва да се регистрирате:

Потребителски агент: *
Забрана:

Настройка на robots.txt за Yandex и Google

За Yandexне забравяйте да добавите директивата за хост, така че да не се появяват дублирани страници. Тази дума се разбира само от бот от Yandex, така че напишете инструкции за нея отделно.

За Googleняма екстри. Единственото, което трябва да знаете, е как да се справите с него. В секцията User-agent трябва да напишете:

Googlebot;
Googlebot-Image – ако ограничите индексирането на изображения;
Googlebot-Mobile - за мобилна версиясайт.

Как да проверите функционалността на файла robots.txt

Това може да стане в секцията „Инструменти за уеб администратори“ на Google търсачкаили на уебсайта Yandex.Webmaster в секцията Проверка на robots.txt.

Ако има грешки, коригирайте ги и проверете отново. Уау добър резултат, тогава не забравяйте да копирате правилния код в robots.txt и да го качите на сайта.

Сега имате идея как да създадете robots.txt за всички търсачки. За начинаещи препоръчвам да използвате готов файлкато замените името на вашия сайт.

Robots.txt е текстов файл, който съдържа параметри за индексиране на сайта за роботите на търсачката.

Препоръки относно съдържанието на файла

Yandex поддържа следните директиви:

Директива	Какво прави
потребителски агент*
Забрани
Карта на сайта
Чист парам
позволява
Обхождане-закъснение	Препоръчваме да използвате настройката за скорост на обхождане

Директива	Какво прави
потребителски агент*	Показва робота, за който се прилагат правилата, изброени в robots.txt.
Забрани	Забранява индексирането на секции на сайта или отделни страници.
Карта на сайта	Указва пътя до файла Sitemap, който е публикуван на сайта.
Чист парам	Указва на робота, че URL адресът на страницата съдържа параметри (като UTM тагове), които трябва да се игнорират при индексирането му.
позволява	Позволява индексиране на раздели на сайта или отделни страници.
Обхождане-закъснение	Указва минималния интервал (в секунди), за който роботът за търсене да изчака след зареждане на една страница, преди да започне да зарежда друга. Препоръчваме да използвате настройката за скорост на обхождане в Yandex.Webmaster вместо директивата.

* Задължителна директива.

Най-често ще имате нужда от директивите Disallow, Sitemap и Clean-param. Например:

Потребителски агент: * #посочете роботите, за които са зададени директивите Disallow: /bin/ # дезактивира връзките от количката за пазаруване. Disallow: /search/ # деактивира връзките към страницата на търсенето, вградено в сайта Disallow: /admin/ # деактивира връзките от админ панела Sitemap: http://example.com/sitemap # посочете за робота файла sitemap на сайта Clean-param: ref /some_dir/get_book.pl

Роботи от други търсачки и услуги може да интерпретират директивите по различен начин.

Забележка. Роботът взема предвид регистъра на поднизовете (име на файл или път, име на робота) и игнорира регистъра в имената на директивите.

Използване на знаци на кирилица

Във файла и сървъра robots.txt не е разрешено използването на кирилица HTTP заглавки.

За имена на домейни използвайте Punycode. За адреси на страници използвайте същото кодиране като това на текущата структура на сайта.

Файл robots.txt — текстов файлвъв формат .txt, който ограничава достъпа на роботите за търсене до съдържанието на http сървъра. как дефиниция, Robots.txt- Това стандарт за изключение на роботи, който беше приет от W3C на 30 януари 1994 г. и се използва доброволно от повечето търсачки. Файлът robots.txt се състои от набор от инструкции за роботите за търсене за деактивиране на индексирането конкретни файлове, страници или директории на сайта. Помислете за описанието на robots.txt за случая, когато сайтът не ограничава достъпа до сайта от роботи.

Прост пример за robots.txt:

Потребителски агент: * Разрешаване: /

Тук роботите напълно позволяват индексирането на целия сайт.

Файлът robots.txt трябва да бъде качен в основната директория на вашия уебсайттака че да е наличен на:

Your_site.ru/robots.txt

Поставянето на файл robots.txt в основата на сайт обикновено изисква FTP достъп. Въпреки това, някои системи за управление (CMS) ви позволяват да създавате robots.txt директно от контролния панел на сайта или чрез вградения FTP мениджър.

Ако файлът е наличен, ще видите съдържанието на robots.txt в браузъра.

За какво е robots.txt?

Roots.txt за сайта е важен аспект. Защо е необходим robots.txt? Например в SEO robots.txt е необходим, за да се изключат от индексиране страници, които не съдържат полезно съдържание и много други. Как, какво, защо и защо е изключено вече е описано в статията за, няма да се спираме на това тук. Трябва ли ми файл robots.txtвсички сайтове? Да и не. Ако използването на robots.txt предполага изключване на страници от търсенето, тогава за малки сайтове с проста структура и статични страници, такива изключения може да са ненужни. Въпреки това, дори и за малък сайт, някои robots.txt директиви, като например директивата Host или Sitemap, но повече за това по-долу.

Как да създадете robots.txt

Тъй като robots.txt е текстов файл и към създайте файл robots.txt, можете да използвате всеки текстов редактор, например бележник. След като отворите нов Текстов документ, вече сте започнали да създавате robots.txt, остава само да съставите съдържанието му, в зависимост от вашите изисквания, и да го запазите като текстов файл, наречен роботи във формат txt. Лесно е и създаването на файл robots.txt не би трябвало да създава проблеми дори за начинаещи. По-долу ще ви покажа как да пишете robots.txt и какво да пишете в robots.

Създайте robots.txt онлайн

Вариант за мързеливи създайте роботи онлайн и изтеглете файла robots.txtвече готови. Създаването на роботи txt онлайн предлага много услуги, изборът е ваш. Основното нещо е ясно да разберете какво ще бъде забранено и какво е разрешено, в противен случай създаването на файл robots.txt онлайн може да се превърне в трагедиякоето след това може да бъде трудно да се коригира. Особено ако в търсенето попадне нещо, което е трябвало да бъде затворено. Бъдете внимателни - проверете вашия robots файл, преди да го качите на сайта. Още персонализиран файл robots.txtпо-точно отразява структурата на ограниченията от тази, която е автоматично генерирана и изтеглена от друг сайт. Прочетете, за да знаете на какво да обърнете специално внимание, когато редактирате robots.txt.

Редактиране на robots.txt

След като успеете да създадете файл robots.txt онлайн или на ръка, можете редактирайте robots.txt. Можете да промените съдържанието му, както желаете, основното е да следвате някои правила и синтаксис на robots.txt. В процеса на работа на сайта файлът robots може да се промени и ако редактирате robots.txt, не забравяйте да качите актуализирана, актуална версия на файла с всички промени на сайта. След това разгледайте правилата за настройка на файл, за да знаете как да промените файла robots.txtи "не цепи дърва".

Правилна настройка на robots.txt

Правилна настройка robots.txtви позволява да избегнете получаването на лична информация в резултатите от търсенето на основните търсачки. Въпреки това, не забравяйте това Командите robots.txt не са нищо повече от ръководство за действие, а не защита. Надеждни роботи на търсачки като Yandex или Google следват инструкциите на robots.txt, но други роботи могат лесно да ги игнорират. Правилното разбиране и използване на robots.txt е ключът към постигането на резултати.

Да разбера как да направите правилни txt роботи, първо трябва да се справите с Общи правила, синтаксис и директиви на файла robots.txt.

Правилният robots.txt започва с директива User-agent, което показва към кой робот са адресирани конкретните директиви.

Примери за потребителски агенти в robots.txt:

# Указва директиви за всички роботи едновременно Потребителски агент: * # Указва директиви за всички роботи на Yandex Потребителски агент: Yandex # Указва директиви само за основния индексиращ робот на Yandex Потребителски агент: YandexBot # Указва директиви за всички роботи на Google Потребителски агент: Googlebot

Моля, имайте предвид, че такива настройка на файла robots.txtказва на робота да използва само директиви, които съответстват на потребителския агент с неговото име.

Пример за robots.txt с множество записи на потребителски агент:

# Ще се използва от всички роботи на Yandex User-agent: Yandex Disallow: /*utm_ # Ще се използва от всички роботи на Google User-agent: Googlebot Disallow: /*utm_ # Ще се използва от всички роботи с изключение на Yandex и Google роботи User- агент: * Разрешаване: / *utm_

Директива на потребителския агентсъздава само индикация към конкретен робот, като веднага след директивата User-agent трябва да има команда или команди с директна индикация за състоянието на избрания робот. Примерът по-горе използва директивата за деактивиране „Disallow“, която има стойност „/*utm_“. Така затваряме всичко. Правилната настройка на robots.txt предотвратява наличието на празни прекъсвания на редове между директивите „User-agent“, „Disallow“ и директивите, следващи „Disallow“ в текущия „User-agent“.

Пример за неправилно подаване на ред в robots.txt:

Пример за правилно подаване на ред в robots.txt:

Потребителски агент: Yandex Disallow: /*utm_ Allow: /*id= User-agent: * Disallow: /*utm_ Allow: /*id=

Както можете да видите от примера, инструкциите в robots.txt идват на блокове, всеки от които съдържа инструкции или за конкретен робот, или за всички роботи "*".

Също така е важно да запазите правилния ред и сортиране на командите в robots.txt, когато използвате директиви като „Disallow“ и „Allow“ заедно. Директивата „Allow“ е разрешителната директива и е противоположна на командата „Disallow“ на robots.txt, която е директива за забрана.

Пример споделянедирективи в robots.txt:

Потребителски агент: * Разрешаване: /blog/страница Забрана: /blog

Този примерзабранява на всички роботи да индексират всички страници, започващи с "/blog", но позволява индексиране на страници, започващи с "/blog/page".

Предишният пример за robots.txt в правилно сортиране:

Потребителски агент: * Disallow: /blog Allow: /blog/page

Първо деактивираме целия раздел, след това разрешаваме някои от неговите части.

Друг правилен пример за robots.txtсъс съвместни директиви:

Потребителски агент: * Разрешаване: / Забрана: /blog Разрешаване: /blog/страница

Обърнете внимание на правилната последователност от директиви в този robots.txt.

Директивите "Allow" и "Disallow" също могат да бъдат зададени без параметри, в който случай стойността ще се интерпретира обратно на параметъра "/".

Пример за директива "Disallow/Allow" без параметри:

Потребителски агент: * Disallow: # е еквивалентен на Allow: / Disallow: /blog Allow: /blog/page

Как да съставя правилния robots.txtи как да използвате тълкуването на директивите е ваш избор. И двата варианта ще са правилни. Основното нещо е да не се объркате.

За правилното компилиране на robots.txt е необходимо точно да се уточнят приоритетите в параметрите на директивите и какво ще бъде забранено за изтегляне от роботи. Ще разгледаме по-подробно използването на директивите "Disallow" и "Allow" по-долу, но сега нека да разгледаме синтаксиса на robots.txt. Познаването на синтаксиса на robots.txt ще ви доближи до създайте перфектните txt роботи със собствените си ръце.

Синтаксис на robots.txt

Роботите на търсачките доброволно следват командите на robots.txt- стандартът за изключване на роботи, но не всички търсачки интерпретират синтаксиса robots.txt по един и същи начин. Файлът robots.txt има строго определен синтаксис, но в същото време пишете роботи txtне е трудно, тъй като структурата му е много проста и лесна за разбиране.

Ето конкретен списък от прости правила, следвайки които ще изключите често срещани грешки в robots.txt:

Всяка директива започва на нов ред;
Не включвайте повече от една директива на един ред;
Не поставяйте интервал в началото на ред;
Параметърът на директивата трябва да е на един ред;
Не е необходимо да поставяте параметрите на директивата в кавички;
Параметрите на директивата не изискват затваряща точка и запетая;
Командата в robots.txt е посочена във формат - [име_на_директива]:[интервал по избор][стойност][интервал по избор];
Разрешени са коментари в robots.txt след знака #;
Празен нов ред може да се интерпретира като край на директива на потребителски агент;
Директива "Disallow:" (с празна стойност) е еквивалентно на "Allow: /" - разреши всичко;
Директивите "Allow", "Disallow" определят не повече от един параметър;
Името на файла robots.txt не позволява наличието на главни букви, грешното изписване на името на файла е Robots.txt или ROBOTS.TXT;
Писането на имената на директиви и параметри с главни букви се счита за лошо възпитание и ако според стандарта robots.txt не е чувствителен към малки и главни букви, имената на файлове и директории често са чувствителни към малки и главни букви;
Ако параметърът на директивата е директория, тогава името на директорията винаги се предшества от наклонена черта "/", например: Disallow: /category
Твърде големите robots.txt (повече от 32 KB) се считат за напълно разрешителни, еквивалентни на "Disallow: ";
Robots.txt, който е недостъпен по някаква причина, може да се третира като напълно разрешаващ;
Ако robots.txt е празен, той ще се третира като напълно разрешителен;
В резултат на изброяване на множество директиви "User-agent" без празен нов ред, всички следващи директиви "User-agent", с изключение на първата, могат да бъдат игнорирани;
Използването на символи на националните азбуки в robots.txt не е разрешено.

Тъй като различните търсачки могат да интерпретират синтаксиса на robots.txt по различен начин, някои точки могат да бъдат пропуснати. Така например, ако зададете няколко директиви „User-agent“ без празен нов ред, всички директиви „User-agent“ ще бъдат приети правилно от Yandex, тъй като Yandex подчертава записите чрез присъствието в реда „User-agent“ .

Роботите трябва стриктно да посочват само това, което е необходимо, и нищо повече. Не мисли как да напиша всичко в robots txtкакво е възможно и как да го попълня. Перфектни роботи txtе тази с по-малко редове, но повече значение. „Краткостта е душата на остроумието“. Този израз е много полезен тук.

Как да проверите robots.txt

За да проверете robots.txtза правилния синтаксис и структура на файла можете да използвате една от онлайн услугите. Например Yandex и Google предлагат свои собствени услуги за уеб администратори, които включват разбор на robots.txt:

Проверка на файла robots.txt в Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

За да проверете robots.txt онлайннеобходимо качете robots.txt на сайта в основната директория. В противен случай услугата може да докладва това не успя да зареди robots.txt. Препоръчително е първо да проверите robots.txt за наличност на адреса, на който се намира файлът, например: your_site.ru/robots.txt.

В допълнение към услугите за проверка от Yandex и Google, има много други онлайн. валидатори на robots.txt.

Robots.txt срещу Yandex и Google

Съществува субективно мнение, че Yandex възприема индикацията на отделен блок от директиви „Потребителски агент: Yandex“ в robots.txt по-положително от общия блок от директиви с „Потребителски агент: *“. Подобна ситуация с robots.txt и Google. Посочването на отделни директиви за Yandex и Google ви позволява да управлявате индексирането на сайта чрез robots.txt. Може би те са поласкани от лично обжалване, особено след като за повечето сайтове съдържанието на блоковете robots.txt на Yandex, Google и други търсачки ще бъде същото. С редки изключения всички блокове "User-agent" ще имат по подразбиране за robots.txtнабор от директиви. Освен това можете да инсталирате с помощта на различен "Потребителски агент". забрана за индексиране в robots.txt за Yandex, но например не за Google.

Отделно, заслужава да се отбележи, че Yandex взема предвид такава важна директива като „Хост“, а правилният robots.txt за Yandex трябва да включва тази директива, за да посочи основното огледало на сайта. Директивата "Host" ще бъде разгледана по-подробно по-долу.

Деактивиране на индексирането: robots.txt Disallow

Disallow - забраняваща директива, който най-често се използва във файла robots.txt. Disallow забранява индексирането на сайта или част от него, в зависимост от пътя, посочен в параметъра на директивата Disallow.

Пример за това как да деактивирате индексирането на сайта в robots.txt:

Потребителски агент: * Disallow: /

Този пример затваря целия сайт от индексиране за всички роботи.

В параметъра на директивата Disallow можете да използвате специални символи* и $:

* - произволен брой произволни знаци, например параметърът /page* отговаря на /page, /page1, /page-be-cool, /page/kak-skazat и др. Не е необходимо обаче да се указва * в края на всеки параметър, тъй като например следните директиви се интерпретират по същия начин:

Потребителски агент: Yandex Disallow: /page Потребителски агент: Yandex Disallow: /page*

$ - показва точното съвпадение на изключението със стойността на параметъра:

Потребителски агент: Googlebot Disallow: /page$

В този случай директивата Disallow ще забрани /page, но няма да забрани /page1, /page-be-cool или /page/kak-skazat да бъдат индексирани.

Ако затворете индексирането на сайта robots.txt, търсачките може да отговорят на подобно движение с грешката „Блокиран във файла robots.txt“ или „url ограничен от robots.txt“ (url адресът е забранен от файла robots.txt). Ако се нуждаеш деактивирайте индексирането на страницата, можете да използвате не само robots txt, но и подобни html тагове:

- не индексирайте съдържанието на страницата;
- не следвайте връзките на страницата;
- забранява се индексиране на съдържание и следване на връзки на страницата;
- подобно на content="none".

Разрешаване на индексиране: robots.txt Разрешаване

Allow - позволяваща директиваи обратното на директивата Disallow. Тази директива има синтаксис, подобен на Disallow.

Пример за това как да деактивирате индексирането на сайтове в robots.txt с изключение на някои страници:

Потребителски агент: * Disallow: /Allow: /page

Забранено е индексирането на целия сайт, с изключение на страници, започващи с /page.

Disallow и Allow с празна стойност на параметъра

Празна директива Disallow:

Потребителски агент: * Забрана:

Не забранявайте нищо и не позволявайте индексиране на целия сайт и е еквивалентно на:

Потребителски агент: * Разрешаване: /

Празна директива Разрешаване:

Потребителски агент: * Разрешаване:

Не разрешаването на нищо или пълната забрана на индексирането на сайтове е еквивалентно на:

Потребителски агент: * Disallow: /

Основен огледален сайт: robots.txt Хост

Директивата Host се използва, за да посочи на робота Yandex основното огледало на вашия сайт. От всички популярни търсачки, директивата Хостът се разпознава само от роботи на Yandex. Директивата Host е полезна, ако вашият сайт е достъпен на множество сайтове, например:

mysite.ru mysite.com

Или да дадете приоритет между:

Mysite.ru www.mysite.ru

Можете да кажете на робота Yandex кое огледало е основното. Директивата Host е посочена в блока директиви "User-agent: Yandex" и като параметър е посочен предпочитаният адрес на сайта без "http://".

Пример за robots.txt, показващ основното огледало:

Потребителски агент: Yandex Disallow: /страница Хост: mysite.ru

Основното огледало е Име на домейн mysite.ru без www. Така този тип адрес ще бъде посочен в резултатите от търсенето.

Потребителски агент: Yandex Disallow: /страница Хост: www.mysite.ru

Името на домейна www.mysite.ru е посочено като основно огледало.

Директива за хост във файла robots.txtможе да се използва само веднъж, ако директивата Host е указана повече от веднъж, само първата ще бъде взета предвид, останалите директиви Host ще бъдат игнорирани.

Ако искате да посочите главното огледало за робот на google, използвайте услугата Инструменти на Googleза уебмастъри.

Карта на сайта: карта на сайта robots.txt

С помощта на директивата Sitemap можете да посочите местоположението на сайта в robots.txt.

Пример за robots.txt с адрес на карта на сайта:

Потребителски агент: * Disallow: /page Карта на сайта: http://www.mysite.ru/sitemap.xml

Посочване на адреса на картата на сайта чрез директива за карта на сайта в robots.txtпозволява на робота за търсене да разбере за наличието на карта на сайта и да започне да я индексира.

Директива за чисти параметри

Директивата Clean-param ви позволява да изключите страници с динамични параметри от индексиране. Подобни страници могат да обслужват едно и също съдържание с различни URL адреси на страници. Просто казано, сякаш страницата е достъпна на различни адреси. Нашата задача е да премахнем всички ненужни динамични адреси, които могат да бъдат милион. За да направим това, ние изключваме всички динамични параметри, използвайки директивата Clean-param в robots.txt.

Синтаксис на директивата Clean-param:

Clean-param: parm1[&parm2&parm3&parm4&..&parmn] [Път]

Разгледайте примера на страница със следния URL адрес:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

Примерен параметър за почистване на robots.txt:

Clean-param: parm1&parm2&parm3 /page.html само # page.html

Clean-param: parm1&parm2&parm3 / # за всички

Директива за забавяне на обхождане

Тази инструкция ви позволява да намалите натоварването на сървъра, ако роботи посещават вашия сайт твърде често. Тази директива е приложима предимно за сайтове с голям обем страници.

Примерно забавяне при обхождане на robots.txt:

Потребителски агент: Yandex Disallow: /страница Забавяне при обхождане: 3

В този случай ние „молим“ роботите на Yandex да изтеглят страниците на нашия сайт не повече от веднъж на всеки три секунди. Някои търсачки поддържат десетичен формат като параметър Директиви robots.txt за забавяне на обхождането.

Директивата Host е команда или правило, което казва на търсачката кое (с или без www) трябва да се счита за хост. Директивата Host се намира във файла и е предназначена изключително за Yandex.

Често има нужда търсачката да не индексира някои страници от сайта или неговите огледала. Например, даден ресурс се намира на същия сървър, но има идентично име на домейн в Интернет, което се индексира и показва в резултатите от търсенето.

Роботите за търсене на Yandex обхождат страниците на уебсайтове и добавят събраната информация към базата данни според собствения си график. По време на процеса на индексиране те сами решават коя страница трябва да бъде обработена. Например, роботите заобикалят различни форуми, табла за съобщения, директории и други ресурси, където индексирането е безсмислено. Те могат също да дефинират основния сайт и огледалата. Първите подлежат на индексиране, вторите не. В процеса често възникват грешки. Можете да повлияете на това, като използвате директивата Host във файла Robots.txt.

Защо е необходим файлът Robots.txt?

Robots е обикновен текстов файл. Може да се създаде чрез Notepad, но е препоръчително да работите с него (отваряне и редактиране на информация) в текстов редактор Notepad++. Необходимост даден файлКогато оптимизирате уеб ресурси, това се определя от няколко фактора:

Ако файлът Robots.txt липсва, сайтът ще бъде постоянно претоварен поради работата на търсачките.
Има риск те да бъдат индексирани допълнителни странициили огледални сайтове.

Индексирането ще бъде много по-бавно и ако е неправилно инсталирани настройкиможе напълно да изчезне от резултатите от търсенето с Google и Yandex.

Как да форматирате директивата Host във файла Robots.txt

Файлът Robots включва директива Host, която казва на търсачката къде е основният сайт и къде са неговите огледала.

Директивата има следната формаизписвания: Хост: [интервал по избор] [стойност] [интервал по избор]. Правилата за писане на директива изискват спазването на следните точки:

Наличието на HTTPS протокол в директивата Host за поддръжка на криптиране. Трябва да се използва, ако достъпът до огледалото се осъществява само през защитен канал.
Името на домейна, което не е IP адрес, и номера на порта на уеб ресурса.

Правилно съставената директива ще позволи на уеб администратора да посочи на търсачките къде е основното огледало. Останалите ще се считат за незначителни и следователно няма да бъдат индексирани. По правило огледалата могат да бъдат разграничени от наличието или отсъствието на съкращението www. Ако потребителят не посочи основното огледало на уеб ресурса чрез Host, търсачката Yandex ще изпрати съответно известие до Webmaster. Освен това ще бъде изпратено известие, ако във файла Robots е посочена непоследователна директива за хост.

Можете да определите къде е основното огледало на сайта чрез търсачка. Необходимо е да въведете адреса на ресурса в лентата за търсене и да погледнете резултатите от издаването: сайтът, където www е пред домейна в адресната лента, е основният домейн.

Ако ресурсът не се показва на страницата за проблем, потребителят може самостоятелно да го посочи като основно огледало, като отиде в съответния раздел в Yandex.Webmaster. Ако уебмастърът има нужда името на домейна на сайта да не съдържа www, тогава то не трябва да се посочва в Host.

Много уеб администратори използват домейни на кирилица като допълнителни огледала за своите сайтове. Кирилицата обаче не се поддържа в директивата Host. За да направите това, трябва да дублирате думите на латиница, при условие че те могат лесно да бъдат разпознати чрез копиране на адреса на сайта от адресната лента.

Хост файлови роботи

Основната цел на тази директива е да разреши проблеми с дублиращи се страници. Необходимо е да използвате Host, ако работата на уеб ресурса е фокусирана върху рускоезичната аудитория и съответно сортирането на сайта трябва да се извърши в системата Yandex.

Не всички търсачки поддържат директивата Host. Функцията е достъпна само в Yandex. В същото време дори тук няма гаранции, че домейнът ще бъде назначен като основно огледало, но според самия Yandex приоритетът винаги остава с името, посочено в хоста.

За да могат търсачките да четат правилно информацията при обработката на файла robots.txt, трябва да добавите директивата Host към съответната група, започвайки след думите User-Agent. Въпреки това, роботите ще могат да използват Host независимо от това дали директивата е написана от правилата или не, тъй като е напречно сечение.

Поздрави приятели и абонати на моя блог. Днес Robots.txt е на дневен ред, всичко, което сте искали да знаете за него, накратко, без излишна вода.

Какво е Robots.txt и защо е необходим

Robots.txt е необходим, за да посочи на търсачката (Yandex, Google и др.) колко правилно (от ваша гледна точка) трябва да бъде индексиран сайтът. Кои страници, секции, продукти, статии трябва да бъдат индексирани и кои, напротив, не са необходими.

Robots.txt е обикновен текстов файл (с резолюция .txt), който беше приет от W3C на 30 януари 1994 г. и се използва от повечето търсачки и обикновено изглежда така:

Как се отразява на популяризирането на вашия сайт?

За успешното популяризиране на сайта е необходимо индексът (базата) на Yandex и Google да съдържа само необходимите страници на сайта. Под правилните странициРазбирам следното:

У дома;
страници от раздели, категории;
Стоки;
статии;
Страници “За фирмата”, “Контакти” и др.

Под НЕ правилните страници имам предвид следното:

Дублирани страници;
Печат на страници;
Страници с резултати от търсенето;
Системни страници, страници за регистрация, вход, изход;
Абонаментни страници (feed);

Например, ако индексът на търсачката съдържа дубликати на основните популяризирани страници, това ще създаде проблеми с уникалността на съдържанието в сайта и ще се отрази негативно на позициите.

Къде се намира той?

Файлът обикновено е в корена на папката public_htmlна вашия хостинг, тук:

Какво трябва да знаете за файла robots.txt

Инструкциите на robots.txt имат препоръчителен характер. Това означава, че настройките са насоки, а не директни команди. Но като правило и Yandex, и Google следват инструкциите без никакви проблеми;
Файлът може да бъде хостван само на сървъра;
Трябва да е в корена на сайта;
Нарушаването на синтаксиса води до некоректност на файла, което може да повлияе негативно на индексирането;
Не забравяйте да проверите правилния синтаксис в панела за уеб администратори на Yandex!

Как да затворя страница, раздел, файл от индексиране?

Например, искам да затворя страницата от индексиране в Yandex: http://site/page-for-robots/

За да направя това, трябва да използвам директивата "Disallow" и URL адреса на страницата (раздел, файл). Изглежда така:

Потребителски агент: Yandex
Забрана: /страница-за-роботи/
хост: сайт

Ако искам близка категория
Потребителски агент: Yandex
Забрана: /категория/случай/
хост: сайт

Ако искам да затворя целия сайт от индексиране, с изключение на секцията http://site/category/case/, тогава ще трябва да направите следното:

Потребителски агент: Yandex
забрани: /
Разрешаване: /категория/случай/
хост: сайт

Директивата "Allow", напротив, казва коя страница, раздел, файл трябва да бъдат индексирани.

Мисля, че ви стана ясна логиката на конструкцията. Моля, имайте предвид, че правилата ще се прилагат само за Yandex, тъй като е посочен User-agent: Yandex. Google, от друга страна, ще игнорира тази конструкция и ще индексира целия сайт.

Ако искате да напишете универсални правила за всички търсачки, използвайте: User-agent: *. Пример:

Потребителски агент: *
забрани: /
Разрешаване: /категория/случай/
хост: сайт

потребителски агенте името на робота, за който е предназначена инструкцията. Стойността по подразбиране е * (звездичка) - това означава, че инструкцията е предназначена за абсолютно всички роботи за търсене.
Най-често срещаните имена на роботи са:

Yandex - всички роботи на търсачката Yandex
YandexImages - индексатор на изображения
Googlebot - Google робот
BingBot - Bing робот
YaDirectBot - системен робот контекстна рекламаЯндекс.

Връзки към подробен прегледвсички директиви на Yandex и Google.

Какво трябва да има във вашия файл Robots.txt

Директивата за хост е конфигурирана. Трябва да е изписано основно огледаловашия сайт. Основни огледала: site.ruили www.site.ru. Ако вашият сайт е с http с, тогава това също трябва да бъде посочено. Главното огледало в хоста и в Yandex.Webmaster трябва да съвпадат.
Раздели и страници на сайта, които не носят полезен товар, както и страници с дублирано съдържание, страници за печат, резултати от търсене и системни страници, трябва да бъдат затворени от индексиране (с директивата Disallow:).
Предоставете връзка към sitemap.xml (карта на вашия сайт в xml формат).
Карта на сайта: http://site.ru/sitemap.xml

Индикация на главното огледало

Първо трябва да разберете кое огледало имате по подразбиране. За да направите това, въведете URL адреса на вашия сайт в Yandex, задръжте курсора на мишката над URL адреса в резултатите от търсенето и долу вляво в прозореца на браузъра ще бъде посочено дали домейнът е www или не. В този случай без WWW.

Ако домейнът е посочен с https, тогава и роботите, и Yandex.Webmaster трябва да посочат https! Изглежда така: