Cara membuat file robot. Cara mengedit file robots txt

31.07.2022

Menyiapkan robots.txt untuk Yandex dan Google

Untuk Yandex Anda pasti perlu menambahkan arahan host untuk menghindari halaman duplikat. Kata ini hanya dipahami oleh bot Yandex, jadi tuliskan instruksinya secara terpisah.

Untuk Google tidak ada tambahan. Satu-satunya hal yang perlu Anda ketahui adalah cara menghubunginya. Di bagian Agen pengguna Anda perlu menulis:

Googlebot;
Googlebot-Image – jika Anda membatasi pengindeksan gambar;
Googlebot-Seluler - untuk versi seluler lokasi.

Cara memeriksa fungsionalitas file robots.txt

Ini dapat dilakukan di bagian "Alat Webmaster" dari Mesin pencari Google atau di situs web Yandex.Webmaster di bagian Periksa robots.txt.

Jika ada kesalahan, perbaiki dan periksa kembali. Meraih hasil yang bagus, lalu jangan lupa salin kode yang benar di robots.txt dan unggah ke situs.

Sekarang Anda punya ide cara membuat robots.txt untuk semua mesin pencari. Saya merekomendasikan untuk pemula untuk menggunakannya berkas siap, mengganti nama situs Anda.

Robots.txt adalah file teks yang berisi parameter pengindeksan situs untuk robot mesin pencari.

Rekomendasi mengenai isi file

Yandex mendukung arahan berikut:

Direktif	Apa fungsinya?
Agen pengguna *
Melarang
Peta Situs
Param bersih
Mengizinkan
Penundaan perayapan	Kami merekomendasikan menggunakan pengaturan kecepatan perayapan

Direktif	Apa fungsinya?
Agen pengguna *	Menunjukkan robot yang menerapkan aturan yang tercantum di robots.txt.
Melarang	Melarang pengindeksan bagian situs atau halaman individual.
Peta Situs	Menentukan jalur ke file Peta Situs yang diposting di situs.
Param bersih	Menunjukkan kepada robot bahwa URL halaman berisi parameter (seperti tag UTM) yang harus diabaikan saat mengindeksnya.
Mengizinkan	Memungkinkan pengindeksan bagian situs atau halaman individual.
Penundaan perayapan	Menentukan interval minimum (dalam detik) agar robot pencari menunggu setelah memuat satu halaman, sebelum mulai memuat halaman lainnya. Kami merekomendasikan penggunaan pengaturan kecepatan perayapan di Yandex.Webmaster alih-alih direktif.

* Petunjuk wajib.

Anda paling sering memerlukan arahan Disallow, Sitemap, dan Clean-param. Misalnya:

Agen-pengguna: * #tentukan robot yang arahannya ditetapkan Larang: /bin/ # menonaktifkan tautan dari Keranjang Belanja. Larang: /pencarian/ # menonaktifkan tautan halaman pencarian yang tertanam di situs Larang: /admin/ # menonaktifkan tautan dari panel admin Peta Situs: http://example.com/sitemap # tentukan untuk robot file peta situs situs Param bersih: ref /some_dir/get_book.pl

Robot dari mesin pencari dan layanan lain mungkin menafsirkan arahan dengan cara yang berbeda.

Catatan. Robot memperhitungkan huruf besar/kecil substring (nama file atau jalur, nama robot) dan mengabaikan huruf besar/kecil dalam nama arahan.

Menggunakan karakter Sirilik

Penggunaan alfabet Sirilik tidak diperbolehkan di file dan server robots.txt Header HTTP.

Untuk nama domain, gunakan Punycode . Untuk alamat halaman, gunakan pengkodean yang sama dengan struktur situs saat ini.

File robots.txt — berkas teks dalam format .txt, yang membatasi akses robot pencari ke konten di server http. Bagaimana definisi, Robots.txt- Ini standar pengecualian robot, yang diadopsi oleh W3C pada tanggal 30 Januari 1994, dan sebagian besar mesin pencari menggunakannya secara sukarela. File robots.txt terdiri dari serangkaian instruksi untuk robot pencari yang melarang pengindeksan file tertentu, halaman atau katalog di situs. Mari kita pertimbangkan deskripsi robots.txt untuk kasus ketika situs tidak membatasi akses robot ke situs tersebut.

Contoh robots.txt sederhana:

Agen pengguna: * Izinkan: /

Di sini robot sepenuhnya mengizinkan pengindeksan seluruh situs.

File robots.txt harus diunggah ke direktori root situs Anda sehingga tersedia di:

Situs_Anda.ru/robots.txt

Menempatkan file robots.txt di root situs biasanya memerlukan akses FTP. Namun, beberapa sistem manajemen (CMS) memungkinkan pembuatan robots.txt langsung dari panel kontrol situs atau melalui pengelola FTP bawaan.

Jika file tersedia, Anda akan melihat isi robots.txt di browser.

Untuk apa robots.txt?

Roots.txt untuk sebuah situs merupakan aspek penting. Mengapa kita membutuhkan robots.txt?? Misalnya, di SEO robots.txt diperlukan untuk mengecualikan halaman pengindeksan yang tidak berisi konten bermanfaat dan banyak lagi.. Bagaimana, apa, mengapa dan mengapa dikecualikan sudah dijelaskan di artikel tentang, kami tidak akan membahasnya di sini. Apakah file robots.txt diperlukan? ke semua situs? Ya dan tidak. Jika penggunaan robots.txt menyiratkan pengecualian halaman dari pencarian, maka untuk situs kecil dengan struktur sederhana dan halaman statis, pengecualian tersebut mungkin tidak diperlukan. Namun, beberapa mungkin berguna untuk situs kecil arahan robots.txt, misalnya arahan Host atau Peta Situs, tetapi lebih lanjut tentang itu di bawah.

Cara membuat robots.txt

Karena robots.txt adalah file teks, dan to buat file robots.txt, Anda dapat menggunakan editor teks apa pun, misalnya buku catatan. Setelah Anda membuka yang baru dokumen teks, Anda sudah mulai membuat robots.txt, yang tersisa hanyalah membuat kontennya, tergantung kebutuhan Anda, dan menyimpannya sebagai file teks bernama robots in format txt . Semuanya sederhana, dan membuat file robots.txt seharusnya tidak menimbulkan masalah bahkan bagi pemula. Di bawah ini saya akan menunjukkan cara membuat robots.txt dan apa yang harus ditulis di robot menggunakan contoh.

Buat robots.txt online

Pilihan untuk yang malas - buat robot online dan unduh file robots.txt sudah dalam bentuk jadi. Membuat robots txt online menawarkan banyak layanan, pilihan ada di tangan Anda. Hal utama adalah memahami dengan jelas apa yang dilarang dan apa yang diperbolehkan, sebaliknya membuat file robots.txt secara online dapat berubah menjadi sebuah tragedi, yang nantinya mungkin sulit diperbaiki. Apalagi jika pencariannya mencakup sesuatu yang seharusnya ditutup. Hati-hati - periksa file robot Anda sebelum mengunggahnya ke situs. Tetap file robots.txt khusus lebih akurat mencerminkan struktur pembatasan dibandingkan yang dibuat secara otomatis dan diunduh dari situs lain. Baca terus untuk mengetahui apa yang harus diperhatikan secara khusus saat mengedit robots.txt.

Mengedit robots.txt

Setelah Anda berhasil membuat file robots.txt secara online atau dengan tangan Anda sendiri, Anda bisa edit robots.txt. Anda dapat mengubah isinya sesuai keinginan, yang utama adalah mengikuti beberapa aturan dan sintaks robots.txt. Dalam proses pengerjaan situs, file robots dapat berubah, dan jika Anda mengedit robots.txt, jangan lupa untuk mengunggah yang diperbarui ke situs, versi saat ini file dengan semua perubahan. Selanjutnya mari kita lihat aturan pengaturan file agar kita mengetahuinya cara mengubah file robots.txt dan “jangan menebang kayu.”

Menyiapkan robots.txt dengan benar

Pengaturan yang benar robots.txt memungkinkan Anda menghindari informasi pribadi memasuki hasil pencarian mesin pencari utama. Namun, kita tidak boleh melupakan hal itu perintah robots.txt tidak lebih dari panduan untuk bertindak, bukan perlindungan. Robot dari mesin pencari terpercaya seperti Yandex atau Google mengikuti instruksi robots.txt, namun robot lain dapat dengan mudah mengabaikannya. Pemahaman dan penerapan robots.txt yang benar adalah kunci untuk mendapatkan hasil.

Untuk memahami cara membuat robots txt yang benar, pertama-tama Anda harus menghadapinya aturan umum, sintaksis dan arahan file robots.txt.

Robots.txt yang benar dimulai dengan arahan Agen-pengguna, yang menunjukkan arahan khusus robot mana yang ditujukan.

Contoh Agen Pengguna di robots.txt:

# Menunjukkan arahan untuk semua robot secara bersamaan Agen pengguna: * # Menunjukkan arahan untuk semua robot Yandex Agen pengguna: Yandex # Menunjukkan arahan hanya untuk robot pengindeksan Yandex utama Agen pengguna: YandexBot # Menunjukkan arahan untuk semua robot Google Pengguna -agen: Googlebot

Harap dicatat bahwa itu menyiapkan file robots.txt memberitahu robot untuk hanya menggunakan arahan yang cocok dengan agen pengguna dengan namanya.

Contoh robots.txt dengan beberapa kemunculan User-agent:

# Akan digunakan oleh semua robot Yandex Agen pengguna: Yandex Larang: /*utm_ # Akan digunakan oleh semua robot Google Agen pengguna: Googlebot Larang: /*utm_ # Akan digunakan oleh semua robot kecuali robot Yandex dan Pengguna Google- agen: *Izinkan: / *utm_

Arahan agen pengguna hanya membuat instruksi untuk robot tertentu, dan segera setelah arahan Agen Pengguna harus ada perintah atau perintah yang secara langsung menunjukkan kondisi robot yang dipilih. Contoh di atas menggunakan direktif "Disallow" yang memiliki nilai "/*utm_". Jadi, kami menutup semuanya. Menyetel robots.txt dengan benar akan melarang adanya jeda baris kosong antara arahan "Agen-pengguna", "Larang" dan arahan setelah "Larang" dalam "Agen-pengguna" saat ini.

Contoh umpan baris yang salah di robots.txt:

Contoh feed baris yang benar di robots.txt:

Agen pengguna: Yandex Larang: /*utm_ Izinkan: /*id= Agen pengguna: * Larang: /*utm_ Izinkan: /*id=

Seperti yang dapat dilihat dari contoh, instruksi di robots.txt datang dalam bentuk blok, yang masing-masing berisi instruksi untuk robot tertentu atau untuk semua robot "*".

Penting juga untuk menjaga urutan dan pengurutan perintah yang benar di robots.txt saat menggunakan arahan seperti "Larang" dan "Izinkan" secara bersamaan. Perintah “Izinkan” adalah perintah permisif, dan merupakan kebalikan dari perintah “Larang” robots.txt, yang merupakan perintah larangan.

Contoh membagikan arahan di robots.txt:

Agen-pengguna: * Izinkan: /blog/page Larang: /blog

Contoh ini mencegah semua robot mengindeks semua halaman yang dimulai dengan “/blog”, tetapi mengizinkan semua halaman yang dimulai dengan “/blog/page” untuk diindeks.

Contoh robots.txt sebelumnya dalam pengurutan yang benar:

Agen-pengguna: * Larang: /blog Izinkan: /blog/page

Pertama-tama kami melarang seluruh bagiannya, lalu kami mengizinkan beberapa bagiannya.

Lain contoh robots.txt yang benar dengan arahan bersama:

Agen-pengguna: * Izinkan: / Larang: /blog Izinkan: /blog/page

Perhatikan urutan arahan yang benar pada robots.txt ini.

Perintah “Allow” dan “Disallow” dapat ditentukan tanpa parameter, dalam hal ini nilainya akan diinterpretasikan secara terbalik dengan parameter “/”.

Contoh arahan “Larang/Izinkan” tanpa parameter:

Agen-pengguna: * Larang: # setara dengan Izinkan: / Larang: /blog Izinkan: /blog/page

Cara membuat robots.txt yang benar dan cara menggunakan interpretasi arahan adalah pilihan Anda. Kedua opsi tersebut akan benar. Yang penting jangan bingung.

Untuk menyusun robots.txt dengan benar, perlu untuk menunjukkan secara akurat dalam parameter arahan prioritas dan apa yang dilarang untuk diunduh oleh robot. Kita akan melihat penggunaan direktif “Disallow” dan “Allow” secara lebih lengkap di bawah ini, namun sekarang kita akan melihat sintaks robots.txt. Mengetahui sintaks robots.txt akan membawa Anda lebih dekat buat robots txt yang sempurna dengan tangan Anda sendiri.

Sintaks robots.txt

Robot mesin pencari secara sukarela mengikuti perintah robots.txt- standar untuk pengecualian robot, tetapi tidak semua mesin pencari memperlakukan sintaks robots.txt dengan cara yang sama. File robots.txt memiliki sintaks yang ditentukan secara ketat, tetapi pada saat yang sama tulis robot txt tidak sulit, karena strukturnya sangat sederhana dan mudah dipahami.

Berikut adalah daftar spesifik aturan sederhana, berikut ini yang akan Anda hilangkan kesalahan umum robots.txt:

Setiap arahan dimulai pada baris baru;
Jangan menentukan lebih dari satu arahan dalam satu baris;
Jangan memberi spasi di awal baris;
Parameter direktif harus berada pada satu baris;
Tidak perlu menyertakan parameter direktif dalam tanda kutip;
Parameter direktif tidak memerlukan titik koma di akhir;
Perintah di robots.txt ditentukan dalam format - [Directive_name]:[spasi opsional][nilai][spasi opsional];
Komentar diperbolehkan di robots.txt setelah tanda pagar #;
Jeda baris kosong dapat diartikan sebagai akhir dari arahan Agen-pengguna;
Perintah "Larang:" (dengan nilai kosong) setara dengan “Izinkan: /” - izinkan semuanya;
Arahan “Izinkan” dan “Larang” menentukan tidak lebih dari satu parameter;
Nama file robots.txt tidak boleh menggunakan huruf kapital, ejaan nama file yang salah adalah Robots.txt atau ROBOTS.TXT;
Menulis nama arahan dan parameter dalam huruf kapital dianggap bentuk yang buruk, dan meskipun robots.txt tidak peka huruf besar-kecil menurut standar, nama file dan direktori sering kali peka huruf besar-kecil;
Jika parameter direktifnya adalah direktori, maka nama direktori selalu diawali dengan garis miring “/”, contoh: Disallow: /category
robots.txt yang terlalu besar (lebih dari 32 KB) dianggap sepenuhnya permisif, setara dengan “Larang:”;
Robots.txt yang tidak dapat diakses karena alasan apa pun dapat diartikan sepenuhnya permisif;
Jika robots.txt kosong, maka akan dianggap sepenuhnya permisif;
Sebagai hasil dari daftar beberapa arahan "Agen-pengguna" tanpa umpan baris kosong, semua arahan "Agen-pengguna" berikutnya kecuali yang pertama dapat diabaikan;
Penggunaan karakter apa pun dari alfabet nasional di robots.txt tidak diperbolehkan.

Karena mesin pencari yang berbeda mungkin menafsirkan sintaksis robots.txt secara berbeda, beberapa klausa dapat dihilangkan. Misalnya, jika Anda memasukkan beberapa arahan "Agen-pengguna" tanpa jeda baris kosong, semua arahan "Agen-pengguna" akan diterima dengan benar oleh Yandex, karena Yandex memilih catatan berdasarkan keberadaannya di baris "Agen-pengguna".

Robot harus secara ketat menunjukkan hanya apa yang diperlukan dan tidak ada yang berlebihan. Jangan berpikir cara menulis semuanya di robots txt, apa yang mungkin dan bagaimana cara mengisinya. Robot txt yang ideal adalah yang garisnya lebih sedikit tetapi lebih bermakna. “Singkatnya adalah saudara perempuan dari bakat.” Ungkapan ini berguna di sini.

Bagaimana cara memeriksa robots.txt

Untuk periksa robots.txt Untuk memeriksa kebenaran sintaks dan struktur file, Anda dapat menggunakan salah satu layanan online. Misalnya, Yandex dan Google menawarkan layanan mereka sendiri untuk webmaster, termasuk analisis robots.txt:

Memeriksa file robots.txt di Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

Untuk periksa robots.txt online diperlukan unggah robots.txt ke situs di direktori root. Jika tidak, layanan mungkin melaporkan hal tersebut gagal memuat robots.txt. Disarankan untuk memeriksa terlebih dahulu ketersediaan robots.txt di alamat tempat file berada, misalnya: your_site.ru/robots.txt.

Selain layanan verifikasi dari Yandex dan Google, masih banyak layanan online lainnya validator robots.txt.

Robots.txt vs Yandex dan Google

Ada pendapat subjektif bahwa Yandex memandang indikasi blok arahan terpisah "Agen-pengguna: Yandex" di robots.txt lebih positif daripada blok arahan umum dengan "Agen-pengguna: *". Situasi serupa terjadi pada robots.txt dan Google. Menentukan arahan terpisah untuk Yandex dan Google memungkinkan Anda mengontrol pengindeksan situs melalui robots.txt. Mungkin mereka secara pribadi tersanjung dengan daya tarik tersebut, terutama karena untuk sebagian besar situs, konten blok robots.txt Yandex, Google, dan mesin pencari lainnya akan sama. Dengan pengecualian yang jarang terjadi, semua blok "Agen-pengguna" akan memilikinya standar untuk robots.txt serangkaian arahan. Selain itu, dengan menggunakan “Agen-pengguna” yang berbeda, Anda dapat menginstal larangan pengindeksan di robots.txt untuk Yandex, tapi, misalnya, bukan untuk Google.

Secara terpisah, perlu dicatat bahwa Yandex memperhitungkan arahan penting seperti "Host", dan robots.txt yang benar untuk Yandex harus menyertakan arahan ini untuk menunjukkan cermin utama situs. Kami akan melihat arahan "Host" secara lebih rinci di bawah.

Nonaktifkan pengindeksan: robots.txt Larang

Disallow - melarang arahan, yang paling sering digunakan dalam file robots.txt. Disallow mencegah pengindeksan situs atau bagiannya, bergantung pada jalur yang ditentukan dalam parameter arahan Disallow.

Contoh cara mencegah pengindeksan situs di robots.txt:

Agen pengguna: * Larang: /

Contoh ini memblokir seluruh situs agar tidak mengindeks semua robot.

Parameter direktif Disallow mengizinkan penggunaan karakter khusus* dan $:

* - sejumlah karakter apa pun, misalnya, parameter /page* memenuhi /page, /page1, /page-be-cool, /page/kak-skazat, dll. Namun, tidak perlu menentukan * di akhir setiap parameter, karena misalnya arahan berikut ditafsirkan sama:

Agen pengguna: Yandex Larang: /halaman Agen pengguna: Yandex Larang: /halaman*

$ - menunjukkan kecocokan persis pengecualian dengan nilai parameter:

Agen pengguna: Googlebot Larang: /page$

Dalam hal ini, direktif Disallow akan melarang /page, namun tidak akan melarang pengindeksan halaman /page1, /page-be-cool, atau /page/kak-skazat.

Jika tutup pengindeksan situs robots.txt, mesin pencari mungkin merespons langkah ini dengan kesalahan “Diblokir di file robots.txt” atau “url dibatasi oleh robots.txt” (url dilarang oleh file robots.txt). Jika Anda membutuhkannya nonaktifkan pengindeksan halaman, Anda tidak hanya dapat menggunakan robots txt, tetapi juga tag html serupa:

- jangan mengindeks konten halaman;
- jangan ikuti tautan di halaman;
- dilarang mengindeks konten dan mengikuti tautan pada halaman;
- mirip dengan konten = "tidak ada".

Izinkan pengindeksan: robots.txt Izinkan

Izinkan - arahan permisif dan kebalikan dari arahan Disallow. Arahan ini memiliki sintaks yang mirip dengan Disallow.

Contoh cara melarang pengindeksan suatu situs kecuali beberapa halaman di robots.txt:

Agen-pengguna: * Larang: /Izinkan: /halaman

Dilarang mengindeks seluruh situs, kecuali untuk halaman yang dimulai dengan /halaman.

Larang dan Izinkan dengan nilai parameter kosong

Arahan Disallow Kosong:

Agen pengguna: * Larang:

Tidak melarang apapun atau mengizinkan pengindeksan seluruh situs dan setara dengan:

Agen pengguna: * Izinkan: /

Arahan Izinkan Kosong:

Agen pengguna: * Izinkan:

Tidak mengizinkan apa pun atau sepenuhnya melarang pengindeksan situs sama dengan:

Agen pengguna: * Larang: /

Cermin situs utama: Host robots.txt

Arahan Host digunakan untuk menunjukkan kepada robot Yandex cermin utama situs Anda. Dari semua mesin pencari populer, arahannya Host hanya dikenali oleh robot Yandex. Arahan Host berguna jika situs Anda dapat diakses melalui beberapa saluran, misalnya:

Situs saya.ru situs saya.com

Atau untuk menentukan prioritas antara:

Situs saya.ru www.situssaya.ru

Anda dapat memberi tahu robot Yandex cermin mana yang utama. Arahan Host ditunjukkan dalam blok arahan "Agen-pengguna: Yandex" dan sebagai parameter, alamat situs pilihan tanpa "http://" ditunjukkan.

Contoh robots.txt yang menunjukkan mirror utama:

Agen pengguna: Yandex Larang: /halaman Host: mysite.ru

Cermin utama ditunjukkan nama domain situs saya.ru tanpa www. Dengan demikian, jenis alamat ini akan ditunjukkan dalam hasil pencarian.

Agen pengguna: Yandex Larang: /halaman Host: www.mysite.ru

Nama domain www.mysite.ru diindikasikan sebagai mirror utama.

Arahan host di file robots.txt hanya dapat digunakan sekali, tetapi jika arahan Host ditentukan lebih dari satu kali, hanya arahan pertama yang akan diperhitungkan, arahan Host lainnya akan diabaikan.

Jika Anda ingin menentukan mirror utama untuk Robot Google, gunakan layanan ini Alat Google untuk webmaster.

Peta Situs: peta situs robots.txt

Dengan menggunakan arahan Peta Situs, Anda dapat menentukan lokasi situs di robots.txt.

Contoh robots.txt yang menunjukkan alamat peta situs:

Agen pengguna: * Larang: /halaman Peta Situs: http://www.mysite.ru/sitemap.xml

Menentukan alamat peta situs melalui Arahan peta situs di robots.txt memungkinkan robot pencari mengetahui keberadaan peta situs dan mulai mengindeksnya.

Arahan param bersih

Arahan Clean-param memungkinkan Anda mengecualikan halaman dengan parameter dinamis dari pengindeksan. Halaman serupa dapat menyajikan konten yang sama tetapi memiliki URL halaman berbeda. Sederhananya, seolah-olah halaman tersebut dapat diakses di alamat yang berbeda. Tugas kita adalah menghapus semua alamat dinamis yang tidak diperlukan, yang mungkin berjumlah satu juta. Untuk melakukan ini, kami mengecualikan semua parameter dinamis, menggunakan direktif Clean-param di robots.txt.

Sintaks dari direktif Clean-param adalah:

Param bersih: parm1[&parm2&parm3&parm4&..&parmn] [Jalur]

Mari kita lihat contoh halaman dengan URL berikut:

www.situssaya.ru/page.html?&parm1=1&parm2=2&parm3=3

Contoh robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # hanya untuk page.html

Clean-param: parm1&parm2&parm3 / # untuk semua

Arahan penundaan perayapan

Instruksi ini memungkinkan Anda mengurangi beban pada server jika robot terlalu sering mengunjungi situs Anda. Arahan ini relevan terutama untuk situs dengan volume halaman yang besar.

Contoh penundaan perayapan robots.txt:

Agen pengguna: Yandex Larang: /halaman Penundaan perayapan: 3

Dalam hal ini, kami “meminta” robot Yandex untuk memuat halaman situs kami tidak lebih dari sekali setiap tiga detik. Beberapa mesin pencari mendukung format bilangan pecahan sebagai parameter Perintah robots.txt penundaan perayapan.

Arahan Host adalah perintah atau aturan yang memberi tahu mesin pencari mana (dengan atau tanpa www) yang dianggap sebagai mesin utama. Arahan Host terletak di file dan ditujukan khusus untuk Yandex.

Seringkali mesin pencari perlu untuk tidak mengindeks beberapa halaman situs atau mirrornya. Misalnya, sumber daya terletak di satu server, tetapi ada nama domain yang sama di Internet, yang digunakan untuk mengindeks dan menampilkannya di hasil pencarian.

Robot pencari Yandex merayapi halaman situs web dan menambahkan informasi yang dikumpulkan ke database sesuai dengan jadwal mereka sendiri. Selama proses pengindeksan, mereka secara mandiri memutuskan halaman mana yang perlu diproses. Misalnya, robot melewati berbagai forum, papan pesan, katalog, dan sumber daya lain di mana pengindeksan tidak ada gunanya. Mereka juga dapat menentukan situs utama dan mirror. Yang pertama tunduk pada indeksasi, yang terakhir tidak. Seringkali terjadi kesalahan dalam prosesnya. Hal ini dapat dipengaruhi dengan penggunaan direktif Host di file Robots.txt.

Mengapa Anda memerlukan file Robots.txt?

Robots adalah file teks biasa. Itu dapat dibuat menggunakan notepad, tetapi disarankan untuk bekerja dengannya (membuka dan mengedit informasi) di editor teks Buku Catatan++. Kebutuhan berkas ini ketika mengoptimalkan sumber daya web ditentukan oleh beberapa faktor:

Jika file Robots.txt hilang, situs akan terus-menerus kelebihan beban karena pekerjaan mesin pencari.
Ada risiko bahwa mereka akan diindeks halaman tambahan atau situs cermin.

Pengindeksan akan jauh lebih lambat, dan jika salah pengaturan yang diinstal itu mungkin hilang sama sekali dari hasil pencarian Google dan Yandex.

Cara memformat arahan Host di file Robots.txt

File Robots menyertakan arahan Host - instruksi untuk mesin pencari tentang lokasi situs utama dan lokasi mirrornya.

Petunjuk tersebut telah bentuk berikut ejaan: Host: [spasi opsional] [nilai] [spasi opsional]. Aturan penulisan arahan memerlukan kepatuhan terhadap poin-poin berikut:

Kehadiran protokol HTTPS dalam arahan Host untuk mendukung enkripsi. Ini harus digunakan jika akses ke cermin hanya dilakukan melalui saluran aman.
Nama domain yang bukan alamat IP, serta nomor port sumber daya web.

Arahan yang dibuat dengan benar akan memungkinkan webmaster menunjukkan ke mesin pencari di mana cermin utama berada. Sisanya akan dianggap kecil dan oleh karena itu tidak akan diindeks. Biasanya, mirror dapat dibedakan dengan ada tidaknya singkatan www. Jika pengguna tidak menentukan cermin utama sumber daya web melalui Host, mesin pencari Yandex akan mengirimkan pemberitahuan terkait ke Webmaster. Pemberitahuan juga akan dikirimkan jika arahan Host yang bertentangan ditentukan dalam file Robots.

Anda dapat menentukan di mana letak mirror utama situs melalui mesin pencari. Anda perlu mengetikkan alamat sumber daya ke dalam bilah pencarian dan melihat hasil pencarian: situs dengan www di depan domain di bilah alamat adalah domain utama.

Jika sumber daya tidak ditampilkan pada halaman hasil pencarian, pengguna dapat secara mandiri menetapkannya sebagai cermin utama dengan membuka bagian yang sesuai di Yandex.Webmaster. Jika webmaster mengharuskan nama domain situs tidak mengandung www, maka nama tersebut tidak boleh ditentukan di Host.

Banyak webmaster menggunakan domain Cyrillic sebagai mirror tambahan untuk situs mereka. Namun, arahan Host tidak mendukung Sirilik. Untuk melakukan ini, perlu menggandakan kata-kata dalam bahasa Latin, dengan syarat kata-kata tersebut mudah dikenali dengan menyalin alamat situs dari bilah alamat.

Host di file Robots

Tujuan utama dari arahan ini adalah untuk memecahkan masalah dengan halaman duplikat. Anda perlu menggunakan Host jika sumber daya web ditujukan untuk audiens berbahasa Rusia dan, karenanya, situs tersebut harus diurutkan dalam sistem Yandex.

Tidak semua mesin pencari mendukung arahan Host. Fungsi ini hanya tersedia di Yandex. Apalagi di sini pun tidak ada jaminan bahwa domain akan ditetapkan sebagai mirror utama, namun menurut Yandex sendiri, prioritas selalu tetap pada nama yang ditentukan di host.

Agar mesin pencari dapat membaca informasi dengan benar saat memproses file robots.txt, arahan Host harus disertakan dalam grup yang sesuai, dimulai setelah kata Agen-Pengguna. Namun, robot akan dapat menggunakan Host terlepas dari apakah arahan tersebut ditulis sesuai aturan atau tidak, karena bersifat titik-temu.

Salam, teman-teman dan pelanggan blog saya. Agenda hari ini adalah Robots.txt, semua yang ingin Anda ketahui tentangnya, secara singkat, tanpa basa-basi yang tidak perlu.

Apa itu Robots.txt dan mengapa diperlukan?

Robots.txt diperlukan untuk menunjukkan kepada mesin pencari (Yandex, Google, dll.) seberapa benar (dari sudut pandang Anda) situs tersebut harus diindeks. Halaman, bagian, produk, artikel mana yang perlu diindeks, dan sebaliknya, mana yang tidak perlu.

Robots.txt adalah file teks biasa (dengan resolusi .txt) yang diadopsi oleh W3C pada tanggal 30 Januari 1994, dan digunakan oleh sebagian besar mesin pencari, dan biasanya terlihat seperti ini:

Bagaimana pengaruhnya terhadap promosi situs Anda?

Agar berhasil mempromosikan situs web, indeks (basis) Yandex dan Google harus hanya berisi halaman situs yang diperlukan. Di bawah halaman-halaman yang diperlukan Saya memahami hal berikut:

Rumah;
halaman bagian, kategori;
Barang-barang;
Artikel;
Halaman “Tentang perusahaan”, “Kontak”, dll.

Yang saya maksud dengan halaman TIDAK diperlukan adalah sebagai berikut:

Halaman duplikat;
Cetak halaman;
Halaman hasil pencarian;
Halaman sistem, registrasi, login, halaman logout;
Halaman berlangganan (umpan);

Misalnya, jika indeks mesin pencari berisi duplikat dari halaman utama yang dipromosikan, hal ini akan menyebabkan masalah dengan keunikan konten di dalam situs, dan juga akan berdampak negatif pada posisi.

Dimana itu?

File tersebut biasanya terletak di root folder public_html di hosting Anda, di sini:

Apa yang perlu Anda ketahui tentang file Robots.txt

Instruksi robots.txt bersifat nasihat. Artinya pengaturannya adalah petunjuk arah dan bukan perintah langsung. Namun sebagai aturan, baik Yandex dan Google mengikuti instruksi tanpa masalah;
File tersebut hanya dapat dihosting di server;
Itu harus berada di root situs;
Pelanggaran sintaksis menyebabkan kesalahan file, yang dapat berdampak negatif pada pengindeksan;
Pastikan untuk memeriksa sintaks yang benar di panel Webmaster Yandex!

Bagaimana cara memblokir halaman, bagian, file dari pengindeksan?

Misalnya, saya ingin memblokir halaman agar tidak diindeks di Yandex: http://site/page-for-robots/

Untuk melakukan ini, saya perlu menggunakan arahan “Larang” dan URL halaman (bagian, file). Ini terlihat seperti ini:

Agen pengguna: Yandex
Larang: /halaman-untuk-robot/
Tuan rumah: situs web

Jika saya mau kategori dekat
Agen pengguna: Yandex
Larang: /kategori/kasus/
Tuan rumah: situs web

Jika saya ingin memblokir seluruh situs agar tidak diindeks, kecuali bagian tersebut http://site/category/case/, maka Anda perlu melakukan ini:

Agen pengguna: Yandex
Larang: /
Izinkan: /kategori/kasus/
Tuan rumah: situs web

Sebaliknya, arahan "Izinkan" menunjukkan halaman, bagian, file mana yang perlu diindeks.

Saya pikir logika konstruksinya telah menjadi jelas bagi Anda. Harap dicatat bahwa aturan hanya akan berlaku untuk Yandex, karena Agen pengguna ditentukan: Yandex. Google akan mengabaikan desain ini dan akan mengindeks seluruh situs.

Jika Anda ingin menulis aturan universal untuk semua mesin pencari, gunakan: Agen-pengguna: *. Contoh:

Agen pengguna: *
Larang: /
Izinkan: /kategori/kasus/
Tuan rumah: situs web

Agen pengguna adalah nama robot yang instruksinya dimaksudkan. Nilai defaultnya adalah * (tanda bintang) - ini berarti bahwa instruksi tersebut ditujukan untuk semua robot pencari.
Nama robot yang paling umum:

Yandex – semua robot mesin pencari Yandex
YandexImages – pengindeks gambar
Googlebot- robot Google
BingBot – robot dari sistem Bing
YaDirectBot – robot sistem periklanan kontekstual Yandex.

Tautan ke ulasan rinci semua arahan Yandex dan Google.

Apa yang harus ada di file Robots.txt yang lebih tinggi

Petunjuk Host dikonfigurasi. Itu harus menyatakan cermin utama Situs web Anda. Cermin utama: situs.ru atau www.site.ru. Jika situs Anda menggunakan http S, maka ini juga harus ditunjukkan. Cermin utama di host dan di Yandex.Webmaster harus cocok.
Bagian dan halaman situs yang tidak memuat muatan berguna, serta halaman dengan konten duplikat, halaman cetak, hasil pencarian, dan halaman sistem harus ditutup dari pengindeksan (menggunakan arahan Disallow:).
Berikan tautan ke sitemap.xml (peta situs Anda di format xml).
Peta Situs: http://site.ru/sitemap.xml

Indikasi cermin utama

Pertama, Anda perlu mencari tahu mirror mana yang Anda miliki sebagai mirror utama secara default. Untuk melakukan ini, masukkan URL situs Anda di Yandex, arahkan ke URL di hasil pencarian dan di kiri bawah jendela browser akan ditunjukkan apakah situs tersebut memiliki domain www atau tidak. Dalam hal ini, tanpa WWW.

Jika domain ditentukan dengan https, lalu di Robots dan Yandex.Webmaster Anda harus menentukan https! Ini terlihat seperti ini: