
Protokol Pengecualian Robot (REP), yang lebih dikenal dengan robots.txt, sudah ada sejak tahun 1994.
Meskipun baru secara resmi diadopsi sebagai standar pada tahun 2022, penggunaan file robots.txt telah menjadi salah satu praktik terbaik SEO sejak awal dan tetap menjadi alat penting untuk optimasi situs hingga saat ini.
File sederhana namun kuat ini membantu mengontrol bagaimana mesin pencari dan bot lainnya berinteraksi dengan situs kita.
Pembaruan terbaru membuat kita perlu memahami cara terbaik untuk menggunakannya.
Mengapa robots.txt itu penting
Robots.txt adalah sekumpulan instruksi untuk web crawlers, yang memberi tahu mereka apa yang boleh dan tidak boleh dilakukan di situs kita.
Ini membantu kita menjaga bagian tertentu dari situs tetap pribadi atau menghindari crawling halaman yang tidak penting.
Dengan cara ini, kita bisa meningkatkan SEO dan menjaga situs kita berjalan dengan lancar.
Cara mengatur file robots.txt
Membuat file robots.txt itu sederhana.
File ini menggunakan perintah-perintah sederhana untuk menginstruksikan crawlers tentang bagaimana berinteraksi dengan situs kita.
Perintah yang penting adalah:
User-agent, yang menentukan bot yang kita targetkan.Disallow, yang memberi tahu bot di mana ia tidak boleh pergi.
Berikut adalah dua contoh dasar yang menunjukkan bagaimana robots.txt mengontrol akses crawler.
Contoh ini memungkinkan semua bot untuk merayapi seluruh situs:
User-agent: *
Disallow:
Contoh ini mengarahkan bot untuk merayapi seluruh situs kecuali folder "Keep Out":
User-agent: *
Disallow: /keep-out/
Kita juga bisa menentukan bot tertentu untuk tidak masuk:
User-agent: Googlebot
Disallow: /
Contoh ini menginstruksikan Googlebot untuk tidak merayapi bagian mana pun dari situs. Ini tidak disarankan, tapi kita bisa memahami maksudnya.
Menggunakan wildcard
Seperti yang kita lihat dalam contoh di atas, wildcard (*) sangat berguna untuk membuat file robots.txt yang fleksibel.
Mereka memungkinkan kita menerapkan aturan pada banyak bot atau halaman tanpa harus mencantumkan masing-masing.
Kontrol tingkat halaman
Kita memiliki banyak kontrol atas spidering jika diperlukan.
Jika kita hanya perlu memblokir halaman tertentu daripada memblokir seluruh direktori, kita bisa memblokir hanya file-file tertentu. Ini memberi kita lebih banyak fleksibilitas dan ketepatan.
Contoh:
User-agent: *
Disallow: /keep-out/file1.html
Disallow: /keep-out/file2.html
Hanya halaman yang diperlukan yang dibatasi, sehingga konten berharga kita tetap terlihat.
Menggabungkan perintah
Dulu, direktif Disallow adalah satu-satunya yang tersedia, dan Google cenderung menerapkan direktif yang paling ketat dalam file tersebut.
Pembaruan terbaru telah memperkenalkan direktif Allow, memberi pemilik situs lebih banyak kontrol granular tentang bagaimana situs mereka dirayapi.
Misalnya, kita bisa menginstruksikan bot untuk hanya merayapi folder "Penting" dan tetap berada di luar tempat lain:
User-agent: *
Disallow: /
Allow: /important/
Kita juga bisa menggabungkan perintah untuk membuat aturan yang kompleks.
Contoh:
User-agent: *
Disallow: /private/
Allow: /private/public-file.html
Ini memungkinkan kita untuk menjaga file tertentu tetap dapat diakses sementara melindungi yang lainnya.
Karena default robots.txt adalah mengizinkan semua, menggabungkan direktif Disallow dan Allow umumnya tidak diperlukan. Menjaga kesederhanaan biasanya lebih baik.
Akan tetapi, ada situasi yang memerlukan konfigurasi yang lebih canggih.
Jika kita mengelola situs yang menggunakan parameter URL pada tautan menu untuk melacak klik melalui situs dan kita tidak bisa menerapkan tag kanonik, kita bisa memanfaatkan direktif robots.txt untuk mengurangi masalah konten duplikat.
Contoh:
User-agent: *
Disallow: /*?*
Situasi lain di mana konfigurasi lanjutan mungkin diperlukan adalah jika kesalahan konfigurasi menyebabkan URL berkualitas rendah muncul secara acak di folder yang dinamai secara acak.
Dalam kasus ini, kita bisa menggunakan file robots.txt untuk menonaktifkan semua folder kecuali yang memiliki konten berharga.
Contoh:
User-agent: *
Disallow: /
Allow: /essential-content/
Allow: /valuable-content-1/
Allow: /valuable-content-2/
Komentar
Komentar bisa menjadi cara yang berguna untuk menguraikan informasi dengan cara yang lebih ramah manusia.
Komentar diawali dengan tanda pagar (#).
Pada file yang diperbarui secara manual, saya merekomendasikan untuk menambahkan tanggal pembuatan atau pembaruan file.
Ini dapat membantu dalam pemecahan masalah jika versi yang lebih lama secara tidak sengaja dipulihkan dari cadangan.
Contoh:
#file robots.txt untuk www.example-site.com – diperbarui 22/03/2025
User-agent: *
#memblokir konten bernilai rendah
Disallow: /bogus-folder/
Mengelola laju crawl
Mengelola laju crawl adalah kunci untuk menjaga beban server kita tetap terkendali dan memastikan indeksasi yang efisien.
Perintah Crawl-delay memungkinkan kita untuk menetapkan jeda antara permintaan bot.
Contoh:
User-agent: *
Crawl-delay: 10
Dalam contoh ini, kita meminta bot untuk menunggu 10 detik antara permintaan, mencegah kelebihan beban dan menjaga semuanya tetap lancar.
Bot yang lebih canggih dapat merasakan ketika mereka membebani server, dan direktif Crawl-delay tidak diperlukan sebanyak yang mungkin diperlukan di masa lalu.
Tautan XML sitemap
Meski Google dan Bing lebih menyukai pemilik situs untuk mengirimkan XML sitemaps melalui Google Search Console dan Bing Webmaster Tools, masih merupakan standar yang diterima untuk menambahkan tautan ke XML sitemap situs di bagian bawah file robots.txt.
Ini mungkin tidak diperlukan, tetapi menambahkannya tidak ada salahnya dan bisa bermanfaat.
Contoh:
User-agent: *
Disallow:
Sitemap: https://www.my-site.com/sitemap.xml
Jika kita menambahkan tautan ke XML sitemap, pastikan URL-nya lengkap.
Kesalahan umum dengan robots.txt
Sintaks yang salah
Pastikan perintah kita diformat dengan benar dan dalam urutan yang tepat.
Kesalahan dapat menyebabkan salah tafsir.
Periksa robots.txt kita untuk kesalahan di Google Search Console – pemeriksaan robots.txt ada di Pengaturan.
Terlalu membatasi akses
Memblokir terlalu banyak halaman dapat merugikan pengindeksan situs kita.
Gunakan perintah Disallow dengan bijak dan pikirkan dampaknya terhadap visibilitas pencarian.
Ini bisa berlaku untuk memblokir bot yang memberi umpan ke alat pencarian AI yang lebih baru.
Jika kita memblokir bot tersebut, kita tidak memiliki kesempatan untuk muncul dalam jawaban yang dihasilkan layanan tersebut.
Melupakan bahwa bot tidak selalu mengikuti protokol
Tidak semua spider mematuhi Protokol Pengecualian Robot.
Jika kita perlu memblokir bot yang tidak "berperilaku" dengan baik, kita perlu mengambil langkah lain untuk menjaga mereka tetap keluar.
Juga penting untuk diingat bahwa memblokir spider di robots.txt tidak menjamin informasi tidak akan muncul dalam indeks.
Misalnya, Google secara khusus memperingatkan bahwa halaman dengan tautan masuk dari situs lain mungkin muncul dalam indeksnya.
Jika kita ingin memastikan halaman tidak muncul dalam indeks, gunakan tag meta noindex sebagai gantinya.
Direktif khusus diperlukan untuk bot AI
Salah satu kesalahpahaman umum di dunia optimasi adalah bahwa bot AI memerlukan direktif allow mereka sendiri. Mereka tidak.
Kebanyakan crawler AI mengikuti REP, jadi jika robots.txt kita mengizinkan semua bot, mereka akan merayapi situs tersebut.
Jika kita melarang semua bot, mereka tidak akan. Tidak ada direktif tambahan yang diperlukan.
Kesederhanaan tetap unggul dalam robots.txt
Seperti yang disebutkan di atas, umumnya lebih baik untuk menjaga hal-hal sederhana dengan file robots.txt.
Pembaruan dalam cara mereka diinterpretasikan, bagaimanapun, menjadikannya alat yang jauh lebih kuat daripada sebelumnya.
Untuk wawasan lebih lanjut dan contoh yang lebih mendetail, lihat artikel-artikel dari Google Search Central: