كيفية إنشاء ملف الروبوتات. كيفية تحرير ملف robots.txt

كيفية إنشاء ملف الروبوتات.  كيفية تحرير ملف robots.txt
كيفية إنشاء ملف الروبوتات. كيفية تحرير ملف robots.txt

شرح القيم:

  • وكيل المستخدم: * - يمكنك الوصول إلى جميع محركات البحث في وقت واحد، ياندكس - ياندكس فقط.
  • عدم السماح: يسرد المجلدات والملفات المحظور فهرستها
  • المضيف – أدخل اسم موقعك بدون www.
  • خريطة الموقع: رابط إلى خريطة موقع XML.

ضع الملف في الدليل الجذر للموقع باستخدام Filezilla أو من خلال موقع الاستضافة. انشره في الدليل الرئيسي ليكون متاحًا عبر الرابط: your_site.ru/robots.txt

وهي مناسبة فقط لمن لديهم ماكينات CNC (الروابط مكتوبة بالكلمات وليس بالشكل p=333). ما عليك سوى الانتقال إلى الإعدادات - الروابط الدائمة، وتحديد الخيار السفلي وإدخال /%postname% في الحقل.

يفضل بعض الأشخاص إنشاء هذا الملف بأنفسهم:

للبدء، أنشئ مفكرة على جهاز الكمبيوتر الخاص بك وقم بتسميتها "روبوتات" (لا تستخدم الأحرف الكبيرة). وفي نهاية الإعدادات يجب ألا يزيد حجمها عن 500 كيلو بايت.

وكيل المستخدم- اسم محرك البحث(ياندكس، جوجلبوت، ستاك رامبلر). إذا أردت أن تنال إعجاب الجميع في وقت واحد، ضع نجمة *

ثم حدد الصفحات أو المجلدات التي لا ينبغي لهذا الروبوت أن يفهرسها عدم السماح:

أولاً، يتم سرد ثلاثة أدلة، ثم ملف محدد.

للسماح بفهرسة كل شيء وكل شخص، عليك أن تكتب:

وكيل المستخدم: *
عدم السماح:

إعداد ملف robots.txt لـ Yandex وGoogle

بالنسبة لـ Yandexتحتاج بالتأكيد إلى إضافة توجيه المضيف لتجنب الصفحات المكررة. لا يفهم هذه الكلمة إلا روبوت Yandex، لذا اكتب التعليمات الخاصة بها بشكل منفصل.

لجوجللا توجد إضافات. الشيء الوحيد الذي تحتاج إلى معرفته هو كيفية الوصول إليه. في قسم وكيل المستخدم عليك أن تكتب:

  • جوجل بوت؛
  • Googlebot-Image – إذا قمت بتقييد فهرسة الصور؛
  • Googlebot للجوال - ل اصدار المحمولموقع.

كيفية التحقق من وظيفة ملف robots.txt

يمكن القيام بذلك في قسم "أدوات مشرفي المواقع" من محرك بحث جوجلأو على موقع Yandex.Webmaster الإلكتروني في قسم التحقق من ملف robots.txt.

إذا كانت هناك أخطاء، قم بتصحيحها والتحقق مرة أخرى. يحقق نتيجة جيدةثم لا تنس نسخ الرمز الصحيح في ملف robots.txt وتحميله على الموقع.

الآن لديك فكرة عن كيفية إنشاء ملف robots.txt لجميع محركات البحث. أوصي للمبتدئين للاستخدام ملف جاهز، استبدال اسم موقعك.

Robots.txt هو ملف نصي يحتوي على معلمات فهرسة الموقع لروبوتات محرك البحث.

توصيات بشأن محتوى الملف

يدعم Yandex التوجيهات التالية:

التوجيه ماذا تعمل، أو ماذا تفعل
وكيل المستخدم *
عدم السماح
خريطة الموقع
نظيفة المعلمة
يسمح
تأخير الزحف

نوصي باستخدام إعداد سرعة الزحف

التوجيه ماذا تعمل، أو ماذا تفعل
وكيل المستخدم * يشير إلى الروبوت الذي تنطبق عليه القواعد المدرجة في ملف robots.txt.
عدم السماح يمنع فهرسة أقسام الموقع أو الصفحات الفردية.
خريطة الموقع يحدد المسار إلى ملف Sitemap الذي يتم نشره على الموقع.
نظيفة المعلمة يشير إلى الروبوت أن عنوان URL للصفحة يحتوي على معلمات (مثل علامات UTM) التي يجب تجاهلها عند فهرستها.
يسمح يسمح بفهرسة أقسام الموقع أو الصفحات الفردية.
تأخير الزحف

يحدد الحد الأدنى للفاصل الزمني (بالثواني) الذي ينتظره روبوت البحث بعد تحميل صفحة واحدة، قبل البدء في تحميل صفحة أخرى.

نوصي باستخدام إعداد سرعة الزحف في Yandex.Webmaster بدلاً من التوجيه.

* التوجيه الإلزامي.

ستحتاج في أغلب الأحيان إلى توجيهات Disallow وSitemap وClean-param. على سبيل المثال:

وكيل المستخدم: * # حدد الروبوتات التي تم تعيين التوجيهات لها Disallow: /bin/ # تعطيل الروابط من عربة التسوق. عدم السماح: /بحث/ # تعطيل روابط صفحة البحث المضمنة في الموقع عدم السماح: /admin/ # تعطيل الروابط من لوحة الإدارة خريطة الموقع: http://example.com/sitemap # حدد للروبوت ملف خريطة الموقع الخاص بالموقع معلمة التنظيف: المرجع /some_dir/get_book.pl

قد تفسر الروبوتات من محركات البحث والخدمات الأخرى التوجيهات بطريقة مختلفة.

ملحوظة.

يأخذ الروبوت في الاعتبار حالة السلاسل الفرعية (اسم الملف أو المسار، اسم الروبوت) ويتجاهل الحالة في أسماء التوجيهات.

باستخدام الحروف السيريلية لا يُسمح باستخدام الأبجدية السيريلية في ملف robots.txt والخادم.

رؤوس HTTP

لأسماء النطاقات، استخدم Punycode . بالنسبة لعناوين الصفحات، استخدم نفس الترميز الخاص ببنية الموقع الحالية.ملف Robots.txtملف نصي بتنسيق ‎.txt، مما يقيد وصول روبوتات البحث إلى المحتوى الموجود على خادم http. كيفالتعريف، ملف Robots.txt - هذامعيار استثناء الروبوت ملفات معينةأو صفحات أو كتالوجات على الموقع. لنفكر في وصف ملف robots.txt للحالة التي لا يقيد فيها الموقع وصول الروبوتات إلى الموقع.

مثال بسيط لملف robots.txt:

وكيل المستخدم: * السماح: /

تسمح الروبوتات هنا بفهرسة الموقع بالكامل.

يجب تحميل ملف robots.txt إلى الدليل الجذر لموقعكبحيث يكون متوفرا في:

Your_site.ru/robots.txt

عادةً ما يتطلب وضع ملف robots.txt في جذر الموقع الوصول إلى بروتوكول نقل الملفات (FTP).. ومع ذلك، تتيح بعض أنظمة الإدارة (CMS) إمكانية إنشاء ملف robots.txt مباشرة من لوحة تحكم الموقع أو من خلال مدير FTP المدمج.

إذا كان الملف متاحًا، فسترى محتويات ملف robots.txt في المتصفح.

ما هو ملف robots.txt؟

يعد Roots.txt لموقع ما جانبًا مهمًا. لماذا نحتاج إلى ملف robots.txt؟؟ على سبيل المثال، في هناك حاجة إلى ملف SEO robots.txt لاستبعاد الصفحات التي لا تحتوي على محتوى مفيد وغير ذلك الكثير من الفهرسة.. كيف وماذا ولماذا ولماذا تم استبعاده، تم وصفه بالفعل في المقالة، لن نتناول هذا الأمر هنا. هل ملف robots.txt ضروري؟لجميع المواقع؟ نعم و لا. إذا كان استخدام ملف robots.txt يعني استبعاد الصفحات من البحث، فقد تكون هذه الاستثناءات غير ضرورية بالنسبة للمواقع الصغيرة ذات البنية البسيطة والصفحات الثابتة. ومع ذلك، قد يكون بعضها مفيدًا لموقع صغير توجيهات robots.txt، على سبيل المثال توجيه المضيف أو ملف Sitemap، ولكن المزيد عن ذلك أدناه.

كيفية إنشاء ملف robots.txt

لأن ملف robots.txt هو ملف نصي، و إنشاء ملف robots.txtيمكنك استخدام أي محرر نصوص، على سبيل المثال المفكرة. بمجرد فتح واحدة جديدة وثيقة نصية، لقد بدأت بالفعل في إنشاء ملف robots.txt، كل ما تبقى هو إنشاء محتوياته، وفقًا لمتطلباتك، وحفظها باسم ملف نصي يسمى الروبوتات في تنسيق النص . كل شيء بسيط، وإنشاء ملف robots.txt لا ينبغي أن يسبب مشاكل حتى للمبتدئين. سأوضح لك أدناه كيفية إنشاء ملف robots.txt وما يجب كتابته في ملف robots باستخدام الأمثلة.

قم بإنشاء ملف robots.txt عبر الإنترنت

خيار للكسول - أنشئ ملف robots عبر الإنترنت وقم بتنزيل ملف robots.txtبالفعل في الشكل النهائي. يقدم إنشاء ملف robots txt عبر الإنترنت العديد من الخدمات، والخيار لك. الشيء الرئيسي هو أن نفهم بوضوح ما هو محظور وما هو مسموح به، وإلا يمكن أن يتحول إنشاء ملف robots.txt عبر الإنترنت إلى مأساة، والتي قد يكون من الصعب تصحيحها لاحقًا. خاصة إذا كان البحث يتضمن شيئاً كان ينبغي إغلاقه. كن حذرًا - تحقق من ملف الروبوتات الخاص بك قبل تحميله على الموقع. حتى الآن ملف robots.txt المخصصيعكس بشكل أكثر دقة بنية القيود مقارنة بتلك التي تم إنشاؤها تلقائيًا وتنزيلها من موقع آخر. تابع القراءة لتعرف ما يجب الانتباه إليه بشكل خاص عند تحرير ملف robots.txt.

تحرير ملف robots.txt

بمجرد أن تتمكن من إنشاء ملف robots.txt عبر الإنترنت أو بيديك، يمكنك ذلك تحرير ملف robots.txt. يمكنك تغيير محتوياته كما يحلو لك، والشيء الرئيسي هو اتباع بعض القواعد وبناء جملة ملف robots.txt. أثناء العمل في الموقع قد يتغير ملف الروبوتات، وإذا قمت بتحرير ملف robots.txt فلا تنس رفع الملف المحدث إلى الموقع، النسخة الحاليةالملف مع كافة التغييرات. بعد ذلك، دعونا نلقي نظرة على قواعد إعداد الملف حتى نعرفه كيفية تغيير ملف robots.txtو"لا تقطعوا الخشب".

إعداد ملف robots.txt بشكل صحيح

الإعداد الصحيحملف robots.txtيسمح لك بتجنب المعلومات الخاصة من الدخول إلى نتائج البحث لمحركات البحث الرئيسية. ومع ذلك، لا ينبغي لأحد أن ينسى ذلك أوامر robots.txt ليست أكثر من مجرد دليل للعمل، وليست للحماية. تتبع الروبوتات من محركات البحث الموثوقة مثل Yandex أو Google تعليمات ملف robots.txt، ولكن يمكن للروبوتات الأخرى تجاهلها بسهولة. إن الفهم والتطبيق الصحيحين لملف robots.txt هو المفتاح للحصول على النتائج.

لفهم كيفية عمل ملف robots txt الصحيح، أولا تحتاج إلى التعامل معها قواعد عامةوبناء جملة وتوجيهات ملف robots.txt.

يبدأ ملف robots.txt الصحيح بتوجيه وكيل المستخدم، مما يشير إلى التوجيهات المحددة للروبوت الموجهة إليها.

أمثلة على وكيل المستخدم في ملف robots.txt:

# يشير إلى التوجيهات لجميع الروبوتات في نفس الوقت وكيل المستخدم: * # يشير إلى التوجيهات لجميع روبوتات Yandex وكيل المستخدم: Yandex # يشير إلى التوجيهات الخاصة بوكيل مستخدم روبوت فهرسة Yandex الرئيسي فقط: YandexBot # يشير إلى التوجيهات لجميع مستخدمي Google robots -الوكيل: Googlebot

يرجى ملاحظة أن هذا إعداد ملف robots.txtيخبر الروبوت باستخدام التوجيهات التي تطابق اسم وكيل المستخدم فقط.

مثال لملف robots.txt مع تكرارات متعددة لوكيل المستخدم:

# سيتم استخدامه من قبل جميع روبوتات Yandex وكيل المستخدم: Yandex Disallow: /*utm_ # سيتم استخدامه من قبل جميع روبوتات Google وكيل المستخدم: Googlebot Disallow: /*utm_ # سيتم استخدامه من قبل جميع الروبوتات باستثناء روبوتات Yandex ومستخدم Google- الوكيل: * السماح: / *utm_

توجيه وكيل المستخدمينشئ فقط تعليمات لروبوت معين، وبعد توجيه وكيل المستخدم مباشرة يجب أن يكون هناك أمر أو أوامر تشير مباشرة إلى حالة الروبوت المحدد. يستخدم المثال أعلاه التوجيه "Disallow"، الذي له القيمة "/*utm_". وهكذا نغلق كل شيء. يؤدي تعيين ملف robots.txt بشكل صحيح إلى منع وجود فواصل أسطر فارغة بين توجيهات "وكيل المستخدم" و"عدم السماح" والتوجيهات التي تتبع "عدم السماح" داخل "وكيل المستخدم" الحالي.

مثال على تغذية سطر غير صحيحة في ملف robots.txt:

مثال على تغذية السطر الصحيح في ملف robots.txt:

وكيل المستخدم: عدم السماح لـ Yandex: /*utm_ السماح: /*id= وكيل المستخدم: * عدم السماح: /*utm_ السماح: /*id=

وكما يتبين من المثال، التعليمات الموجودة في ملف robots.txt تأتي على شكل كتل، يحتوي كل منها على تعليمات إما لروبوت معين أو لجميع الروبوتات "*".

ومن المهم أيضًا التأكد من الترتيب والفرز الصحيح للأوامر في ملف robots.txt عند استخدام التوجيهات مثل "Disallow" و"Allow" معًا. إن التوجيه "السماح" هو توجيه متساهل، وهو عكس أمر "Disallow" الخاص بـ robots.txt، وهو توجيه محظور.

مثال مشاركةالتوجيهات في ملف robots.txt:

وكيل المستخدم: * السماح: /blog/page عدم السماح: /blog

هذا المثاليمنع جميع برامج الروبوت من فهرسة جميع الصفحات التي تبدأ بـ "/blog"، ولكنه يسمح بفهرسة جميع الصفحات التي تبدأ بـ "/blog/page".

المثال السابق لملف robots.txt في الترتيب الصحيح:

وكيل المستخدم: * عدم السماح: /blog السماح: /blog/page

أولاً نحظر القسم بأكمله، ثم نسمح ببعض أجزاء منه.

آخر مثال ملف robots.txt الصحيحبتوجيهات مشتركة:

وكيل المستخدم: * السماح: / عدم السماح: /blog السماح: /blog/page

انتبه إلى التسلسل الصحيح للتوجيهات في ملف robots.txt هذا.

يمكن تحديد التوجيهات "Allow" و"Disallow" بدون معلمات، وفي هذه الحالة سيتم تفسير القيمة بشكل عكسي مع المعلمة "/".

مثال لتوجيه "Disallow/Allow" بدون معلمات:

وكيل المستخدم: * عدم السماح: # يعادل السماح: / عدم السماح: /blog السماح: /blog/page

كيفية إنشاء ملف robots.txt الصحيحوكيفية استخدام تفسير التوجيهات هو اختيارك. سيكون كلا الخيارين صحيحين. الشيء الرئيسي هو عدم الخلط.

لإنشاء ملف robots.txt بشكل صحيح، من الضروري الإشارة بدقة في معلمات التوجيهات إلى الأولويات وما سيتم حظر تنزيله بواسطة الروبوتات. سننظر في استخدام التوجيهات "Disallow" و"Allow" بشكل أكثر تفصيلاً أدناه، ولكننا سنلقي نظرة الآن على بناء جملة ملف robots.txt. إن معرفة بناء جملة ملف robots.txt ستقربك من ذلك قم بإنشاء ملف robots txt المثالي بيديك.

بناء جملة Robots.txt

تتبع روبوتات محركات البحث أوامر robots.txt طوعًا- معيار لاستثناءات الروبوت، ولكن لا تتعامل جميع محركات البحث مع بناء جملة ملف robots.txt بنفس الطريقة. يحتوي ملف robots.txt على بنية محددة بدقة، ولكن في نفس الوقت كتابة ملف robots.txtليست صعبة، لأن هيكلها بسيط جدا وسهل الفهم.

فيما يلي قائمة محددة من القواعد البسيطة، والتي ستحذفها بعد ذلك الأخطاء الشائعةملف robots.txt:

  1. يبدأ كل توجيه بسطر جديد؛
  2. لا تحدد أكثر من توجيه واحد في سطر واحد؛
  3. لا تضع مسافة في بداية السطر؛
  4. يجب أن تكون معلمة التوجيه على سطر واحد؛
  5. ليست هناك حاجة لإحاطة معلمات التوجيه بعلامات اقتباس؛
  6. لا تتطلب معلمات التوجيه فواصل منقوطة زائدة؛
  7. يتم تحديد الأمر في ملف robots.txt بالتنسيق - [اسم_التوجيه]:[مساحة اختيارية][قيمة][مساحة اختيارية]؛
  8. يُسمح بالتعليقات في ملف robots.txt بعد علامة التجزئة #؛
  9. يمكن تفسير فاصل الأسطر الفارغ على أنه نهاية توجيه وكيل المستخدم؛
  10. التوجيه "عدم السماح:" (مع قيمة فارغة) يعادل "السماح: /" - السماح بكل شيء؛
  11. لا تحدد التوجيهات "Allow" و"Disallow" أكثر من معلمة واحدة؛
  12. اسم ملف robots.txt لا يسمح بالأحرف الكبيرة، والتهجئة غير الصحيحة لاسم الملف هي Robots.txt أو ROBOTS.TXT؛
  13. تعتبر كتابة أسماء التوجيهات والمعلمات بأحرف كبيرة شكلاً سيئًا، وحتى إذا كان ملف robots.txt حساسًا لحالة الأحرف وفقًا للمعايير، فإن أسماء الملفات والدليل غالبًا ما تكون حساسة لحالة الأحرف؛
  14. إذا كانت معلمة التوجيه عبارة عن دليل، فإن اسم الدليل يسبقه دائمًا شرطة مائلة "/"، على سبيل المثال: Disallow: /category
  15. يعتبر ملف robots.txt الكبير جدًا (أكثر من 32 كيلوبايت) مسموحًا به تمامًا، ويعادل "Disallow:"؛
  16. يمكن تفسير ملف Robots.txt الذي لا يمكن الوصول إليه لأي سبب من الأسباب على أنه مسموح به تمامًا؛
  17. إذا كان ملف robots.txt فارغًا، فسيتم التعامل معه على أنه مسموح به تمامًا؛
  18. نتيجة لإدراج عدة توجيهات "وكيل المستخدم" بدون تغذية سطر فارغ، قد يتم تجاهل جميع توجيهات "وكيل المستخدم" اللاحقة باستثناء الأول؛
  19. لا يُسمح باستخدام أي أحرف من الحروف الهجائية الوطنية في ملف robots.txt.

وبما أن محركات البحث المختلفة قد تفسر بناء جملة ملف robots.txt بشكل مختلف، فمن الممكن حذف بعض الجمل. على سبيل المثال، إذا قمت بإدخال عدة توجيهات "وكيل المستخدم" دون فاصل أسطر فارغ، فسيتم قبول جميع توجيهات "وكيل المستخدم" بشكل صحيح بواسطة Yandex، نظرًا لأن Yandex تحدد السجلات بناءً على وجودها في سطر "وكيل المستخدم".

يجب أن تشير الروبوتات بدقة إلى ما هو مطلوب فقط وليس أي شيء غير ضروري. لا تفكر كيفية كتابة كل شيء في ملف robots txtما هو ممكن وكيفية ملئه. الروبوتات المثالية TXTهو الذي يحتوي على عدد أقل من الأسطر ولكنه أكثر معنى. "الإيجاز هو روح الطرافة". هذا التعبير مفيد هنا.

كيفية التحقق من ملف robots.txt

بغرض تحقق من ملف robots.txtللتحقق من صحة بناء الجملة وبنية الملف، يمكنك استخدام إحدى الخدمات عبر الإنترنت. على سبيل المثال، تقدم Yandex وGoogle خدماتهما الخاصة لمشرفي المواقع، والتي تشمل تحليل ملف robots.txt:

التحقق من ملف robots.txt في Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

بغرض تحقق من ملف robots.txt عبر الإنترنتضروري قم بتحميل ملف robots.txt إلى الموقع في الدليل الجذر. وبخلاف ذلك، قد تقوم الخدمة بالإبلاغ عن ذلك فشل تحميل ملف robots.txt. يوصى أولاً بالتحقق من توفر ملف robots.txt على العنوان الذي يوجد به الملف، على سبيل المثال: your_site.ru/robots.txt.

بالإضافة إلى خدمات التحقق من Yandex وGoogle، هناك العديد من الخدمات الأخرى عبر الإنترنت أدوات التحقق من صحة ملف robots.txt.

Robots.txt مقابل ياندكس وجوجل

هناك رأي شخصي مفاده أن Yandex تنظر إلى الإشارة إلى كتلة منفصلة من التوجيهات "User-agent: Yandex" في ملف robots.txt بشكل أكثر إيجابية من مجموعة التوجيهات العامة التي تحتوي على "User-agent: *". الوضع مشابه مع ملف robots.txt وGoogle. يتيح لك تحديد توجيهات منفصلة لـ Yandex وGoogle التحكم في فهرسة الموقع عبر ملف robots.txt. ربما يشعرون بالاطراء الشخصي من هذا النداء، خاصة وأن محتويات كتل ملف robots.txt الخاصة بـ Yandex وGoogle ومحركات البحث الأخرى ستكون هي نفسها بالنسبة لمعظم المواقع. مع استثناءات نادرة، سيتم تضمين جميع كتل "وكيل المستخدم". المعيار لملف robots.txtمجموعة من التوجيهات. يمكنك أيضًا تثبيت "وكلاء المستخدم" المختلفين حظر الفهرسة في ملف robots.txt لـ Yandex، ولكن، على سبيل المثال، ليس لجوجل.

بشكل منفصل، تجدر الإشارة إلى أن Yandex يأخذ في الاعتبار هذا التوجيه المهم مثل "المضيف"، ويجب أن يتضمن ملف robots.txt الصحيح لـ Yandex هذا التوجيه للإشارة إلى المرآة الرئيسية للموقع. سنلقي نظرة على توجيه "المضيف" بمزيد من التفاصيل أدناه.

تعطيل الفهرسة: عدم السماح بملف robots.txt

عدم السماح - حظر التوجيه، والذي يُستخدم غالبًا في ملف robots.txt. يمنع Disallow فهرسة الموقع أو جزء منه، اعتمادًا على المسار المحدد في معلمة توجيه Disallow.

مثال لكيفية منع فهرسة الموقع في ملف robots.txt:

وكيل المستخدم: * عدم السماح: /

يمنع هذا المثال الموقع بأكمله من الفهرسة لجميع برامج الروبوت.

تسمح معلمة التوجيه Disallow باستخدام شخصيات خاصة* و $:

* - أي عدد من أي أحرف، على سبيل المثال، /page* المعلمة يرضي /page، /page1، /page-be-cool، /page/kak-skazat، الخ. ومع ذلك، ليست هناك حاجة لتحديد * في نهاية كل معلمة، حيث على سبيل المثال يتم تفسير التوجيهات التالية بنفس الطريقة:

وكيل المستخدم: عدم السماح لـ Yandex: /page وكيل المستخدم: عدم السماح لـ Yandex: /page*

$ - يشير إلى التطابق التام للاستثناء لقيمة المعلمة:

وكيل المستخدم: Googlebot عدم السماح: /page$

في هذه الحالة، سيمنع توجيه Disallow /page، لكنه لن يمنع فهرسة الصفحة /page1 أو /page-be-cool أو /page/kak-skazat.

لو إغلاق ملف robots.txt الخاص بفهرسة الموقع، قد تستجيب محركات البحث لهذه الخطوة بالخطأ "محظور في ملف robots.txt" أو "عنوان URL مقيد بواسطة ملف robots.txt" (عنوان URL محظور بواسطة ملف robots.txt). اذا احتجت تعطيل فهرسة الصفحة، لا يمكنك استخدام ملف robots txt فحسب، بل يمكنك أيضًا استخدام علامات html المشابهة:

  • - لا تقم بفهرسة محتوى الصفحة؛
  • - لا تتبع الروابط الموجودة على الصفحة؛
  • - يمنع فهرسة المحتوى ومتابعة الروابط الموجودة على الصفحة؛
  • - مشابه للمحتوى = "لا شيء".

السماح بالفهرسة: السماح بملف robots.txt

السماح - التوجيه المسموح بهوعكس التوجيه Disallow. يحتوي هذا التوجيه على بناء جملة مشابه لـ Disallow.

مثال لكيفية منع فهرسة موقع باستثناء بعض الصفحات في ملف robots.txt:

وكيل المستخدم: * عدم السماح: /السماح: /page

يمنع فهرسة الموقع بأكملهباستثناء الصفحات التي تبدأ بـ /page.

عدم السماح والسماح بقيمة المعلمة الفارغة

توجيه عدم السماح الفارغ:

وكيل المستخدم: * عدم السماح:

لا يمنع أي شيء أو يسمح بفهرسة الموقع بالكامل ويعادل:

وكيل المستخدم: * السماح: /

توجيه السماح فارغًا:

وكيل المستخدم: * السماح:

إن عدم السماح بأي شيء أو المنع الكامل لفهرسة الموقع يعادل:

وكيل المستخدم: * عدم السماح: /

مرآة الموقع الرئيسية: مضيف ملف robots.txt

يتم استخدام توجيه المضيف للإشارة إلى الروبوت Yandex بالمرآة الرئيسية لموقعك. من بين جميع محركات البحث الشهيرة، التوجيه يتم التعرف على المضيف فقط بواسطة روبوتات Yandex. يعد توجيه المضيف مفيدًا إذا كان من الممكن الوصول إلى موقعك عبر عدة قنوات، على سبيل المثال:

Mysite.ru mysite.com

أو لتحديد الأولوية بين:

Mysite.ru www.mysite.ru

يمكنك إخبار روبوت Yandex بالمرآة الرئيسية. تتم الإشارة إلى توجيه المضيف في كتلة التوجيه "User-agent: Yandex" وكمعلمة، تتم الإشارة إلى عنوان الموقع المفضل بدون "http://".

مثال ملف robots.txt يشير إلى المرآة الرئيسية:

وكيل المستخدم: عدم السماح لـ Yandex: /page Host: mysite.ru

يشار إلى المرآة الرئيسية اسم النطاق mysite.ru بدون www. وبالتالي سيتم الإشارة إلى هذا النوع من العناوين في نتائج البحث.

وكيل المستخدم: عدم السماح لـ Yandex: /page Host: www.mysite.ru

يشار إلى اسم المجال www.mysite.ru باعتباره المرآة الرئيسية.

توجيه المضيف في ملف robots.txtيمكن استخدامه مرة واحدة فقط، ولكن إذا تم تحديد توجيه المضيف أكثر من مرة، فسيتم أخذ التوجيه الأول فقط في الاعتبار، وسيتم تجاهل توجيهات المضيف الأخرى.

إذا كنت تريد تحديد المرآة الأساسية لـ روبوت جوجل، استخدم الخدمة أدوات جوجللمشرفي المواقع.

خريطة الموقع: خريطة موقع robots.txt

باستخدام توجيه خريطة الموقع، يمكنك تحديد الموقع على الموقع في ملف robots.txt.

مثال على ملف robots.txt يشير إلى عنوان خريطة الموقع:

وكيل المستخدم: * عدم السماح: /page خريطة الموقع: http://www.mysite.ru/sitemap.xml

تحديد عنوان خريطة الموقع عبر توجيه خريطة الموقع في ملف robots.txtيسمح لروبوت البحث بمعرفة وجود خريطة الموقع والبدء في فهرستها.

التوجيه النظيف المعلمة

يتيح لك التوجيه Clean-param استبعاد الصفحات ذات المعلمات الديناميكية من الفهرسة. يمكن للصفحات المشابهة أن تقدم نفس المحتوى ولكن لها عناوين URL مختلفة للصفحة. ببساطة، يبدو الأمر كما لو أن الصفحة يمكن الوصول إليها من عناوين مختلفة. مهمتنا هي إزالة جميع العناوين الديناميكية غير الضرورية، والتي قد يكون هناك مليون منها. للقيام بذلك، نستبعد جميع المعلمات الديناميكية، باستخدام توجيه Clean-param في ملف robots.txt.

بناء جملة التوجيه Clean-param هو:

المعلمة النظيفة: parm1[&parm2&parm3&parm4&..&parmn] [المسار]

لنلقِ نظرة على مثال الصفحة التي تحتوي على عنوان URL التالي:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

مثال على ملف robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # فقط لـpage.html

Clean-param: parm1&parm2&parm3 / # للجميع

توجيه تأخير الزحف

تتيح لك هذه التعليمات تقليل الحمل على الخادم إذا زارت الروبوتات موقعك كثيرًا. يعد هذا التوجيه مناسبًا بشكل أساسي للمواقع التي تحتوي على عدد كبير من الصفحات.

مثال لتأخير الزحف إلى ملف robots.txt:

وكيل المستخدم: عدم السماح لـ Yandex: /page تأخير الزحف: 3

في هذه الحالة، "نطلب" من روبوتات Yandex تنزيل صفحات موقعنا بما لا يزيد عن مرة واحدة كل ثلاث ثوانٍ. تدعم بعض محركات البحث تنسيق الأرقام الجزئية كمعلمة توجيهات robots.txt لتأخير الزحف.

توجيه المضيف هو أمر أو قاعدة تخبر محرك البحث (مع أو بدون www) الذي يجب اعتباره المحرك الرئيسي. يوجد توجيه المضيف في الملف وهو مخصص حصريًا لـ Yandex.

غالبًا ما يصبح من الضروري على محرك البحث عدم فهرسة بعض صفحات الموقع أو مراياه. على سبيل المثال، يوجد مورد على خادم واحد، ولكن يوجد اسم مجال متطابق على الإنترنت، والذي يستخدم للفهرسة والعرض في نتائج البحث.

تقوم روبوتات بحث Yandex بالزحف إلى صفحات موقع الويب وإضافة المعلومات المجمعة إلى قاعدة البيانات وفقًا لجدولها الزمني الخاص. أثناء عملية الفهرسة، يقررون بشكل مستقل الصفحة التي يجب معالجتها. على سبيل المثال، تتجاوز الروبوتات المنتديات المختلفة ولوحات الرسائل والكتالوجات والموارد الأخرى حيث تكون الفهرسة بلا معنى. يمكنهم أيضًا تحديد الموقع الرئيسي والمرايا. الأول يخضع للفهرسة، والثاني ليس كذلك. غالبا ما تحدث أخطاء في هذه العملية. يمكن أن يتأثر ذلك باستخدام توجيه المضيف في ملف Robots.txt.

لماذا تحتاج إلى ملف Robots.txt؟

الروبوتات هو ملف نصي عادي. يمكن إنشاؤه باستخدام المفكرة، ولكن يوصى بالعمل معه (فتح المعلومات وتحريرها). محرر النصالمفكرة ++. ضروري هذا الملفعندما يتم تحديد تحسين موارد الويب من خلال عدة عوامل:

  1. إذا كان ملف Robots.txt مفقودًا، فسيتم تحميل الموقع بشكل زائد باستمرار بسبب عمل محركات البحث.
  2. هناك خطر أن تتم فهرستها صفحات اضافيةأو مواقع المرآة.

الفهرسة ستكون أبطأ بكثير، وإذا كانت غير صحيحة الإعدادات المثبتةقد تختفي تمامًا من نتائج بحث Google وYandex.

كيفية تنسيق توجيه المضيف في ملف Robots.txt

يتضمن ملف Robots توجيه المضيف - تعليمات لمحرك البحث حول مكان وجود الموقع الرئيسي وأين توجد مراياه.

التوجيه لديه النموذج التاليالتهجئة: المضيف: [مسافة اختيارية] [قيمة] [مسافة اختيارية]. تتطلب قواعد كتابة التوجيه الالتزام بالنقاط التالية:

  • وجود بروتوكول HTTPS في توجيه المضيف لدعم التشفير. يجب استخدامه إذا تم الوصول إلى المرآة فقط من خلال قناة آمنة.
  • اسم مجال ليس عنوان IP، بالإضافة إلى رقم المنفذ لمورد الويب.

سيسمح التوجيه الذي تم كتابته بشكل صحيح لمشرف الموقع بالإشارة لمحركات البحث إلى مكان وجود المرآة الرئيسية. سيتم اعتبار الباقي ثانويًا، وبالتالي لن يتم فهرسته. كقاعدة عامة، يمكن تمييز المرايا بوجود أو عدم وجود الاختصار www. إذا لم يحدد المستخدم المرآة الرئيسية لمورد الويب عبر المضيف، فسيرسل محرك بحث Yandex إشعارًا مناسبًا إلى مشرف الموقع. سيتم أيضًا إرسال إشعار إذا تم تحديد توجيه مضيف متعارض في ملف Robots.

يمكنك تحديد مكان المرآة الرئيسية للموقع من خلال محرك البحث. تحتاج إلى إدخال عنوان المورد في شريط البحث وإلقاء نظرة على نتائج البحث: الموقع الذي يحتوي على www أمام المجال في شريط العناوين هو المجال الرئيسي.

إذا لم يتم عرض المورد على صفحة نتائج البحث، فيمكن للمستخدم تعيينه بشكل مستقل باعتباره المرآة الرئيسية من خلال الانتقال إلى القسم المناسب في Yandex.Webmaster. إذا كان مشرف الموقع يريد ألا يحتوي اسم مجال الموقع على www، فلا ينبغي تحديده في المضيف.

يستخدم العديد من مشرفي المواقع النطاقات السيريلية كمرايا إضافية لمواقعهم. ومع ذلك، لا يدعم التوجيه المضيف السيريلية. للقيام بذلك، من الضروري تكرار الكلمات باللغة اللاتينية، بشرط أن يمكن التعرف عليها بسهولة عن طريق نسخ عنوان الموقع من شريط العناوين.

المضيف في ملف Robots

الغرض الرئيسي من هذا التوجيه هو حل المشكلات المتعلقة بالصفحات المكررة. من الضروري استخدام المضيف إذا كان عمل مورد الويب يستهدف الجمهور الناطق باللغة الروسية، وبالتالي، يجب فرز الموقع في نظام Yandex.

لا تدعم جميع محركات البحث توجيه المضيف. الوظيفة متاحة فقط في Yandex. علاوة على ذلك، حتى هنا لا توجد ضمانات بأن المجال سيتم تعيينه كمرآة رئيسية، ولكن وفقًا لـ Yandex نفسه، تظل الأولوية دائمًا بالاسم المحدد في المضيف.

لكي تتمكن محركات البحث من قراءة المعلومات بشكل صحيح عند معالجة ملف robots.txt، من الضروري تضمين توجيه المضيف في المجموعة المناسبة، بدءًا من الكلمات User-Agent. ومع ذلك، ستكون الروبوتات قادرة على استخدام المضيف بغض النظر عما إذا كان التوجيه مكتوبًا وفقًا للقواعد أم لا، لأنه متقاطع.

تحياتي لكم أيها الأصدقاء والمشتركين في مدونتي. اليوم على جدول الأعمال ملف Robots.txt، كل ما تريد معرفته عنه، باختصار، دون زغب غير ضروري.

ما هو ملف Robots.txt ولماذا هو مطلوب؟

هناك حاجة إلى ملف Robots.txt لتشير إلى محرك البحث (Yandex، Google، وما إلى ذلك) إلى مدى صحة فهرسة الموقع (من وجهة نظرك). ما هي الصفحات والأقسام والمنتجات والمقالات التي تحتاج إلى فهرستها، وأيها، على العكس من ذلك، ليست ضرورية.

Robots.txt هو ملف نصي عادي (بدقة .txt) تم اعتماده بواسطة W3C في 30 يناير 1994، والذي تستخدمه معظم محركات البحث، وعادةً ما يبدو كالتالي:

كيف يؤثر ذلك على الترويج لموقعك؟

للترويج لموقع ويب بنجاح، من الضروري أن يحتوي فهرس (قاعدة) Yandex وGoogle على الصفحات الضرورية فقط للموقع. تحت الصفحات الضروريةأفهم ما يلي:

  1. بيت؛
  2. صفحات الأقسام والفئات؛
  3. بضائع؛
  4. مقالات؛
  5. صفحات "حول الشركة" و"جهات الاتصال" وما إلى ذلك.

أقصد بالصفحات غير المطلوبة ما يلي:

  1. صفحات مكررة؛
  2. طباعة الصفحات؛
  3. صفحات نتائج البحث؛
  4. صفحات النظام، التسجيل، تسجيل الدخول، صفحات الخروج؛
  5. صفحات الاشتراك (الخلاصة)؛

على سبيل المثال، إذا كان فهرس محرك البحث يحتوي على نسخ مكررة من الصفحات الرئيسية التي يتم الترويج لها، فسيؤدي ذلك إلى حدوث مشكلات في تفرد المحتوى داخل الموقع، وسيؤثر أيضًا سلبًا على المواضع.

أين يقع؟

يقع الملف عادةً في جذر المجلد public_htmlعلى استضافتك هنا:

ما يجب أن تعرفه عن ملف Robots.txt

  1. تعتبر تعليمات Robots.txt استشارية بطبيعتها. وهذا يعني أن الإعدادات هي توجيهات وليست أوامر مباشرة. ولكن كقاعدة عامة، يتبع كل من Yandex وGoogle التعليمات دون أي مشاكل؛
  2. لا يمكن استضافة الملف إلا على الخادم؛
  3. يجب أن يكون في جذر الموقع؛
  4. يؤدي انتهاك بناء الجملة إلى عدم صحة الملف، مما قد يؤثر سلبًا على الفهرسة؛
  5. تأكد من التحقق من بناء الجملة الصحيح في لوحة Yandex Webmaster!

كيفية منع صفحة أو قسم أو ملف من الفهرسة؟

على سبيل المثال، أريد منع الصفحة من الفهرسة في ياندكس: http://site/page-for-robots/

للقيام بذلك، أحتاج إلى استخدام التوجيه "Disallow" وعنوان URL للصفحة (القسم، الملف). تبدو هكذا:

وكيل المستخدم: Yandex
عدم السماح: /page-for-robots/
المضيف: الموقع

إذا أريد فئة قريبة
وكيل المستخدم: Yandex
عدم السماح: /الفئة/الحالة/
المضيف: الموقع

إذا أردت منع الموقع بأكمله من الفهرسة، باستثناء القسم http://site/category/case/، فسوف تحتاج إلى القيام بذلك:

وكيل المستخدم: Yandex
عدم السماح: /
السماح: /الفئة/الحالة/
المضيف: الموقع

على العكس من ذلك، يشير التوجيه "السماح" إلى الصفحة أو القسم أو الملف الذي يجب فهرسته.

أعتقد أن منطق البناء أصبح واضحا بالنسبة لك. يرجى ملاحظة أن القواعد ستنطبق فقط على Yandex، حيث تم تحديد وكيل المستخدم: Yandex. سوف يتجاهل Google هذا التصميم وسيقوم بفهرسة الموقع بأكمله.

إذا كنت تريد كتابة قواعد عالمية لجميع محركات البحث، فاستخدم: User-agent: *. مثال:

وكيل المستخدم: *
عدم السماح: /
السماح: /الفئة/الحالة/
المضيف: الموقع

وكيل المستخدمهو اسم الروبوت الذي تهدف التعليمات إليه. القيمة الافتراضية هي * (العلامة النجمية) - وهذا يعني أن التعليمات مخصصة لجميع روبوتات البحث تمامًا.
أسماء الروبوتات الأكثر شيوعاً:

  • ياندكس – جميع الروبوتات لمحرك بحث ياندكس
  • YandexImages - مفهرس الصور
  • Googlebot - روبوت جوجل
  • BingBot – روبوت نظام Bing
  • YaDirectBot – روبوت النظام الإعلانات السياقيةياندكس.

روابط ل مراجعة مفصلةجميع توجيهات ياندكس وجوجل.

ما يجب أن يكون في ملف Robots.txt الأعلى

  1. تم تكوين توجيه المضيف. يجب أن الدولة المرآة الرئيسيةموقع الويب الخاص بك. المرايا الرئيسية: site.ruأو شبكة الاتصالات العالمية.site.ru. إذا كان موقعك مع http س، فيجب الإشارة إلى ذلك أيضًا. يجب أن تتطابق المرآة الرئيسية في المضيف وفي Yandex.Webmaster.
  2. يجب إغلاق أقسام وصفحات الموقع التي لا تحمل أي حمل مفيد، وكذلك الصفحات ذات المحتوى المكرر وصفحات الطباعة ونتائج البحث وصفحات النظام من الفهرسة (باستخدام التوجيه Disallow:).
  3. قم بتوفير رابط إلى sitemap.xml (خريطة موقعك في تنسيق أكس أم أل).
    خريطة الموقع: http://site.ru/sitemap.xml

إشارة إلى المرآة الرئيسية

تحتاج أولاً إلى معرفة المرآة التي لديك باعتبارها المرآة الرئيسية بشكل افتراضي. للقيام بذلك، أدخل عنوان URL الخاص بموقعك في Yandex، وأشر إلى عنوان URL في نتائج البحث وفي الجزء السفلي الأيسر من نافذة المتصفح سيتم الإشارة إلى ما إذا كان يحتوي على مجال www أم لا. في هذه الحالة، دون WWW.

إذا تم تحديد المجال مع https، ثم في كل من Robots وYandex.Webmaster يجب عليك تحديده https! تبدو هكذا: