يقدم Semalt نصائح حول كيفية التعامل مع الروبوتات والعناكب والزواحف

بصرف النظر عن إنشاء عناوين URL سهلة لمحرك البحث ، يتيح ملف htaccess لمشرفي المواقع حظر برامج الروبوت الخاصة من الوصول إلى مواقعهم على الويب. طريقة واحدة لحظر هذه الروبوتات من خلال ملف robots.txt. ومع ذلك ، صرح روس باربر ، مدير نجاح عملاء Semalt ، أنه رأى بعض برامج الزحف تتجاهل هذا الطلب. إحدى أفضل الطرق هي استخدام ملف htaccess لمنعهم من فهرسة المحتوى الخاص بك.

ما هي هذه البوتات؟

وهي نوع من البرامج التي تستخدمها محركات البحث لحذف محتوى جديد من الإنترنت لأغراض الفهرسة.

يؤدون المهام التالية:

  • قم بزيارة صفحات الويب التي قمت بالربط بها
  • تحقق من رمز HTML الخاص بك بحثًا عن الأخطاء
  • يحفظون صفحات الويب التي تربط بها ويرون صفحات الويب التي ترتبط بالمحتوى الخاص بك
  • يقومون بفهرسة المحتوى الخاص بك

ومع ذلك ، فإن بعض برامج الروبوت ضارة وتبحث في موقعك عن عناوين البريد الإلكتروني والنماذج التي يتم استخدامها عادةً لإرسال رسائل غير مرغوب فيها أو رسائل غير مرغوب فيها إليك. حتى أن الآخرين يبحثون عن ثغرات أمنية في التعليمات البرمجية الخاصة بك.

ما هو المطلوب لمنع برامج زحف الويب؟

قبل استخدام ملف htaccess ، تحتاج إلى التحقق من الأشياء التالية:

1. يجب أن يعمل موقعك على خادم أباتشي. في الوقت الحاضر ، حتى تلك الشركات التي تستضيف الويب غير لائقة في وظيفتها ، تمنحك الوصول إلى الملف المطلوب.

2. يجب أن يكون لديك حق الوصول إلى سجلات الخادم الأولية لموقعك على الويب حتى تتمكن من تحديد برامج الروبوت التي كانت تزور صفحات الويب الخاصة بك.

لاحظ أنه لا توجد طريقة ستتمكن من حظر جميع برامج الروبوت الضارة ما لم تحظرها جميعًا ، حتى تلك التي تعتبرها مفيدة. تظهر روبوتات جديدة كل يوم ، ويتم تعديل القديمة. الطريقة الأكثر فعالية هي تأمين التعليمات البرمجية الخاصة بك وتجعل من الصعب على برامج الروبوت إرسال رسائل غير مرغوب فيها إليك.

تحديد الروبوتات

يمكن تحديد برامج التتبُّع إما من خلال عنوان IP أو من "سلسلة وكيل المستخدم" التي يرسلونها في رؤوس HTTP. على سبيل المثال ، تستخدم Google "Googlebot".

قد تحتاج إلى هذه القائمة مع 302 روبوت إذا كان لديك بالفعل اسم الروبوت الذي ترغب في عدم استخدامه باستخدام htaccess.

طريقة أخرى هي تنزيل جميع ملفات السجل من الخادم وفتحها باستخدام محرر نصوص. قد يتغير موقعها على الخادم اعتمادًا على تكوين الخادم الخاص بك. إذا لم تتمكن من العثور عليها ، فاطلب المساعدة من مضيف الويب.

إذا كنت تعرف الصفحة التي تمت زيارتها ، أو وقت الزيارة ، فمن الأسهل أن تأتي بروبوت غير مرغوب فيه. يمكنك البحث في ملف السجل بهذه المعلمات.

مرة واحدة ، لاحظت ما البوتات التي تحتاج إلى حظرها ؛ يمكنك بعد ذلك تضمينها في ملف htaccess. يرجى ملاحظة أن حظر الروبوت لا يكفي لإيقافه. قد يعود مع IP أو اسم جديد.

كيفية منعهم

قم بتنزيل نسخة من ملف htaccess. قم بعمل نسخ احتياطية إذا لزم الأمر.

الطريقة الأولى: الحظر بواسطة IP

يحظر مقتطف الرمز هذا الروبوت باستخدام عنوان IP 197.0.0.1

رفض الطلب ، والسماح

الرفض من 197.0.0.1

يعني السطر الأول أن الخادم سيحظر جميع الطلبات المطابقة للأنماط التي حددتها ويسمح لجميع الآخرين.

يطلب السطر الثاني من الخادم إصدار 403: صفحة ممنوعة

الطريقة 2: الحظر بواسطة وكلاء المستخدم

أسهل طريقة هي استخدام محرك إعادة كتابة Apache

إعادة كتابة المحرك

RewriteCond٪ BotUserAgent {HTTP_USER_AGENT}

إعادة كتابة القاعدة. - [F، L]

يضمن السطر الأول تمكين وحدة إعادة الكتابة. السطر الثاني هو الشرط الذي تنطبق عليه القاعدة. تخبر "F" في السطر 4 الخادم بإرجاع 403: ممنوع بينما تعني "L" أن هذه هي القاعدة الأخيرة.

ستقوم بعد ذلك بتحميل ملف .htaccess على خادمك واستبدال الملف الموجود. بمرور الوقت ، ستحتاج إلى تحديث عنوان IP للبوت. في حالة ارتكاب خطأ ، ما عليك سوى تحميل النسخة الاحتياطية التي قمت بها.

mass gmail