مدیریت استراتژیک بودجه خزش (crawl)

مشکل کلی در جهت دهی های ایندکسر گوگل (ربات های گوگل) این است که آنها بسیار متفاوت از یکدیگر کار می کنند و معمولاً نتایج متفاوتی به وجود می آورند.

اگر از فایل robots.txt استفاده می کنید و لینک یا پرنتی را بلاک (مسدود) می کنند، آن URL ها توسط ربات بررسی نمی شوند، اما آنها تا حدودی ایندکس می شوند و بنابراین در نتایج جستجوی Google نشان داده می شوند. معمولاً Google فقط عنوان و URL را بدون توضیحات نشان می دهد.

از طرفی اگر تگ متا ربات استفاده کنید، URL ها کرال می شوند، اما ایندکس نمی شوند – منظور این است که اگر از noindex استفاده می کنید.  بنابراین آنها در نتایج جستجو نشان داده نمی شوند.

 

بعضی از افراد سعی می کنند هر دو روش را انجام دهند. اگر از robots.txt استفاده می کنید تا یک پرونده یا پرنت خاص را مسدود کنید، سپس سعی کنید از تگ metat robots نیز هم استفاده کنید تا آن را مسدود کنید تا در نتایج جستجو نشان داده نشود، این روش کار نخواهد کرد.

دلیل این امر اینست که Googlebot یا سایر خزنده ها حتی به دلیل مسدود شدن در robots.txt  نمی توانند به آدرس URL شما دسترسی پیدا کنند – بنابراین آنها نمی توانند هیچ یک از دستورالعملهای جهت دهی بالقوه را بخوانند – و حتی اگر تگ نو ایندکس روی صفحات وجود داشته باشند.

مدیریت کرالر گوگل

قبل از هر چیز مهمتر این است که تعریف کنید و درک کنید که می خواهید به چه هدفی برسید. آیا هدفتون در مورد افزایش خزش (منابع) است یا در مورد ایندکس شدن؟ اگر می خواهید تعداد URL های ایندکس شده را کاهش دهید، برچسب روبات های متا و یک تگ noindex در آن صفحات یک روش صحیح است.

 

به طور کلی، من طرفدار یک فایل بسیار کوچک robots.txt هستم. سعی می کنم تقریباً از آن برای کنترل خزنده استفاده نکنم مگر اینکه واقعاً مجبور شوم.

 

من به شما توصیه می کنم برای تمام URL هایی که در وبسایت دارید، به این سؤال پاسخ دهید: “آیا من واقعاً نیاز به این URL برای ایندکس شدن ندارم؟ آیا این لینک برای کسی ارزش افزوده ای دارد؟ (برای دسترسی از گوگل)

اگر اینگونه نباشد، من آن را ایندکس نمی کنم. در اینجا چند مثال از URL ها آورده شده است که فکر می کنم شما نباید اجازه ایندکس شدن را بدهید:

 

  • من هرگز صفحه های دسته بندی یا برچسب های خالی یا تقریباً خالی را ایندکس نمی کنم.
  • من نسخه های مختلفی از همان URL ایجاد شده توسط فیلتر و انواع دیگر محتوا که فقط حالت مرتب سازی عوض شده است را مجدداً ایندکس نمی کنم، به عنوان مثال. مرتب کردن لیست  از بالا و ازپایین. آنها همان هدف یکسان را برای گرفتن رتبه دارند.
  • همین مورد در مورد صفحات ایجاد شده داینامیک مانند نتایج جستجو نیز صدق می کند. SERP در SERP چیزی است که گوگل آن را دوست ندارد. از آنجا که محتوای صفحه داینامیک است، ممکن است اتفاق بیفتد که صفحه ابتدا برای چیزی که حتی در آنجا قرار ندارد رتبه بندی شود. وقتی شخصی روی این صفحه بیاید، ممکن است تغییر کرده باشد و شخص نتواند آنچه را که به دنبالش است پیدا کند. یک تجربه واقعا بد برای کاربر خواهد بود.
  • این تقریبا در مورد انواع “صفحه بدون نتیجه” نیز صادق است، شما نمی خواهید که این صفحات ایندکس شوند.
  • همچنین اطمینان حاصل کنید که چندین نسخه از یک صفحه (مثلاً index.php در مقابل “/” یا بدون www در مقابل www یا HTTP در مقابل بدون HTTP) یا برای همان محتوا در دامنه ها یا زیر دامنه های مختلف ایندکس نکنید. همه اینها  بدون ارزش افزوده ای هستند، اما ایندکس Google را پر از خالی می کنند.

شما باید مطمئن باشید که تجزیه و تحلیل ها را در این فرآیند ادغام می کنید، به خصوص برای دامنه های بزرگ که ممکن است پیشنهاداتی برای گفتگو با محصولات یا حتی صاحبان سایت داشته باشید. خیلی اوقات افراد گمان می کنند که به یک دلیل خاص به این مدل URL ها نیاز دارند. اما اگر نگاه دقیق تری بندازید، اغلب متوجه می شوید که انواع URL های ذکر شده در بالا به معنای واقعی کلمه هیچ ترافیک ارگانیک را برای شما نم آوردند و بحث در واقع بی ربط است.

 

URL هایی که قرار نیست ایندکس شوند هیچ ارتباطی با بودجه خزش ندارند. بنابراین این URL ها هنوز کرال خواهند شد، و همچنان لینک جویس (link juice) به صفحات داخلی عبور می کنند. URL هایی که برای مدت طولانی روی noindex قرار می گیرند، کمتر بارز می شوند. اگر می خواهید مستقیماً دستورالعمل indexation را در مرورگر مشاهده کنید، یک افزونه عالی و بسیار ساده با نام SeeRobots وجود دارد که راهنمای نمایه سازی را بصورت مستقیم در مرورگر – یا در هدر سرور مستقیماً مشاهده می کند – بنابراین می توانید جلوی آن را بگیرید. در کد منبع آن را جستجو کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *