از سادهترین فایلهای یک سایت، فایل Robots.txt میباشد که در عین حال نیز از سادهترین راهها برای آسیب به سئو وبسایت نیز میباشد. یک پیکربندی نادرست در این فایل میتواند موتورهای جستجو را از دسترسی به محتوای شما باز دارد. به عنوان مثال فرض کنید که سایت شما مثل یک تالار میباشد که روزانه افراد زیادی به آن رفت و آمد دارند. حال اگر این تالار در ابتدای در ورودی خود برای راهنمایی افراد یک راهنما نداشته باشد، امکان اینکه تالار بهم بریزد زیاد است. در اینجا است که فایلی چون Robots.txt به کمک شما میآید. به طور کلی این فایل از اهمیت بالایی در وبسایت شما برخوردار است و اگر قصد بهبود عملکرد سایت خود را دارد، پیشنهاد میکنیم از این فایل استفاده نمایید.
اگر بخواهیم یک تعریف کلی از این فایل ارائه دهیم، میتوانیم این گونه بیان کنیم که، این فایل یک فایل متنی میباشد که میتوانید آن را روی سرور خود قرار دهید. robots.txt نحوه کراول کردن رباتها و ایندکس کردن صفحات در سایت را مشخص مینماید. به طور کلی این فایل به رباتهای گوگل کمک میکند تا به راحتی به صفحات وبسایتها سر بزنند. شاید فکر کنید فقط افراد عادی هستند که به سایت شما سر میزنند، در صورتی که این گونه نمیباشد رباتهای گوگل نیز در دورههای زمانی مختلف به سایت شما سر میزنند که به این کار همان کراول ( Crawl) گفته میشود. رباتها گوگل با هدف پیدا کردن صفحات جدید شما و یا ایندکس کردن صفحاتتان به سایت شما و صفحاتتان سر میزنند.
این فایل از پروتکل REF یا Robots Exclusion Protocol تشکیل شده که لینکهای فالو و نوفالو هم جزئی از پروتکل میباشند. این فایل را خود وبمستران برای رباتهای گوگل میسازند، تا از طریق آن به رباتهای گوگل دستور دهند کدام صفحات سایت را کراول یا ایندکس نمایند.
رباتهای گوگل به دو روش زیر سایت شما را بررسی مینمایند که در ادامه به توضیح هر کدام از آنها خواهیم پرداخت.
بررسی از طریق لینکها بدین صورت است که رباتهای گوگل لینکهای داخلی که در سایت قرار دارد را دنبال مینمایند و از طریق آنها به تغییرات و صفحات جدید سایت ما دسترسی پیدا خواهند کرد و در نتیجه تصمیم میگیرند که صفحات جدید را ایندکس نمایند یا نه. به زبان سادهتر، رباتهای گوگل در ابتدا وارد سایتتان میشوند و سپس از طریق لینکهایی که در صفحه اصلی و منوی سایت گذاشتهاید، به صفحات جدید دسترسی پیدا خواهند کرد. همچنین اگر صفحات جدیدتان دارای لینکهای داخلی بودند، آنها را نیز دنبال میکنند.
در روش اول همانطور که گفتیم رباتهای گوگل، لینکها را دنبال مینمایند. حال اگر شما در وبسایتتان فایل robots.txt داشته باشید، رباتهای گوگل در ابتدا به سراغ آنها میروند و دستورات آن را میخوانند. به زبان ساده شما با استفاده از این فایل robots.txt، این امکان را دارید تا صفحاتی که میخواهید توسط گوگل بررسی شوند را انتخاب نمایید. رباتهای گوگل نیز با استفاده از این فایل، طبق دستورات شما سایت را کراول مینمایند.
با استفاده از فایل robots.txt، شما میتوانید عملکرد سایتتان را بهبود ببخشید. در ادامه چند مورد از دلایل اهمیت این فایل را بیان خواهیم کرد.
همانطور که گفتیم این فایلها، قادرند تا کنترل نمایند که رباتهای گوگل در کدام صفحات در سایت شما خزیده شوند و در کدام صفحات خزیده نشوند. این مورد را با دستور اجازه یا غیراجازه میتوانید انجام دهید.
برخی از محتواها و صفحات در سایتتان دارید که شاید نخواهید گوگل آنها را در نتایج جستجو نمایش دهد. برای این کار از این فایل با دستور ایندکس نشدن میتوانید این کار را انجام دهید.
گاهی ممکن است پیش آید که دو صفحه از سایتتان در صفحه نتایج گوگل رتبه بگیرد. در این صورت است که کاربر دو صفحه یکسان از وبسایت شما را میبیند که به آن کنیبالیزیشن میگویند و اصلاً برای ترافیک وبسایت شما مناسب نمیباشد. در صورت رخ دادن این مورد، شما میتوانید با استفاده از فایل robots.txt، دستور ایندکس نشدن صفحات تکراری سایتتان را بدهید.
همانطور که بارها اشاره کردیم، با استفاده از این فایل میتوانید دستورات مختلفی را اعمال نمایید.
این دستور در مواقعی استفاده میشود که شما میخواهید فقط یک ربات خاص را هدف خود قرار دهید. علامت * نیز بدین معناست که دستور برای همه رباتها اعمال گردد.
با استفاده از این دستور شما مشخص مینمایید که رباتهای گوگل، کدام صفحات از سایتتان را crawl ننمایند. در حالت کلی این دستور برای نمایش ندادن محتواهای دلخواه در نتایج جستجوی گوگل میباشد.
با این دستور شما به رباتهای گوگل اجازه دهید تا به فولدری قبلاً دستور Disallow داشتند، دسترسی پیدا نماید و فایل انتخابی شما را کراول کنند.
یکی از رایجترین روشها برای دسترسی به نقشه سایت، نوشتن نقشه سایت در فایل robots.txt میباشد. با این روش نقشه سایت شما در موتورهای جستجوی مختلف همانند بینگ و فایرفاکس نیز پشتیبانی خواهد شد. برای ثبت نقشه سایت در گوگل میتوانید به بلاگ آن مراجعه کنید.
با این دستور شما قادر خواهید بود تا مشخص نمایید که رباتهای خزنده باید چند ثانیه برای کراول کردن سایت شما صبر نمایند. این دستور همچنین میتواند بر روی سرعت لود شدن سایت شما تاثیر مستقیم بگذارد و میبایست بتوانید از آن به درستی استفاده نمایید.
شما با قرار دادن یک عبارت در انتهای آدرس سایت خود میتوانید به فایل robots.txt دسترسی داشته باشید و دستورهای مختلف روی آن پیاده کنید. با قرار دادن عبارت robots.txt/ در آدرس سایت خود قادر خواهید بود به فایل robots.txt دسترسی پیدا نمایید. همینطور اگر میخواهید بر روی فایل robots.txt ویرایشهایی انجام دهید و یا دستوراتی را اعمال نمایید، میتوانید به بخش Root سایتتان مراجعه کنید و فایل robots.txt را در آنجا مشاهده نمایید.
سخن پایانی
در این بلاگ از آساوردپرس تلاش کردیم تا شما را با فایل robots.txt و اهمیت آن آشنا کنیم. این فایل قابلیتهای زیادی دارد که شما میتوانید از آنها برای بهبود عملکرد وبسایت خود استفاده نمایید و از رقبا خود پیشی بگیرید.