روابط عمومی دانشگاه

فايل متنِی روبات برای موتور جستجو

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

فایل متنی روبات برای موتور های جستجو

 
 
اگر شما مدیر یک وب سایت اینترنتی باشید احتمالاً با فایل Robot.txt برخورد کرده اید یا حداقل درباره آن شنیده اید در این مقاله می خواهیم کمی بیشتر درباره این فایل مزایای آن و بدفهمی هایی که در مورد آن وجود دارد صحبت کنیم.
فایل Robot.txt در حقیقت یک فایل متنی است که به موتور های جستجو می گوید کجا ها را نباید بکاود و در لیست خود اضافه کند. حتی شما می توانید یک موتور جستجو را از زیر و رو کردن وب سایت خود بر حذر کنید اما فایل Robot.txt هیچ الزامی برای آن موتور جستجو ایجاد نمی کند و هیچ ضمانتی نیست که نرم افزار های کاونده موتور های جستجو از دستورات فایل Robot.txt پیروی کنند ولی به هر حال موتور های جستجوی بزرگ و معتبر به فایل Robot.txt اهمیت می دهند و از آن استفاده می کنند.
 
چرا باید از فایل Robots.txt استفاده کنید؟
 
هدف موتور های جستجو جمع آوری محتویاتی است که قرار است به کاربران شما ارائه شود بنابراین لازم نیست مثلاً کد های برنامه های وب سایت شما توسط موتور جستجو کاوش شود. این کار دو مشکل به وجود می آورد اول اینکه به سرور وب سایت شما بار اضافه تحمیل می کند و سرعت سرور کاهش می یابد و در همین هنگام اگر کاربران هم در حال بازدید از سایت شما یا در حال دانلود فایل های حجیم باشند این مشکل بیشتر به چشم می آید. دوم اینکه بعضی کد های وب سایت شما در اختیار دیگران می افتد که از نظر امنیتی اصلاً جالب نیست هر چند این راه کار به عنوان یک راهکار امنیتی به هیچ وجه کامل نیست و شما باید تنظیمات لازم را برای محدودیت دسترسی به این بخش در کنترل پنل سایت خود انجام دهید.
 
چگونه فایلRobots.txt ایجاد کنیم؟
 
ایجاد یک فایلRobots.txt بسیار ساده است. Robot.txt چیزی جز یک فایل ASCII متنی ساده که در شاخه اصلی وب سایت شما قرار می گیرید نیست. به عنوان مثال: اگر نام وب سایت شما http://www.mums.ac.ir باشد فایل Robots.txt شما باید در مسیر www.mums.ac.ir/robots.txt قرار گیرد. یک فایل ASCII یک فایل متنی ساده است که با notepad ویندوز به راحتی می توانید آنرا ایجاد نمایید.

در فایل Robots.txtاصولاً نام کاونده های موتور جستجو در یک خط ذکر می شود و در خطوط بعدی نام شاخه ها یا فایل هایی که کاوش آنها مجاز نیست می آید که هر کدام را باید در یک خط جداگانه ذکر نمایید. شما به جای نام کاونده موتور جستجو می توانید از علامت * استفاده کنید بدون اینکه برای هر کدام نام جداگانه ای ذکر نمایید. و به خاطر داشته باشید که فایل Robots.txt یک فایل ممانعت کننده یا محدود کننده است و به این طریق شما نمی توانید موتور جستجو را ملزم کنید که دایرکتوری یا فایل خاصی را در لیست خود اضافه کند.
به عنوان مثال می توانید این را در فایل Robots.txt خود قرار دهید:
 
User-agent: *
Disallow:/cgi-bin/
 
دو خط بالا را اگر به فایل Robots.txt خود اضافه نمایید به همه کاوشگر های موتور های جستجو گفته اید که اجازه ندارند به دایرکتوری و محتویات آنcgi-bin دسترسی داشته باشند.
اگر موتور جستجوی بخصوصی مانند Google image را در نظر داشته باشید که تصاویر وب سایت شما را جمع آوری و لیست می کند و بخواهید از دسترسی آن به تصاویر وب سایت خود جلوگیری نمایید می توانید این دستورات را به فایل خود اضافه نمایید.
 
User-agent:google-Image
Disallow:/
 
همچنین می توانید در چند خط چندین دستور Disallow داشته باشید و برای چندین موتور جستجو مسیر هایی را مشخص کنید در اینجا نمونه از یک فایل بزرگ تر را می بینید.
 
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/

User-agent: Googlebot-Image
Disallow: /
 
اولین بلوک از فایل Robots.txtهمه موتور های جستجو را از دسترسی به دایرکتوری های images و cgi-bin باز می دارد. دومین بلوک به روبوت کاونده Googlebot-Image می گوید که اجازه دسترسی به هیچ دایرکتوری از سایت را ندارد.
شما حتی می تواند به موتور های جستجو بگویید که یک فایل خاص را از لیست جستجوی خود حذف کند. به عنوان مثال اگر نمی خواهید موتور جستجوی تصاویر گوگل عکس خاصی را در لیست خود اضافه نماید و اگر فرض کنیم نام این فایل univ.jpg باشد در این صورت با افزودن این خطوط به فایل خود می توانید این کار را انجام دهید.
 
User-agent: Googlebot-Image
Disallow: /images/univ.jpg
 
به خاطر داشته باشید حتماً / را اضافه کنید چون نشان دهنده یک دایرکتوری است. اگر به سادگی وارد کنید:
 
User-agent: *
Disallow: /privatedata
 
در این صورت همه موتورهای جستجو را از دسترسی به هر آنچه که در داخل دایرکتوری به نام privatedata باشد باز می دارید.
 
از کجا می توانم نام روبوت ها را پیدا کنم؟
 
اگر بخواهید موتور جستجوی خاصی را برای دسترسی به وب سایت خود محدود کنید باید نام آنرا دقیقا بدانید برای این منظور بهترین راه این است که وب سایت آن موتور جستجو را بازدید کنید. موتور های جستجوی معتبر معمولاً صفحاتی دارند که در آن جزییات کار را به شما ارائه می دهد تا بتوانید برای آنها فایل ها و دایرکتوری های غیر مجاز را مشخص کنید.
 
اشتباهات معمول

در اینجا اشتباهاتی که در این زمینه رایج است را بررسی می کنیم.
 
1) هیچ ضمانتی برای کارایی این فایل متنی وجود ندارد
همانطور که قبلا هم گفتم فایل هایrobots.txt یک سری فایل استاندارد برای جلوگیری از کاوش فایل ها توسط موتور های هستند ولی بعضی موتور های جستجو خود را برای خواندن فایل های Robots.txt اذیت نمی کنند و هیچ ضمانتی نیست که به این روش موتور های جستجو را از دسترسی فایل ها یا دایرکتوری های مورد نظر خود باز دارید. اگر می خواهید واقعاً می خواهید دسترسی به یک دایرکتوری را محدود نمایید باید از فایل .htaccess استفاده کنید.
 
2) دایرکتوری ها محرمانه خود را لیست نکنید.
هر کسی می تواند به فایل robots.txt شما دسترسی داشته باشد مثلاً کافیست این آدرس را در مرورگر خود وارد کند http://www.mums.ac.ir/robots.txt بعضی مدیران سایت تازه کار لیستی از فایل ها و دایرکتوری های محرمانه خود را در این فایل قرار می دهند تا از دسترسی موتور های جستجو خارج شوند ولی غافل از اینکه بعضی افراد و بعضی روبوت های فرستنده هرزنامه بدنبال چنین آدرس هایی می گردند. مراقب باشید به این روش امنیت وب سایت خود را به خطر نیندازید.
 
3) فقط یک دایرکتوری یا فایل برای هر خط
سعی نکنید در هر خط یا دستور Disallow بیش از یک فایل یا دایرکتوری را مشخص کنید. چون به احتمال زیاد این دستور کار نخواهد کرد و طبق استاندارد روبوت های کاونده فقط یک برای هر خط یک دستور و یک عبارت Disallow قبول می کنند.
 
آیا حتما باید این فایل را ایجاد کنیم؟
 
حتی اگر نخواهید هیچ موتور جستجویی را محدود کنید فقط کافیست این دستور را در فایل خود ایجاد نمایید.
User-agent: *
Disallow:
 
به این ترتیب شما یک فایل robots.txt دارید که بوسیله آن به موتور جستجو گفته اید می تواند همه فایل ها و دایرکتوری های شما را بکاود. به این ترتیب حداقل بهره ای که خواهید برد این است که با هر بار درخواست موتور جستجو برای این فایل متنی خطای 404 لود نمی شود و چند کیلو بایت از پهنای باند خود را صرفه جویی کرده اید. و هم چنین از آمار شما یک آدرس خطا کاسته می شود که این هم در رانکینگ موتور جستجو اثری مثبت دارد.