فایل robots.txt چیست؟ : برچسب های روبات متا (meta robots) ابزاری اساسی برای بهبود رفتار خزنده و نمایه‌سازی موتور جستجو و کنترل قطعه‌های خود در SERP میباشد. ولی meta robots چیست.

Robots txt می‌تواند بسیاری از صفحات را برای خزیدن در یک وب‌سایت مسدود بکند این مقاله آموزشی راهنمایی خواهد نمود که چطور می‌توانید از Robots.TXT و ROBOTS META TAG استفاده نمایید تا برترین نتایج سئو وبسایت را بگیرید. در این مقاله به شما خواهیم گفت فایل robots.txt چیست و در ادامه با دلایل استفاده، نحوه کار، دستورات مهم و نحوه بهینه‌کردن آن آشنا خواهیم شد.
متا تگ روبات چیست؟ اهمیت آن را بشناسید!

فایل robots.txt چیست؟

فایل robots.txt چیست؟

متا تگ روبات چیست؟

برچسب یا متا تگ Meta Robots این امکان را به صاحبان وبسایت می دهد که بر رفتار خزنده و نمایه سازی موتور های جستجو و نحوه ارائه سایتهای آنان در صفحات نتیجه موتور جستجو (SERP) نظارت داشته باشند.

برچسب Meta Robots یکی از برچسب های متا میباشد که در بخش <head> HTML شما قرار دارد. مسلماً مشهورترین برچسب روبات های متا ، همانی میباشد که به موتور های جستجوگر می‌گوید یک صفحه را فهرست بندی نکنند: ?What is a robots.txt file  

<meta name=”robots” content=”noindex,follow” />

شما می‌توانید با استفاده از آنان در هدر HTTP با استفاده از برچسب X-Robots ، دستورالعمل های ضروری را به ربات های گوگل جهت ایندکس کردن صفحات وب خود ارائه بدهید. هم چنین از برچسب X-Robots اغلب برای جلوگیری از فهرست بندی های غیر HTML همچون PDF و تصاویر استفاده می‌شود.

از پیشنهاد سئو وبسایت، اگر می‌خواهید گوگل را از خزیدن یک صفحه خاص در وبسایت خود و فهرست نمودن آن در صفحات نتایج جستجوی خود مسدود نمایید، بهتر میباشد از تگ متا روبات استفاده نمایید تا به آنان بگویید که اجازه دسترسی به این صفحه را دارند ولی آن را در SERP‌ها نشان ندهد.

ما در این قسمت به سئو اشاره کردیم ولی اگر راجع به آن اطلاعات ندارید و نمیدانید سئو چیست، نظر می کنیم برای درک بهتر ادامه مطلب، مقاله هایی حول آن مطالعه فرمایید.

متا تگ روبات شما میبایست به شکل ذیل باشد و در قسمت <head> وبسایت شما قرار گیرد:

<meta name=”robots” content=”noindex”>

اگر می‌خواهید خزنده را از ایندکس نمودن محتوا در صفحه خود منع نمایید و از دنبال نمودن هر یک از پیوندها جلوگیری نمایید، تگ متا روبات شما به این گونه خواهد بود:

<meta name=”robots” content=”noindex, nofollow”>

نمای کلی از دستورات تگ متا روبات اصلی به شرح ذیل است:

Index: همه موتور های جستجو می‌توانند محتوای این صفحه وب را فهرست کنند.
Follow: همه موتور های جستجو می‌توانند از راه پیوندهای داخلی در صفحه وب بخزند.
Noindex: از قرار گرفتن صفحه تعیین شده در فهرست جلوگیری می‌کند.
Nofollow: مانع از دنبال نمودن ربات‌های Google از پیوندهای موجود در صفحه می‌شود. توجه داشته باشید که این با ویژگی پیوند rel=”nofollow” متفاوت میباشد.
Noarchive: از نمایش نسخه های کش شده صفحه در SERP‌ها جلوگیری می‌کند.
Nosnippet: از کش شدن صفحه و نمایش توضیحات در ذیل صفحه در SERP‌ها جلوگیری می‌کند.
NOODP: از توضیح پروژه دایرکتوری باز برای صفحه جلوگیری می‌کند و به جای توضیحات تنظیم شده دستی برای این صفحه
Noimageindex: از ایندکس شدن تصاویر در صفحه بوسیله گوگل جلوگیری می‌کند
Notranslate: از ترجمه صفحه در SERP های گوگل جلوگیری می‌کند

می‌توانید از چندین دستور در تگ متا روبات خود استفاده نمایید. اگر می‌خواهید از کش شدن یک صفحه در وبسایت خود بوسیله همه موتور های جستجو جلوگیری نمایید و هم چنین از جایگزینی توضیحات Open Directory به جای توضیحات فعلی شما جلوگیری نمایید، از دستورات ذیل استفاده می‌کنید: noarchive و NOODP.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

فایل robots.txt چیست؟

یک فایل robots.txt در ریشه وبسایت شما قرار دارد. بنابراین، برای وبسایت www.example.com، فایل robots.txt در www.example.com/robots.txt قرار دارد. robots.txt یک فایل متنی ساده میباشد که از استاندارد حذف روبات‌ها پیروی می‌کند. یک فایل robots.txt از یک یا چند قانون تشکیل شده است.

هر قانون دسترسی همه یا یک خزنده خاص را به مسیر فایل مشخص شده در دامنه یا ذیل دامنه ای که فایل robots.txt در آن میزبانی می‌شود مسدود می‌کند یا اجازه می‌دهد. مگر این که چیز دیگری در فایل robots.txt خود مشخص نمایید، همه فایل‌ها به طور ضمنی برای خزیدن مجاز هستند.

فایل robots.txt یک سند متنی با کد UTF-8 میباشد که برای http، https و هم چنین پروتکل‌های FTP معتبر میباشد. این فایل توصیه هایی را برای ربات های موتور جستجو ارائه می‌دهد که در کدام صفحات یا فایل‌ها میبایست خزیده شوند. اگر یک فایل حاوی نویسه‌هایی باشد که با UTF-8 کدگذاری شده‌اند، خزنده‌های جستجو امکان دارد آنان را اشتباه پردازش کنند. دستورالعمل‌های فایل robots.txt فقط با میزبان، پروتکل و شماره پورتی که فایل در آن قرار دارد کار می‌کند.

چرا فایل Robots.txt مهم است؟

۱- مدیریت ترافیک ربات‌ها

فایل robots.txt به چند دلیل مختلف بخش لازم هر وب سایتی میباشد. نخستین و واضح ترین آنان این میباشد که آنان شما را قادر می‌سازند کنترل نمایید که کدام صفحات در وبسایت شما خزیده شوند و کدام صفحات خزیده نشوند.

این را می‌توان با دستور “اجازه” یا “عدم اجازه” انجام داد. در بیش موارد، شما از دومی‌بیشتر از اولی استفاده خواهید نمود، در حالی که دستور allow واقعاً فقط برای بازنویسی غیر مجاز مفید میباشد. غیر مجاز نمودن صفحات خاص به این معنی میباشد که خزنده‌ها هنگام خواندن وبسایت شما، آنان را حذف می‌کنند.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

۲- جلوگیری از نمایش برخی از صفحات یا فایل‌ها در گوگل

امکان دارد تعجب نمایید که چرا می‌خواهید اینکار را انجام بدهید. آیا هدف اصلی سئو و سئو تصاویر این نیست که موتور های جستجو و در نتیجه کاربران بتوانند صفحات شما را آسان تر پیدا کنند؟

بله و خیر. در واقع، پایان هدف سئو این میباشد که موتور های جستجو و کاربران آن‌ها را راحت‌تر بیابند تا صفحات درست را بیابند. تقریباً هر وب‌سایتی، مهم نیست که چقدر بزرگ یا کوچک باشد، صفحاتی دارد که برای کسی جز شما دیده نمی‌شود. اجازه دادن به خزنده‌ها برای خواندن این صفحات، احتمال نمایش آن‌ها در نتایج جستجو را به جای صفحاتی که واقعاً می‌خواهید کاربران بازدید کنند، زیاد شدن می‌دهد.

نمونه‌هایی از صفحاتی که امکان دارد بخواهید خزیدن را ممنوع نمایید شامل موارد ذیل است:

صفحات با محتوای تکراری
صفحاتی که هنوز در حالا ساخت هستند
صفحاتی که قرار میباشد منحصراً از راه URL یا ورود به سیستم قابل دسترسی باشند
صفحاتی که برای کارهای اداری استفاده می‌شوند
صفحاتی که در واقع فقط منابع چندرسانه ای هستند (مانند تصاویر یا فایل های PDF)

از آنجایی که گوگل و سایر موتور های جستجو فقط می‌توانند صفحات زیادی را در یک وبسایت بخزند، مهم میباشد که مطمئن بشوید که مهم ترین صفحات شما (یعنی صفحاتی که باعث درست کردن ترافیک، اشتراک گذاری و تبدیل می‌شوند) نسبت به موارد کم اهمیت اولویت دارند.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

۳- مدیریت Crawl Budget (بودجه خزش)

برای وب‌سایت‌های بزرگ با صد ها یا حتی هزاران صفحه (به عنوان مثال، وبلاگ‌ها یا سایت‌های تجارت الکترونیک)، عدم مجوز به برخی صفحات سایت می‌تواند به شما یاری بکند از هدر دادن «بودجه خزیدن» خود جلوگیری نمایید.

بیش اوقات، شما به همه خزنده‌ها از یک صفحه یا صفحات خاص اجازه یا غیرمجاز می‌دهید. با این حالا، امکان دارد مواردی وجود داشته باشد که بخواهید به جای آن خزنده‌های خاصی را هدف قرار بدهید.

به عنوان مثال، اگر می‌خواهید سرقت عکس یا سوء استفاده از پهنای باند را کاهش بدهید، به‌جای این که فهرست گسترده‌ای از URLهای منابع رسانه‌ای را غیرقانونی نمایید، منطقی‌تر میباشد که Googlebot-Image و سایر خزنده‌های عکس محور را غیرفعال نمایید.

وقت دیگری که امکان دارد بخواهید خزنده‌های خاصی را غیرمجاز نمایید، این میباشد که ترافیک مشکل دار یا هرزنامه زیادی را از یک موتور جستجو بیش از موتور جستجوی دیگر دریافت می‌کنید.

ترافیک هرزنامه از ربات‌ها و سایر منابع به احتمال فراوان به وبسایت شما آسیب نمی‌رساند (اگرچه می‌تواند به بارگذاری بیشتر از حد سرور یاری بکند، موضوعی که کمی‌بعداً در مورد آن صحبت خواهیم کرد). با این حالا، می‌تواند تجزیه و تحلیل شما را به طور جدی منحرف بکند و توانایی شما را برای تصمیم گیری دقیق و مبتنی بر داده‌ها مهار بکند.

چرا میبایست robots.txt داشته باشیم؟

چه یک وبسایت کوچک باشد یا یک وبسایت بزرگ داشته باشید، داشتن یک فایل robots.txt زیاد مهم میباشد. این فایل به شما کنترل بیشتری بر حرکت موتور های جستجو در وبسایت شما می‌دهد. در حالی که یک دستورالعمل غیرمجاز تصادفی می‌تواند باعث خزیدن Googlebot در کل وبسایت شما شود، موارد رایجی وجود دارد که واقعاً می‌تواند مفید باشد.

robots.txt از نقطه پیشنهاد تکنیکال سئو نقش اساسی دارد. به موتور های جستجو می‌گوید که چطور می‌توانند وبسایت شما را به برترین نحو بخزند.

با استفاده از فایل robots.txt می‌توانید از دسترسی موتور های جستجو به بخش‌های خاصی از وب‌سایت خود جلوگیری نمایید، از محتوای تکراری جلوگیری نمایید و به موتور های جستجو راهنمایی‌های مفیدی در مورد این که چطور می‌توانند وب‌سایت شما را به طور مؤثرتر خزیدن کنند، ارائه بدهید.

با این حالا، هنگام درست کردن تغییرات در robots.txt خود مراقب باشید: این فایل این پتانسیل را دارد که بخش‌های بزرگی از وب‌سایت شما را برای موتور های جستجو غیرقابل دسترس بکند.

ما در این قسمت به سئو اشاره کردیم ولی اگر راجع به مراحل انجام سئو اطلاعات ندارید، نظر می کنیم برای درک بهتر ادامه مطلب، مقاله هایی حول آن مطالعه فرمایید.

۱- در مواقعی که محتوای تکراری روی وبسایت داشته باشید، یکی از صفحات را disallow نمایید.

محتوای تکراری گوگل را گیج می‌کند و موتور جستجو را مجبور می‌کند انتخاب کند که کدام یک از صفحات یکسان را در نتایج برتر قرار دهد. صرف پیشنهاد از این که چه کسی محتوا را تولید کرده میباشد، احتمال زیادی وجود دارد که صفحه اصلی برای برترین نتایج جستجو انتخاب نشده باشد.

ما می‌دانیم که محتوای تکراری برای سئو و تبلیغات گوگل مضر میباشد و اگر یک وبسایت دارای محتوای تکراری باشد، امکان دارد به رتبه بندی آن آسیب وارد شود. با این حالا، گاهی اوقات سایت‌ها به قدری بزرگ هستند که شناسایی و حذف/حل هر نمونه از محتوای تکراری در سراسر سایت اغلب کار دشواری میباشد.

در حالی که استفاده از تگ های Canonical اغلب می‌تواند به نتایج دلخواه برسد، گاهی اوقات امکان دارد (به ویژه برای سایتهای بزرگ) پیاده سازی آن به عنوان یک راه حل در سطح وبسایت دشوار باشد. اغلب، مسدود نمودن صفحات یا دایرکتوری‌های خاصی که نیازی به رتبه‌بندی آن‌ها از خزیدن بوسیله موتور های جستجو با استفاده از فایل robots.txt نیست، سریع‌تر و آسان‌تر است.

۲- بخشی از وبسایت را در دسترس عموم قرار ندهید.

ضروری نیست به موتور های جستجو اجازه بدهید هر صفحه در وبسایت شما را بخزند زیرا همه آنان نیازی به رتبه بندی ندارند. به عنوان مثال می‌توان به سایتهای مرحله بندی، صفحات نتایج جستجوی داخلی، صفحات تکراری یا صفحات ورود اشاره نمود.

به عنوان مثال، وردپرس به طور خودکار /wp-admin/ را برای همه خزنده‌ها غیرمجاز می‌کند. این صفحات میبایست وجود داشته باشند، ولی شما نیازی به ایندکس شدن و یافتن آنان در موتور های جستجو ندارید. یا برای احتناب از پنالتی گوگل نیازی نیست صفحه ای ایندکس شود. یک مورد عالی که در آن از robots.txt برای مسدود نمودن این صفحات از خزنده‌ها و ربات‌ها استفاده می‌کنید.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

۳- جا نقشه وبسایت را برای ربات‌های گوگل مشخص نمایید.

نقشه وبسایت XML یک فایل xml. میباشد که پایان صفحات یک وب‌سایت را فهرست می‌کند که می‌خواهید فایل Robots.txt آن‌ها را پیدا کرده و به آنان دسترسی داشته باشد.

به عنوان مثال، اگر یک وبسایت تجارت الکترونیک با وبلاگی دارید که موضوعات مختلفی را در صنعت شما پوشش می‌دهد، میبایست زیرپوشه وبلاگ را به نقشه وبسایت XML اضافه نمایید تا خزنده‌ها به این صفحات دسترسی داشته باشند و در SERP‌ها رتبه بندی کنند.

ولی شما میبایست صفحات فروشگاه، سبد خرید و پرداخت را در نقشه وبسایت XML کنار بگذارید، زیرا این صفحات فرود خوبی برای بازدید مشتریان بالقوه نیستند. مشتریان شما به طور طبیعی هنگام خرید یکی از محصول های شما از این صفحات عبور می‌کنند، ولی مطمئناً برای مثال، سفر تبدیل خود را در صفحه پرداخت آغاز نمی‌کنند.

نقشه های وبسایت XML هم چنین اطلاعات مهمی‌ را در مورد هر URL از راه متا داده های آن حمل می‌کنند. این برای SEO (بهینه سازی موتور جستجو) مهم میباشد زیرا متا داده‌ها نظیر انکرتکست حاوی اطلاعات مهم رتبه بندی هستند که به URL‌ها اجازه می‌دهد در SERP‌ها در برابر رقبا رتبه بندی کنند. بهتر میباشد جا نقشه وبسایت را به پایین فایل robots.txt اضافه نمایید.

۴- اجازه ندهید ربات‌ها برخی فایل‌های روی سایت تان را ایندکس کنند.

گاهی اوقات می‌خواهید Google منابعی همچون PDF، ویدیوها و تصاویر را از نتایج جستجو حذف بکند. شاید بخواهید آن منابع را خصوصی نگه دارید یا تمرکز گوگل را روی محتوای مهم تری برای زیاد شدن رتبه سئو ویدیو قرار بدهید. در این گونه، استفاده از robots.txt برترین راه برای جلوگیری از ایندکس شدن آنهاست و باعث کاهش سئو کلاه سیاه می شود.

ما در این قسمت به سئو اشاره کردیم راجع به برترین افزونه سئو وردپرس، نظر می کنیم برای درک بهتر ادامه مطلب، مقاله هایی حول آن مطالعه فرمایید.

۵- برای ربات‌ها یک وقت تأخیر در خزیدن تعریف نمایید تا هنگامی وبسایت شلوغ می‌شود، سرعت پایین نیاید.

با گنجاندن فرمان «تاخیر خزیدن» در robots.txt خود، می‌توانید نه تنها صفحاتی را که خزنده‌ها می‌خوانند، بلکه سرعت انجام آن را کنترل نمایید. به طور معمول، خزنده‌های موتور های جستجو زیاد سریع هستند و از صفحه به صفحه به صفحه به صفحه دیگر زیاد سریعتر از هر انسانی می‌چرخند که آنان را زیاد قدرتمند و کارآمد می‌کند.

هر چه یک وبسایت ترافیک بیشتری دریافت بکند، سروری که روی آن میزبانی می‌شود میبایست برای نمایش صفحات وبسایت سخت تر کار بکند. زمانیکه میزان ترافیک از توانایی سرور برای تطبیق با آن فراتر رود، نتیجه اضافه بار میباشد. این بدان معنی میباشد که سرعت صفحه تا خزیدن کاهش می‌یابد و هم چنین خطاهای ۵۰۰، ۵۰۲، ۵۰۳ و ۵۰۴ زیاد شدن می‌یابد و رتبه سئو خارجی و داخلی کاهش می‌یابد. به زبان ساده یعنی فاجعه.

اگرچه اغلب این اتفاق نمی‌افتد، خزنده‌های موتور های جستجو می‌توانند با عبور از ترافیک از نقطه اوج، به اضافه بار سرور یاری کنند. اگر این چیزی میباشد که شما نگران آن هستید، می‌توانید به خزنده‌ها دستور بدهید تا سرعت خود را کاهش بدهند و حرکت آن‌ها به صفحه بعدی را بین ۱ تا ۳۰ ثانیه به تاخیر بیندازید.

آشنایی با دستورات فایل Robots.txt

دستور اول: User-agent

به یک ربات خاص اشاره می‌کند که به آن دستورالعمل های خزیدن (به عنوان مثال موتور جستجو) را می‌دهید. هر موتور جستجو میبایست خود را با یک عامل کاربر شناسایی بکند. ربات های گوگل به عنوان مثال Googlebot، ربات های یاهو به عنوان Slurp و ربات Bing به عنوان BingBot و غیره شناخته می‌شوند.

رکورد عامل کاربر آغاز گروهی از دستورالعمل‌ها را تعریف می‌کند. همه دستورات بین نخستین کاربر عامل و رکورد بعدی عامل کاربر به عنوان دستورالعمل برای نخستین عامل کاربر تلقی می‌شوند.

دستورالعمل‌ها می‌توانند در مورد عوامل کاربر خاص اعمال شوند، ولی می‌توانند برای همه عوامل کاربر هم قابل اجرا باشند. در آن گونه، یک علامت عام استفاده می‌شود: User-agent: *.
دستور دوم: Disallow

دستوری است که به ربات می‌گوید یک URL خاص را نخزد. می‌توانید به موتور های جستجو بگویید که به فایل ها، صفحات یا بخش های خاصی از وبسایت شما دسترسی نداشته باشند. اینکار با استفاده از دستور Disallow انجام می‌شود. دستورالعمل Disallow مسیری را دنبال می‌کند که نبایستی به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می‌شود.

مثال:

User-agent: *

Disallow: /wp-admin/

در این مثال به همه موتور های جستجو گفته می‌شود که به دایرکتوری wp-admin/ دسترسی نداشته باشند.
دستور سوم: Allow

دستوری میباشد که به ربات می‌گوید یک URL خاص را بخزد، حتی در یک فهرست غیر مجاز. دستور Allow برای مقابله با دستورالعمل Disallow استفاده می‌شود. دستورالعمل Allow بوسیله Google و Bing پشتیبانی می‌شود.

با استفاده از دستورالعمل‌های Allow و Disallow می‌توانید به موتور های جستجو بگویید که می‌توانند به یک فایل یا صفحه خاص در یک فهرست دسترسی داشته باشند که در غیر این گونه غیرمجاز میباشد. دستورالعمل Allow مسیری را دنبال می‌کند که می‌توان به آن دسترسی داشت. اگر مسیری تعریف نشده باشد، دستورالعمل نادیده گرفته می‌شود.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

مثال:

User-agent: *

Allow: /media/terms-and-conditions.pdf

Disallow: /media/

در مثال بالا، همه موتور های جستجو به جز فایل /media/terms-and-conditions.pdf اجازه دسترسی به فهرست media/ را ندارند.

تذکر مهم: هنگام استفاده از دستورالعمل‌های مجاز و غیر مجاز با هم، مطمئن بشوید که از حروف عام استفاده نکنید زیرا امکان دارد منجر به دستورالعمل‌های متناقض شود.

مثال:

User-agent: *

Allow: /directory

Disallow: *.html

در مثال بالا موتور های جستجو نمی‌دانند با URL http://www.domain.com/directory.html چه کنند. برای آنان مشخص نیست که آیا آنان اجازه دسترسی دارند یا خیر. هنگامی دستورالعمل‌ها برای Google واضح نباشند، با کمترین دستورالعمل‌های محدودکننده قبل می‌روند، که در این مورد به این معنی میباشد که آنان در واقع به http://www.domain.com/directory.html دسترسی خواهند داشت.
دستور چهارم: Sitemap

به تعیین جا نقشه (های) وبسایت برای ربات یاری می‌کند. برترین روش برای اینکار قرار دادن دستورالعمل های نقشه وبسایت در انتهای یا ابتدای فایل robots.txt میباشد. هم چنین فایل robots.txt می‌تواند برای نشان دادن موتور های جستجو به نقشه وبسایت XML استفاده شود. این بوسیله Google، Bing، Yahoo و Ask پشتیبانی می‌شود.

نقشه وبسایت XML میبایست به عنوان یک URL مطلق ارجاع داده شود. لزومی‌ندارد که URL در همان میزبان فایل robots.txt باشد.

ارجاع به نقشه وبسایت XML در فایل robots.txt یکی از برترین روش هایی میباشد که به شما توصیه می‌کنیم همیشه انجام بدهید، حتی اگر قبلاً نقشه وبسایت XML خود را در کنسول جستجوی گوگل یا ابزار وب مستر بینگ فرستادن کرده باشید. به یاد داشته باشید، موتور های جستجوی بیشتری وجود دارد.

لطفاً توجه داشته باشید که می‌توان به چندین نقشه وبسایت XML در یک فایل robots.txt اشاره نمود.

مثال:

چندین نقشه وبسایت XML تعریف شده در فایل robots.txt:

User-agent: * Disallow: /wp-admin/ Sitemap: https://www.example.com/sitemap1.xml Sitemap: https://www.example.com/sitemap2.xml

مثال بالا به همه موتور های جستجو می‌گوید که به دایرکتوری /wp-admin/ دسترسی نداشته باشند و دو نقشه وبسایت XML وجود دارد که می‌توانید آنان را در https://www.example.com/sitemap1.xml و https://www.exampl.com/sitemap2.xml

۱- دستورات استفاده شده در فایل Robots.txt برای همه ربات‌های موتور های جستجو یکسان نیست.

دستورالعمل‌های موجود در فایل‌های robots.txt نمی‌توانند رفتار خزنده را در وبسایت شما و لندینگ پیج کنترل کنند. در حالی که Googlebot و سایر خزنده‌های وب معتبر از دستورالعمل‌های فایل robots.txt پیروی می‌کنند، خزنده‌های دیگر امکان دارد اینکار را نکنند.

بنابراین، اگر می‌خواهید اطلاعات را از خزنده‌های وب ایمن نگه دارید، بهتر میباشد از سایر روش‌های مسدود نمودن همچون محافظت از فایل‌های خصوصی با رمز عبور روی سرور خود استفاده نمایید.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

۲- ممکن است هر کدام از ربات‌ها دستورات را به شکل متفاوتی درک بکند.

اگرچه خزنده‌های وب ارجمند از قوانین موجود در فایل robots.txt پیروی می‌کنند، ولی هر خزنده امکان دارد قوانین را متفاوت تفسیر بکند. شما میبایست نحو متناسب برای نشانی دادن به خزنده های وب مختلف را بدانید زیرا امکان دارد برخی دستورالعمل های خاصی را درک نکنند.

۳- اگر اجازه بررسی صفحه‌ای را با دستورات فایل ربات نداده باشیم باز هم ممکن است گوگل آن را ایندکس بکند.

در حالی که Google محتوای مسدود شده بوسیله یک فایل robots.txt را نمی‌خزد یا فهرست‌بندی نمی‌کند، ولی اگر از مکان‌های دیگر در وب پیوند داده شده باشد، امکان دارد URL غیرمجاز را بوسیله بک لینک PBN پیدا کرده و فهرست‌بندی بکند.

در نتیجه، نشانی URL و احتمالاً سایر اطلاعات عمومی‌در دسترس همچون متن لنگر در پیوندهای صفحه همچنان می‌توانند در نتایج جستجوی Google ظاهر شوند. برای جلوگیری از نمایش درست URL خود در نتایج جستجوی Google، از فایل های سرور خود با رمز عبور محافظت نمایید، از متا تگ noindex یا سرصفحه جواب استفاده نمایید یا صفحه را به طور کامل حذف نمایید.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

فایل Robots.txt را از کجا پیدا کنیم؟

فایل he robots.txt همچون هر فایل دیگری در وبسایت شما، روی سرور شما میزبانی می‌شود. شما می‌توانید فایل robots.txt را برای هر وب سایتی با تایپ URL کامل برای صفحه اصلی و بعدا اضافه نمودن /robots.txt همچون https://webramz.com/robots.txt مشاهده نمایید.

اگر از پیش فایل robots.txt ندارید، درست کردن آن آسان میباشد. می‌توانید از یک ابزار مولد robots.txt استفاده نمایید، یا می‌توانید خودتان آن را درست کردن نمایید. در این جا نحوه درست کردن یک فایل robots.txt تنها در چهار مرحله آورده شده است:

یک فایل درست کردن نمایید و نام آن را robots.txt بگذارید.
قوانین را به فایل robots.txt اضافه نمایید.
فایل robots.txt را در وبسایت خود آپلود نمایید.

فایل robots.txt را تست نمایید. جهت اینکار، بررسی نمایید که آیا فایل robots.txt شما برای عموم قابل دسترسی میباشد (یعنی آیا به درستی آپلود شده است). یک پنجره خصوصی در مرورگر خود باز نمایید و فایل robots.txt خود را جستجو نمایید. به عنوان مثال، https://webramz.com/robots.txt.

گوگل دو گزینه برای آزمایش نشانه گذاری robots.txt ارائه می‌دهد:

آزمایشگر robots.txt در کنسول جستجو
کتابخانه منبع باز robots.txt گوگل (پیشرفته)

افزودن نقشه وبسایت خود در فایل robots.txt به ربات های موتور جستجو می‌گوید که نقشه وبسایت را کجا بیابند و چطور از آن برای خزیدن و ایندکس نمودن وبسایت خود استفاده کنند. این قابلیت خزیدن وبسایت و سئو داخلی را بهبود می‌بخشد و منجر به نمایه سازی بهتر می‌شود.

فایل robots.txt چیست؟

فایل robots.txt چیست؟

به علاوه، زمانیکه شما درکی واضح از ساختار و محتوای وبسایت خود در اختیار موتور های جستجو قرار می‌دهید، نقشه وبسایت می‌تواند به بهبود رتبه بندی کلی شما در موتور های جستجو یاری بکند. جهت کسب اطلاعات بیش می توانید با متخصصین وب رمز تماس حاصل کنید.

مطالب مرتبط :

اولین تراکنش بیت کوین در 2009

فاکتورهای سئو در طراحی سایت

تفاوت بازدید های موبایل و کامپیوتر در الکسا

ترفندهای سرگرم کننده گوگل