کراول چیست؟ تعریف کراول به زبان ساده

کراول چیست

فهرست مطالب

به‌طور کلی و خلاصه گوگل چند مرحله برای بررسی و ثبت محتواها در موتور جستجوی خود دارد. این مراحل عبارت‌اند از دیسکاور، کراول، ایندکس و رتبه‌بندی. در هریک از این مراحل ربات‌های گوگل مثل کارمندانی وظیفه‌شناس، طبق الگوریتم‌ها و قوانین گوگل وظایف خود را پیش می‌‌برند. مراحل مربوط به کراول کردن محتواها یعنی پیدا کردن آن‌ها در فضای وب است. این ربات‌ها شبانه‌روز دنبال مطالب جدید می‌گردند تا بتوانند آن‌ها در کتابخانه گوگل ثبت کنند. در این مقاله می‌خواهیم بگوییم کراول چیست؟ و این فرآیند چگونه کار می‌کند.

کراول چیست؟

همانطور که خواندید، گوگل در چند مرحله محتواها را نمایش می‌دهد. حالا باید بدانیم که گوگل چطوری کار میکنه؟ در اولین مرحله، گوگل باید بداند چه صفحاتی در وب وجود دارد. گوگل برای پیدا کردن صفحات موجود، باید به‌طور مداوم دنبال محتواهای جدید و به‌روز شده باشد تا بتواند آن‌‌ها را به لیست خود اضافه کند. حالا برای پیدا کردن این صفحات گوگل چطوری کار میکنه؟ برای انجام این کار گوگل از ربات‌های خود کمک می‌گیرد و “کشف URL” صورت می‌گیرد. URL آدرس هر صفحه در فضای وب است. در اصطلاح به کشف کردن این آدرس‌ها، کرال (کراول) کردن یا خزش گفته می‌شود.

۱۵ ربات‌ یا عنکبوت، وظیفه کراول را بر عهده‌دارند. مهم‌ترین ربات گوگل  Googlebot است که باید آخرین اطلاعات موجود را در پایگاه‌های گوگل ثبت کند. حالا این ربات‌ها چگونه کار می‌کنند؟ آن‌ها برخی از صفحات به دلیل اینکه قبلاً گوگل از آن‌ها بازدید کرده است، می‌شناسند. صفحات دیگر زمانی کشف می‌شوند که گوگل لینکی را از یک صفحه شناخته‌شده به یک صفحه جدید معرفی می‌کند. این لینک می‌تواند لینک داخلی یک بلاگ یا رپورتاژ موجود در یک سایت معتبر باشد.

جالب است بدانید که گوگل به‌خودی‌خود مرکزی برای ثبت URLها ندارد که هرگاه صفحه جدیدی ایجاد شود، به‌روز ‌شود؛ یعنی که گوگل به‌طور خودکار متوجه ایجاد صفحه جدید نمی‌شود و باید توسط کراولرها آگاه شود. به همین منظور ربات‌ها دائماً در فضای وب سرگردان هستند و صفحات جدید را به پایگاه داده صفحات موجود گوگل اضافه می‌کند. هنگامی‌که Googlebot صفحه جدیدی را کشف می‌کند، تمام HTML، جاوا اسکریپت و CSS را بارگیری کرده و این اطلاعات در پایگاه داده موتور جستجو ذخیره می‌شود.

معرفی کرالرها

کراول چیست

در ادامه معروف‌ترین کراولرها را معرفی می‌کنیم.

·         Googlebot(متعلق به گوگل)

·         Facebook External Hit(متعلق به فیس‌بوک)

·         Bingbot(متعلق به بینگ)

·         Exabot (متعلق به Exalead)

·         Yandex Bot(متعلق به یاندکس)

·         Baiduspider(متعلق به Baidu)

·         Yahoo Slurp(متعلق به یاهو)

·         DuckDuckGo Bot(متعلق به DuckDuckGo)

·         AhrefsBot(متعلق به Ahrefs)

·         Mozbot(متعلق به موزیلا)

·         Semrush (متعلق به SEMrush)

کراولرها چگونه صفحات ما را می‌بینند؟

 نحوه مشاهده صفحات سایت توسط کراولر گوگل چگونه است؟ صفحه شما توسط دو ربات مخصوص موبایل و دسکتاپ، کرال می‌شود. Googlebot صفحه شما را با دو کراولر Googlebot Desktop و Googlebot Smartphone مشاهده می‌کند. در سالیان گذشته، گوگل تنها از کراولرهای مخصوص دسکتاپ استفاده می‌کرد، اما امروزه به دلیل استفاده بیش‌ازحد از گوشی‌های موبایل، خزنده‌های مخصوص موبایل هم سایت را بررسی می‌کنند.

در حال حاضر برای اینکه مدیران سایت به نسخه موبایل خود بیشتر اهمیت بدهند، الگوریتم‌های گوگل ابتدا نسخه موبایل را ایندکس می‌کنند. البته توجه کنید که سایت شما توسط هر دو ربات کراول می‌شود و صفحات شما را بررسی می‌کنند. اگر هنوز سایت خود را موبایل فرندلی نکرده‌اید، بهتر است هرچه زودتر بهینه‌سازی را انجام دهید.

کراول باجت چیست؟

کراول باجت چیست

Crawl budget یا بودجه خزش یکی از مفاهیم مربوط به کراولینگ است. طبق آمارهای منتشرشده، حدود ۱۵ ربات برای بررسی صفحات وب‌سایت‌ها در اختیار گوگل هستند، پس تعداد ربات‌ها محدود است و با توجه به زمان و منابع خود برای کراول کردن صفحات وقت می‌گذارند. در اصطلاح به این زمان محدود، بودجه خزش گفته می‌شود. بودجه خزش به معنی این است که ربات‌ها هر چند وقت یکبار از صفحات شما بازدید می‌کنند. کراول باجت گوگل ثابت است و با توجه به عوامل مختلف بین صفحات تقسیم می‌شود. این عوامل عبارت‌اند از:

·         حجم محتوا: هرچه میزان حجم محتوا و تعداد صفحات سایت شما بیشتر باشد، بودجه بیشتری برای کراول شدن دریافت می‌کنید. هرچه کراول باجت شما بیشتر باشد، ربات‌ها سایت شما را بهتر جستجو و کاوش می‌کنند و صفحات جدید را تشخیص می‌دهند.

·         کیفیت صفحات: همواره محتوای باکیفیت از اهمیت بالایی برخوردار است. هرچه محتوای تولیدشده جذاب‌تر باشد، بیشتر موردتوجه موتورهای جستجو قرار می‌گیرد و بودجه بیشتری از کرالرها دریافت می‌کند.

·         به‌روزرسانی سایت: صفحاتی که به‌صورت مدام به‌روزرسانی می‌شوند، نزد گوگل از اهمیت بیشتری برخوردار هستند. این سایت‌ها بودجه بیشتری از گوگل می‌گیرند، زیرا باید به‌طور مکرر کراول شوند.

·         ساختار سایت: ساختار و طراحی سایت نیز بر بودجه کراول تأثیرگذار است. سایت‌هایی که ساختار مناسب‌ دارند، ازنظر موتورهای جستجو بهتر عمل کرده و بیشتر از بقیه از crawl budget بهره می‌برند.

مدت زمان کراول شدن صفحات

واقعیت این است که نمی‌توان زمان دقیقی برای کرال شدن یک صفحه تعیین کرد و این موضوع بیشتر به سایت شما بستگی دارد. اگر سایت خود را زودبه‌زود آپدیت کنید، ربات‌ها نیز زودتر آن را کراول می‌کنند. البته فراموش نکنید که باید محتواهای با کیفیت تولید کنید و هر آپدیتی مهم و باارزش نیست و تأثیری در سرعت کراول شدن صفحه ندارد.

کرال چیست

جالب است بدانید که ممکن است بعد از گذشت یک مدت سرعت کراول کردن صفحات کمتر یا بیشتر شود. سرعت کرال شدن سایت به نحوه فعالیت شما وابسته است. هرچه کیفیت صفحات و محتواها افزایش پیدا کند، سرعت کراول کردن هم بیشتر می‌شود؛ زیرا طبق الگوریتم‌های گوگل رضایت مخاطب از اهمیت بالایی برخوردار است. پس هرچه مطالب شما بهتر باشد، گوگل هم بهتر ارتباط می‌گیرد و به رشد سایت شما کمک می‌کند.

بهینه کردن سایت برای کراول یعنی چه؟

در این مرحله شما جواب سؤال کراول چیست را می‌دانید. حالا می‌خواهیم کاری کنیم که کراول کردن صفحات راحت و ساده‌تر انجام شود. در ادامه روش‌هایی برای بهینه کردن سایت برای شناسایی توسط ربات‌ها معرفی می‌شود.

۱- استفاده از لینک‌های داخلی

لینک داخلی یکی از بهترین راه‌ها برای شناسایی صفحات مختلف توسط موتورهای جستجو است. همان‌طور که می‌دانید، گوگل بدون کراولینگ از ایجاد صفحات جدید آگاه نمی‌شود و به یک چراغ چشمک‌زن احتیاج دارد. لینک‌های داخلی مانند همان چراغ‌ها عمل می‌کنند. لینک دادن مسیر را به ربات‌ها نشان می‌دهد و می‌گوید که به کدام صفحات بروند و آن‌ها را شناسایی کند. با این روش صفحات سایت توسط گوگل شناسایی‌شده و در مرحله بعدی ایندکس می‌شود.

کراول چیست

۲- بک لینک‌ها

بک لینک‌ها نیز مانند لینک داخلی، به دلیل معرفی صفحات وب اهمیت زیادی دارند. البته فراموش نکنید که اگر یک سایت معتبر به شما لینک دهد، اهمیت آن دو چندان می‌شود. بک لینک گرفتن از سایت‌های معتبر، مثل این است که یک فرد معروف کسب‌وکار شما را تبلیغ کند و باعث افزایش اعتبار شما شود. با استفاده از این روش، معرفی وب‌سایت شما به کرالرهای گوگل زودتر اتفاق می‌افتد، زیرا لینک گرفتن از یک وب‌سایت معتبرتر شانس وب‌سایت شما را برای کشف شدن توسط کرالر افزایش می‌دهد.

۳- ساختار URL

توصیه می‌شود برای آدرس صفحات خود، یک url ساده، کوتاه و حاوی کلمه کلیدی انتخاب کنید. فایده انتخاب URL کوتاه برای سئو چیست؟ هرچه آدرس صفحه شما سرراست‌تر باشد، ربات‌ها و مخاطبان راحت‌تر سایت شما را پیداکرده و بهتر ارتباط برقرار می‌کنند. اگر URL عجیب غریب باشد، برای ربات‌ها گیج‌کننده می‌شود و قادر به کرال کردن آن نیستند. شما با رعایت همین نکته کوچک می‌تواند شانس وب‌سایت خود را برای زودتر کراول شدن افزایش دهید.

۴- استفاده از تصاویر

برای کراول شدن صفحات از تصاویر مرتبط با متن جایگزین به اسم کلمه کلیدی استفاده کنید. گوگل یک کراولر اختصاصی به نام Googlebot Image برای شناسایی تصاویر دارد. با توجه به این موضوع، استفاده از تصاویر مرتبط با موضوع، به کراول کردن سایت شما کمک می‌کند. توصیه می‌شود در هر تیتر از یک تصویر استفاده کنید و محتوای جذاب‌تری برای کاربران تولید کنید. استفاده از تصاویر علاوه بر افزایش شانس کرال زودهنگام، باعث سرگرمی بیشتر کاربرد و کاهش نرخ پرش می‌شود.

۵- نقشه‌های سایت

یکی از روش‌هایی که مسیر وب‌سایت و صفحات شما را به گوگل معرفی می‌کند، تهیه نقشه سایت است. نقشه سایت شامل تمامی صفحاتی است که قصد دارید در گوگل نشان داده شود. باید از طریق سرچ کنسول نقشه سایت خود را ثبت کنید و به Googlebot اجازه دهید که از صفحات ثبت‌شده بازدید کند. تهیه نقشه سایت برای سایت‌های جدید و بزرگ که بیش از 500 URL دارند، ضروری است. البته ارسال نقشه سایت، کرال شدن صفحات را تضمین نمی‌کند، اما می‌تواند به افزایش سرعت آن کمک کند.

۶- عمق کلیک (Click depth)

عمق کلیک نشان‌دهنده مراحلی است که کرالر باید طی کند تا به صفحه موردنظر برسد. ربات‌ها هم تنبل هستند و ترجیح می‌دهند هرچه سریع‌تر به مقصد برسند. به همین خاطر باید صفحه و وب‌سایت خود را مناسب کرال شدن طراحی کنید. طبق آمارها باید حدود سه کلیک یا کمتر طول بکشد تا خزنده به صفحه هدف خود برسد، هر چه تعداد کلیک‌ها بیشتر باشد، سرعت خزنده کاهش می‌یابد و احتمال کرال شدن کمتر می‌شود. اگر مسیر دسترسی به یک صفحه از صفحات اصلی بسیار طولانی باشد، باید به فکر بهینه‌سازی باشید و در ساختار وب‌سایت خود تجدیدنظر کنید.

کراولر سفارشی چیست؟

کراولر سفارشی چیست

ربات کرالر سفارشی به‌طور اختصاصی برای یک موضوع خاص ساخته شده است و فقط یک سری موضوع تعیین‌شده را بررسی می‌کند. این نوع ربات معمولاً با توجه به نیازهای خاص یک پروژه یا سازمان، با اهداف و محدوده مشخصی طراحی می‌شود. کرالرهای سفارشی طراحی می‌شوند تا در یک حوزه مخصوص جستجو ‌کنند و اطلاعات خاصی را از سایر رقبا به دست ‌آورند. برای مثال وقتی ربات شما برای هدف سئو ساخته شده باشد، صفحاتی مانند سفارش سئو، چک لیست سئو، سئو چیست و… را با دقت بیشتری کرال می‌کند.

دلایل کرال نشدن سایت چیست؟

در این بخش قصد داریم بگوییم که رایج‌ترین خطاهای کراول چیست؟ شما باید به طور منظم کراول شدن صفحات را چک کنید و آن را در چک لیست سئو سایت قرار دهید، زیرا گاهی ممکن است گوگل کراول با مشکل روبه‌رو شود و توانایی خزش در وب‌سایت شما را نداشته باشد. معمولاً کراول نشدن سایت به دلایل مختلفی ازجمله کندی سایت، خطا سرور و ۴۰۴ و… رخ می‌دهد. در ادامه بیشتر راجع به این دلایل می‌پردازیم.

·         مسدود شدن توسط robots.txt: robots.txt یک فایل متنی است که در کدهای وب‌سایت قرار می‌گیرد و به کرالرها می‌گوید در کدام بخش‌‌ها حق خزش دارند. ممکن است سایت شما یا صفحات خاصی در آن توسط دستورالعملی در فایل Robots.txt شما مسدود شود. این امر مانع از دسترسی Googlebot و سایر خزنده‌های موتورهای جستجو و خزیدن آن صفحات می‌شود.

·         خطاهای ۴۰۴: صفحاتی که خطای ۴۰۴ را نشان می‌دهند قابل کراول نیستند. این خطاها ممکن است زمانی رخ دهد که صفحات حذف شوند یا URL آن‌ها بدون تغییر مسیر مناسب در محل تغییر کند، زیرا خطای ۴۰۴ به معنای وجود نداشتن یک صفحه و بودن یک جعبه یا اتاق خالی است.

کراول چیست

·         خطاهای سرور: اگر سرور شما به‌طور مکرر از کار می‌افتد یا اگر کند پاسخ می‌دهد، Googlebot ممکن است در کراول کردن سایت شما با مشکل مواجه شود.

·         کندی سایت: اگر سایت شما برای بارگیری خیلی کند است، مانع از فعالیت Googlebot می‌شود. البته برای این موضوع، باید سرعت سایت خیلی کند باشد و احتمال رخ دادن آن بسیار کم است.

·         استفاده نادرست از متا تگ‌ها: گاهی اوقات مدیران وب‌سایت به طورخودخواسته از کراول شدن صفحات جلوگیری می‌کنند. استفاده نادرست یا آگاهانه از متا تگ‌های noindex یا nofollow نیز از کراول کردن گوگل در سایت شما جلوگیری می‌کند.

چگونه مشکلات کرال نشدن سایت را رفع کنیم؟

در انتها کراول شدن یک صفحه، به کیفیت آن بستگی دارد. شما برای نوشتن یک محتوای با کیفیت و مناسب، باید طبق الگوریتم‌های گوگل پیش بروید. البته که این قوانین چیزی جز رعایت اخلاق و رفع نیاز کاربران نیست. بااین‌حال اگر شما برای کسب رضایت مخاطبان برنامه‌ریزی کنید و زمان بگذارید، می‌توانید الگوریتم‌ها را رعایت کرده و سرعت کرال شدن صفحات سایت خود را افزایش دهید.

البته فراموش نکنید که گاهی اوقات با وجود رعایت تمام نکات، باز هم با مشکلاتی مانند کرال نشدن سایت مواجه می‌شوید. برای کرال شدن مجدد سایت، باید مشکلات فنی سایت را رفع کنید. توصیه می‌شود از اختلالات سایت سرسری نگذرید و حتما از یک متخصص کمک بگیرید تا بتوانید هرچه زودتر مطالب وب‌سایت خود را به ربات‌ها معرفی کنید. برای رفع این مشکلات و سفارش پروژه سئو می‌توانید از کارشناسان کالج هدف هم کمک بگیرید.  

فهرست مطالب

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *