یک خزنده وب یا web crawler، نقش بارگیری و رتبه‌بندی محتوا از شبکه اینترنت را ایفا می‌نماید. از نام‌های دیگر یک خزنده می‌توان به spider و بات موتور جستجو نیز اشاره کرد. وظیفه این بات‌ یادگیری این نکته است که هر صفحه در شبکه چه موضوعی دارد تا اطلاعات جمع‌آوری شده در وقت مناسب فراخوانی گردیده و مورد استفاده قرار گیرند. دلیل نام‌گذاری بات‌های موتورهای جستجو به شکل خزنده وب این حقیقت می‌باشد که واژه خزیدن لفظ تکنیکال برای دسترسی خودکار به یک وبسایت و جمع‌آوری داده‌ها توسط یک برنامه نوشته شده می‌باشد.

بات‌های خزنده وب در غالب مواقع توسط موتورهای جستجو ایجاد و اجرا می‌شوند. موتورهای جستجو با اعمال یک الگوریتم جستجو بر اطلاعات گردآوری شده، قابلیت نمایش لینک‌های مرتبط را در پاسخ به عبارت جستجو شده توسط یک کاربر دارند.

خزنده وب

خزنده‌های وب چگونه کار می‌کنند؟

یک بات خزنده وب را می‌توان به شخصی در یک کتابخانه بسیار بزگ تشبیه نمود که وظیفه دسته بندی و ثبت موضوع هر کتاب را داراست تا به این ترتیب مراجعین قادر باشند در اسرع وقت اطلاعات مورد نظر خود را پیدا کنند. برای سازماندهی دقیق کتاب‌ها، شخص کتابدار نیاز دارد تا عنوان، خلاصه و مقداری از محتوای آن‌ها را بررسی نماید.

تفاوت اصلی آنجایی است که صفحات وب برخلاف کتاب‌ها ماهیتی مجازی دارند و به همین دلیل حصول اطمینان از بررسی کامل آن‌ها امری غیرممکن می‌باشد. برآوردها نشان می‌دهند تنها چیزی در حدود ۷۰ درصد از محتوای موجود در اینترنت مورد رتبه‌بندی قرار می‌گیرد که این خود شامل میلیاردها صفحه می‌شود. البته این مجازی بودن محیط مزیتی نیز در نحوه یافتن صفحات مرتبط با یکدیگر دارد. یک خزنده وب معمولا به صفحات شناخته شده تر شروع می‌کند و سپس از طریق هایپرلینک‌های موجود در آن صفحات به صفحاتی با محتوای مشابه رفته و این روند را به صورت متعدد تکرار می‌نماید. اما با توجه به گستردگی فضای اینترنت، این فرآیند ممکن است به یک چرخه بی‌نهایت تبدیل گردد و به همین دلیل نیز خزنده‌های وب سیاست‌های خاصی را در خصوص اینکه چه صفحاتی را بررسی و رتبه بندی نمایند اجرا می‌کنند.

برخی موارد رعایت شده توسط یک خزنده‌ وب

  • اهمیت نسبی هر صفحه: غالب خزنده‌ها تمامی اطلاعات موجود بر بستر اینترنت را مورد بررسی قرار نمی‌دهند و به جای این کار ترجیح می‌دهند ابتدا صفحات را بر مبنای مواردی همچون تعداد لینک‌هایی که از صفحات دیگر به آن‌ها زده شده است و میزان بازدیدکنندگان بررسی نمایند. دلیل این امر آن است که صفحه‌ای که به میزان بالا مشاهده و یا از صفحات دیگر به آن ارجاع داده شده است، قطعا دارای اطلاعات با کیفیت و مرتبط با کلمات مورد جستجو خواهد بود.
  • بازدید صفحات به صورت مستمر: محتوای اینترنت به طور دائم در حال به روزرسانی، حذف و یا جا به جا شدن می‌باشد. به همین علت خزنده‌های وب نیاز دارند تا به صورت دوره‌ای صفحات را بررسی کنند تا در جریان تغییرات محتوای آن‌ها قرار گیرند.
  • فایل Robots.txt: خزنده‌های وب پیش از بررسی یک صفحه، فایل Robots.txt میزبانی شده توسط وب سرور آن وبسایت را چک می‌کنند. این فایل قوانین و سطوح دسترسی را برای بات‌های مراجعه کننده به صفحات تعیین می‌نماید.
خزنده وب

با دیگر مقالات server.ir همراه باشید.

۱۴۰۰/۰۳/۲۳

نویسنده : س احمدی

بدون دیدگاه

کدهای UTM

کدهای UTM، کدهایی هستند که به منظور ردیابی کلیک‌ها و ارزیابی سایر فعالیت‌های بازاریابی دیجیتال به انتهای آدرس‌های اینترنتی یا URLها اضافه می‌شوند. این...

۱۴۰۰/۰۳/۱۹

نویسنده : م کوکبی

بدون دیدگاه

نصب رابط گرافیکی در Ubuntu سرور

در این آموزش قصد داریم نحوه ی نصب رابط گرافیکی بر روی یک سرور با سیستم عامل Ubuntu را آموزش دهیم. به صورت پیش فرض سیستم عامل  Ubuntu که بر روی سرور...

۱۴۰۰/۰۳/۱۷

نویسنده : ف سلالی

بدون دیدگاه

معرفی پلاگین Rbl Check و نحوه نصب آن

در مقاله های پیشین در خصوص RBL ها یا همان Realtime Blackhole List ها توضیحاتی ارائه شد و در این مقاله قصد داریم برای شناسایی به موقع بلاک بودن یا نبود...

دیدگاه کاربران

در رابطه با : "خزنده وب یا Web Crawler"

avatar
  عضویت  
با خبرم کن

وب گردی

جستجو
دقیقا متنی که نوشتم
جستجو در تیتر صفحات
جستجو در متن صفحات
جستجو در نظرات
Search in excerpt
Filter by Custom Post Type

با Server.ir همراه شو ...