هيچ تا به حال از خودتان پرسيده ايد كه وقتي با يك موتورجستجوي قوي مثل گوگل ( google) كار ميكنيدو يا وارد كردن يك يا چند لغت عجيب و غريب ،گوگل كلي نتايج جالب ومرتبط ،تقديمتان مي كند، چه اتفاقي مي افتد ؟
اگر تا به حال به دنبال پاسخ اين پرسش نرفته ايد يا پاسخ مناسبي براي آن پيدا نكرده ايد،پيشنهاد مي كنيم تا آخر اين مقاله همراه ما باشيد .اگرچه الگوريتم دقيق و چگونگي كار وگوگل يا خيلي از موتورهاي جستجو ،كاملا معلوم نيست.
اماكلياتي در كار بسياري از موتورهاي جستجو مشترك ومشابه است كه دانستن آنها خالي از لطف نيست.
پيش پردازش دادها
يكي از راههايي كه موتورهاي جستجو ، براي كاهش زمان جستجو به كار مي برند ، پيش پرداش محتواي وب سايت هاست .به اين ترتيب كه وقتي كاربر درخواست يك پرس و جو را مي دهد .به جاي اين كه اين پرس وجو به ميليون ها وب سايت فرستاده شود، با داده از پيش پردازش شده در يك سايت مقايسه مي شود و مطابقت صورت مي پذيرد. پيش پردازش به كمك برنامه نرم افزاري به نام crawlerانجام مي گيرد.
Crawler ، به وسيله نگهدارنده ها و به روزكنندگان بانك هاي اطلاعاتي فرستاده مي شود تا فهرست صفحات وب را جمع آوري كند. يك برنامه ويژه رايانه اي، صفحات بازيافتي را پيمايش مي كند تا كلمات را استخراج نمايد و بعد اين كلمات همراه با لينكي به صفحه مربوط ،در فايل شاخص (index)ذخيره مي شود. پرس و جو هاي كاربران با همين فايل شاخص مقايسه و مطابقت داده مي شود ونه با ديگر وب سايت ها.
الويت بندي نتايج
Url يا لينيك هايي كه به عنوان نتايج جستجو توليد مي شوند معمولا خيلي زياد هستند ،اما همه اين نتايج به درد بخور نيستند و حتي ممكن است عواملي مثل ابهام زبان باعث شود نتايج مناسبي به كاربر داده نشود .براي فراهم كردن دسترسي سريع و در عين حال صفحات مناسب و اين كه صفحات با موضوعيت بيشتر در الويت بالاتري قرار بگيرتد ،الگوريتم هاي جستجو استراتژي هاي رتبه بندي مختلفي رابه كار مي برند .
يكي از اين روش ها كه بسيار معمول است ، tfidf(term frequency inverse document trequncy) استدر اين روش چگونگي توزيع كلمات و تكرار آنها بررسي مي شود و براي كلمات، وزن عددي توليدمي شود . اين وزن به معني درجه اهميت و اعتبار آنها در اسناد مختلف است.به اين كار وزن دهي واژه(term weighting)گفته مي شود.وزن يك واژه به 2 عامل بستگي دارد: يكي دفعات تكرار واژه كه هر چه بيشتر با شد اهميت واژه بيشتر است و ديگري تواتر اسناد كه به معني تعداد اسنادي است كه شامل آن واژه است و هر چه اين مقدار بيشتر باشد ،اهميت واژه در تمايز اسناد كمتر خواهد بود .به اين ترتيب كلماتي كه تكرار بيشتري دارند مثل or , to,withو...نسبت به كلماتي كه از نظرمعنايي مناسب ترند و از طرف ديگر در متنهاي كمتري ظاهر مي شوند ،وزن كمتري خواهند داشت ؛البته عوامل ديگري مي توانند بر وزن (اهميت)يك واژه موثر باشند .محل وقوع واژه نمادهاي خاص مثل (font) و برچسب(tag) مربوط به واژه از آن جمله اند. معمولا كلمه اي كه در عنوان يك سند باشد مهمتر از واژه هاي خود متن است. همچنين واژ ه هاي خود متن است.همچنين واژه هاي نوشته شده با قلم خاص مهمتر از كلماتي است كه بدون اين ويژگي ها باشند.
علاوه بر وزن دهي واژه ها ،صفحات وب با استراتژي هاي ديگري هم وزن مي شود؛مثلا در روش تحليل لينك(Link analysis) ماهيت هر صفحه با توجه به ارتباط آن با ديگر صفحات در نظر گرفته مي شود.به اين ترتيب وزن دهي يك صفحه با توجه به تعداد صفحاتي كه به آن صفحه اشاره مي كنند يا بعكس،تعداد صفحاتي كه آن صفحه به آنها اشاره مي كند،صورت ميپذيرد.گوگل از اين روش براي بالا بردن نتايج جستجو استفاده مي كند.
موقعيت و مسافت
اصطلاحCaching درباره موتورهاي جسجو هم كاربرد دارد. به اين ترتيب كه پرس وجو هايي كه بتازگي از سوي كاربران وارد شده ،در جايي نگهداري يا به اصطلاح Cache مي شود و پرس و جوي كاربر پس از ارسال به موتور جستجوبه كار مي رود. در واقع وقتي موتور جستجو املاي صحيح كلمه را به شما اعلام مي كند (Did you mean) از اين تكنيك بهره مي برد.
استفاده از مدل تحويل توزيع شده (distributed delivery) راه ديگري براي سرعت دادن پاسخ گويي به درخواست هاي كاربران است .در اين مدل كپي هايي از شاخص ها ومطالب مربوط توليد مي شود وبه مكان هاي جغرافيايي متعددي انتقال مي يابد .
مشكلات
همان طور كه گفتيم Crawler ها براي پيش پردازش و بازيابي صفحات به كار مي روند.بعضي Crawler ها به روش كوركورانه به بازيابي صفحات مي پردازند.روش كوركورانه به اين معني است كه به شهرت و اهميت يا به عبارتي قابل اعتماد بودن مطالب وتوليد كنندگان آنها توجهي ندارند.البته اين روش موجب شده سوء استفاده هايي در شاخص دهي و استفاده از موتورهاي جستجو صورت گيرد.يكي از اين كارها بهindex_spamming معروف است .بعضي سايت ها براي اينكه در بيشتر مواقع در نتايج جستجو قرار بگيرند و تعداد مراجعان بيشتري داشته باشند،هزاران بار لغات خاصي را در محتواي سايت خود قرار ميدهند تا از نظر موتورهاي جستجو اولويت و امتياز بيشتري را به خود اختصاص دهند.
pagejacking يكي ديگر از اين حيله هاست .اين حيله از يكي از ويژگي هاي نرم افزارهاي وب سرورها،سوء استفاده مي كند .وب سرورها براي اينكه تعداد درخواستهاي يكيان بيشتري را در يك زمان پاسخ دهند ،(مثلا چند كاربر همزمان بخواهند به يك صفحه دسترسي پيدا كنند )مطالب هر صفحه را روي چند رايانه(با نشاني هاي مختلف كه از ديد كاربر مخفي است)قرار مي دهند و درخواست كاربران را به اين رايانه ها هدايت مي كنند .بعضي سايت ها از اين ويژگي نرم افزار استفاده و محتواي صفحات يك سايت را كپي مي كنند و در سايت خود قرار مي دهند . اين صفحات هم به وسيله موتورهاي جستجو ،شاخص دهي مي شود و در خواست بعضي كاربران به جاي صفحه اصلي به اين صفحات تقلبي ارجاع داده مي شوند .به اين ترتيب يك موتور جستجوي خوب علاوه بر جستجو و سرويس دهي خوب به كاربر بايد توانايي تشخيص جمله هاي اينترنتي را هم داشته باشد تا بتواند بهترين و صحيح ترين نتايج ممكن را در اختيار كاربران قرار دهد.
موتورهاي جستجو چگونه كار مي كنند؟
مدیران انجمن: SHAHRAM, شوراي نظارت

- پست: 15899
- تاریخ عضویت: جمعه ۷ بهمن ۱۳۸۴, ۷:۵۱ ب.ظ
- سپاسهای ارسالی: 72687 بار
- سپاسهای دریافتی: 31681 بار
- تماس:
موتورهاي جستجو چگونه كار مي كنند؟
زندگي صحنه يکتاي هنرمندي ماست هرکسي نغمه خود خواند و از صحنه رود
صحنه پيوسته به جاست خرم آن نغمه که مردم بسپارند به ياد
[External Link Removed for Guests] | [External Link Removed for Guests] | مجله الکترونيکي سنترال کلابز
[External Link Removed for Guests] | [External Link Removed for Guests] | [External Link Removed for Guests]
صحنه پيوسته به جاست خرم آن نغمه که مردم بسپارند به ياد
[External Link Removed for Guests] | [External Link Removed for Guests] | مجله الکترونيکي سنترال کلابز
[External Link Removed for Guests] | [External Link Removed for Guests] | [External Link Removed for Guests]
لطفا سوالات فني را فقط در خود انجمن مطرح بفرماييد، به اين سوالات در PM پاسخ داده نخواهد شد

- پست: 15899
- تاریخ عضویت: جمعه ۷ بهمن ۱۳۸۴, ۷:۵۱ ب.ظ
- سپاسهای ارسالی: 72687 بار
- سپاسهای دریافتی: 31681 بار
- تماس:
چطور موتورهاي جستجو کار ميکنند؟
هادي زجاجي:
وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه ميشود، کاربران در واقع نتيجه کار بخشهاي متفاوت موتور جستجوگر را ميبينند.
موتور جستجوگر قبلا پايگاه دادهاش را آماده کرده است و اين گونه نيست که درست در همان لحظهي جستجو، تمام وب را بگردد.
بسياري از خود ميپرسند که چگونه ممکن است گوگل در کمتر از يک ثانيه تمام سايتهاي وب را بگردد و ميليونها صفحه را در نتايج جستجوي خود ارايه کند؟
گوگل و هيچ موتور جستجوي ديگري توانايي انجام اين کار را ندارند. همه آنها در زمان پاسخگويي به جستجوهاي کاربران، تنها در پايگاه دادهاي که در اختيار دارند به جستجو ميپردازند و نه در وب! موتور جستجوگر به کمک بخشهاي متفاوت خود، اطلاعات مورد نياز را قبلا جمعآوري، تجزيه و تحليل ميکند، آنرا در پايگاه دادهاش ذخيره مينمايد و به هنگام جستجوي کاربر تنها در همين پايگاه داده ميگردد. بخشهاي مجزاي يک موتور جستجوگر عبارتند از:
Spider يا عنکبوت
Crawler يا خزنده
Indexer يا بايگاني کننده
Database يا پايگاه داده
Ranker يا سيستم رتبهبندي
الف: Spider (عنکبوت)
اسپايدر يا روبوت (Robot) نرم افزاري است که کار جمعآوري اطلاعات مورد نياز يک موتور جستجو را بر عهده دارد. اسپايدر به صفحات مختلف سر ميزند، محتواي آنها را ميخواند، لينکها را دنبال ميکند، اطلاعات مورد نياز را جمعآوري ميکند و آنرا در اختيار ساير بخشهاي موتور جستجوگر قرار ميدهد. کار يک اسپايدر، بسيار شبيه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازديد ميکنند، اسپايدر هم درست اين کار را انجام ميدهد با اين تفاوت که اسپايدر کدهاي HTML صفحات را ميبيند اما کاربران نتيجه حاصل از کنار هم قرار گرفتن اين کدها را.
اسپايدر، به هنگام مشاهده صفحات، بر روي سرورها رد پا برجاي ميگذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يک سايت و اتفاقات انجام شده در آن را داشته باشيد، ميتوانيد مشخص کنيد که اسپايدر کدام يک از موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده است. يکي از فعاليتهاي اصلي که در SEM انجام ميشود تحليل آمار همين ديد و بازديدها است.
اسپايدرها کاربردهاي ديگري نيز دارند، به عنوان مثال عدهاي از آنها به سايتهاي مختلف مراجعه ميکنند و فقط به بررسي فعال بودن لينکهاي آنها ميپردازند و يا به دنبال آدرس ايميل (E-mail) ميگردند.
ب: Crawler (خزنده)
کراولر، نرمافزاري است که به عنوان يک فرمانده براي اسپايدر عمل ميکند. کراولر مشخص ميکند که اسپايدر کدام صفحات را مورد بازديد قرار دهد. در واقع کراولر تصميم ميگيرد که کدام يک از لينکهاي صفحهاي که اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضيها را دنبال کند و يا هيچ کدام را دنبال نکند.
کراولر، ممکن است قبلا برنامهريزي شده باشد که آدرسهاي خاصي را طبق برنامه در اختيار اسپايدر قرار دهد تا از آنها ديدن کند. دنبال کردن لينکهاي يک صفحه به اين بستگي دارد که موتور جستجو چه حجمي از اطلاعات يک سايت را ميتواند (يا ميخواهد) در پايگاه دادهاش ذخيره کند. همچنين ممکن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.
شما به عنوان دارنده سايت، همان طور که دوست داريد موتورهاي جستجو اطلاعات سايت شما را با خود ببرند، ميتوانيد آنها را از بعضي صفحات سايتتان دور کنيد و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيد. موتور جستجو اگر مودب باشد قبل از ورود به هر سايتي ابتدا قوانين دسترسي به محتواي سايت را (در صورت وجود) در فايلي خاص بررسي ميکند و از حقوق دسترسي خود اطلاع مييابد. تنظيم ميزان دسترسي موتورهاي جستجو به محتواي يک سايت توسط پروتکل Robots انجام ميشود. به عمل کراولر، خزش (Crawling) ميگويند.
منبع:pooyaonline.net
هادي زجاجي:
وقتي جستجويي در يک موتور جستجوگر انجام و نتايج جستجو ارايه ميشود، کاربران در واقع نتيجه کار بخشهاي متفاوت موتور جستجوگر را ميبينند.
موتور جستجوگر قبلا پايگاه دادهاش را آماده کرده است و اين گونه نيست که درست در همان لحظهي جستجو، تمام وب را بگردد.
بسياري از خود ميپرسند که چگونه ممکن است گوگل در کمتر از يک ثانيه تمام سايتهاي وب را بگردد و ميليونها صفحه را در نتايج جستجوي خود ارايه کند؟
گوگل و هيچ موتور جستجوي ديگري توانايي انجام اين کار را ندارند. همه آنها در زمان پاسخگويي به جستجوهاي کاربران، تنها در پايگاه دادهاي که در اختيار دارند به جستجو ميپردازند و نه در وب! موتور جستجوگر به کمک بخشهاي متفاوت خود، اطلاعات مورد نياز را قبلا جمعآوري، تجزيه و تحليل ميکند، آنرا در پايگاه دادهاش ذخيره مينمايد و به هنگام جستجوي کاربر تنها در همين پايگاه داده ميگردد. بخشهاي مجزاي يک موتور جستجوگر عبارتند از:
Spider يا عنکبوت
Crawler يا خزنده
Indexer يا بايگاني کننده
Database يا پايگاه داده
Ranker يا سيستم رتبهبندي
الف: Spider (عنکبوت)
اسپايدر يا روبوت (Robot) نرم افزاري است که کار جمعآوري اطلاعات مورد نياز يک موتور جستجو را بر عهده دارد. اسپايدر به صفحات مختلف سر ميزند، محتواي آنها را ميخواند، لينکها را دنبال ميکند، اطلاعات مورد نياز را جمعآوري ميکند و آنرا در اختيار ساير بخشهاي موتور جستجوگر قرار ميدهد. کار يک اسپايدر، بسيار شبيه کار کاربران وب است. همانطور که کاربران، صفحات مختلف را بازديد ميکنند، اسپايدر هم درست اين کار را انجام ميدهد با اين تفاوت که اسپايدر کدهاي HTML صفحات را ميبيند اما کاربران نتيجه حاصل از کنار هم قرار گرفتن اين کدها را.
اسپايدر، به هنگام مشاهده صفحات، بر روي سرورها رد پا برجاي ميگذارد. شما اگر اجازه دسترسي به آمار ديد و بازديدهاي صورت گرفته از يک سايت و اتفاقات انجام شده در آن را داشته باشيد، ميتوانيد مشخص کنيد که اسپايدر کدام يک از موتورهاي جستجوگر صفحات سايت را مورد بازديد قرار داده است. يکي از فعاليتهاي اصلي که در SEM انجام ميشود تحليل آمار همين ديد و بازديدها است.
اسپايدرها کاربردهاي ديگري نيز دارند، به عنوان مثال عدهاي از آنها به سايتهاي مختلف مراجعه ميکنند و فقط به بررسي فعال بودن لينکهاي آنها ميپردازند و يا به دنبال آدرس ايميل (E-mail) ميگردند.
ب: Crawler (خزنده)
کراولر، نرمافزاري است که به عنوان يک فرمانده براي اسپايدر عمل ميکند. کراولر مشخص ميکند که اسپايدر کدام صفحات را مورد بازديد قرار دهد. در واقع کراولر تصميم ميگيرد که کدام يک از لينکهاي صفحهاي که اسپايدر در حال حاضر در آن قرار دارد، دنبال شود. ممکن است همه آنها را دنبال کند، بعضيها را دنبال کند و يا هيچ کدام را دنبال نکند.
کراولر، ممکن است قبلا برنامهريزي شده باشد که آدرسهاي خاصي را طبق برنامه در اختيار اسپايدر قرار دهد تا از آنها ديدن کند. دنبال کردن لينکهاي يک صفحه به اين بستگي دارد که موتور جستجو چه حجمي از اطلاعات يک سايت را ميتواند (يا ميخواهد) در پايگاه دادهاش ذخيره کند. همچنين ممکن است اجازه دسترسي به بعضي از صفحات به موتورهاي جستجوگر داده نشده باشد.
شما به عنوان دارنده سايت، همان طور که دوست داريد موتورهاي جستجو اطلاعات سايت شما را با خود ببرند، ميتوانيد آنها را از بعضي صفحات سايتتان دور کنيد و اجازه دسترسي به محتواي آن صفحات را به آنها ندهيد. موتور جستجو اگر مودب باشد قبل از ورود به هر سايتي ابتدا قوانين دسترسي به محتواي سايت را (در صورت وجود) در فايلي خاص بررسي ميکند و از حقوق دسترسي خود اطلاع مييابد. تنظيم ميزان دسترسي موتورهاي جستجو به محتواي يک سايت توسط پروتکل Robots انجام ميشود. به عمل کراولر، خزش (Crawling) ميگويند.
منبع:pooyaonline.net
زندگي صحنه يکتاي هنرمندي ماست هرکسي نغمه خود خواند و از صحنه رود
صحنه پيوسته به جاست خرم آن نغمه که مردم بسپارند به ياد
[External Link Removed for Guests] | [External Link Removed for Guests] | مجله الکترونيکي سنترال کلابز
[External Link Removed for Guests] | [External Link Removed for Guests] | [External Link Removed for Guests]
صحنه پيوسته به جاست خرم آن نغمه که مردم بسپارند به ياد
[External Link Removed for Guests] | [External Link Removed for Guests] | مجله الکترونيکي سنترال کلابز
[External Link Removed for Guests] | [External Link Removed for Guests] | [External Link Removed for Guests]
لطفا سوالات فني را فقط در خود انجمن مطرح بفرماييد، به اين سوالات در PM پاسخ داده نخواهد شد

- پست: 15899
- تاریخ عضویت: جمعه ۷ بهمن ۱۳۸۴, ۷:۵۱ ب.ظ
- سپاسهای ارسالی: 72687 بار
- سپاسهای دریافتی: 31681 بار
- تماس:
عنوان مقاله : موتورهای جستجو چگونه کار ميکنند؟
موتورهاي جستجو به دو دسته کلي تقسيم ميشوند. موتورهاي جستجوي پيمايشي و فهرستهاي تکميل دستي. هر کدام از آنها براي تکميل فهرست خود از روشهاي متفاوتي استفاده ميکنند که هر يک را بطور جداگانه مورد بررسي قرار ميدهيم:
موتورهاي جستجوي پيمايشي يا Crawler-Based Search Engines
موتورهاي جستجوي پيمايشي مانند Google ليست خود را بصورت خودکار تشکيل ميدهند. آنها وب را پيمايش کرده و سپس کاربران آنچه را که ميخواهند از ميانشان جستجو ميکنند. اگر شما در صفحه وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مييابند و سپس اين تغييرات ليست خواهند شد. عنوان، متن و ديگر عناصر صفحه، همگي شامل اين ليست خواهند بود.
فهرستهاي تکميل دستي يا Human-Powered Directories
يک فهرست تکميل دستي مانند يک Open Directory مثل Dmoz وابسته به کاربراني است که آنرا تکميل ميکنند. شما صفحه مورد نظر را به همراه توضيحي مختصر در فهرست ثبت ميکنيد يا اين کار توسط ويراستارهايي که براي آن فهرست در نظر گرفته شده انجام ميشود.
عمل جستجو در اين حالت تنها بر روي توضيحات ثبت شده صورت ميگيرد و در صورت تغيير روي صفحه وب، روي فهرست تغييري بوجود نخواهد آورد. چيزهايي که براي بهبود يک فهرستبندي در يک موتور جستجو مفيد هستند، تاثيري بر بهبود فهرستبندي يک دايرکتوري ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه دادهاي با محتواي خوب شانس بيشتري به نسبت يک سايت با پايگاه داده ضعيف دارد.
موتورهاي جستجوي ترکيبي با نتايج مختلط
به موتورهايي اطلاق ميشود که هر دو حالت را در کنار هم نمايش ميدهند. غالبا، يک موتور جستوي ترکيبي در صورت نمايش نتيجه جستجو از هر يک از دستههاي فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار ميدهد. مثلا موتور جستجوي MSN بيشتر نتايج حاصل از فهرستهاي تکميل دستي را نشان ميدهد اما در کنار آن نيم نگاهي هم به نتايج حاصل از جستجوي پيمايشي دارد.
بررسي يک موتور جستجوي پيمايشي
موتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در اصطلاح عنکبوت (Spider) است که پيمايشگر (Crawler) هم ناميده ميشود. پيمايشگر همينکه به يک صفحه ميرسد، آنرا ميخواند و سپس لينکهاي آن به صفحات ديگر را دنبال مينمايد. اين چيزيست که براي يک سايت پيمايششده (Crawled) اتفاق افتاده است. پيمايشگر با يک روال منظم، مثلا يک يا دو بار در ماه به سايت مراجعه ميکند تا تغييرات موجود در آنرا بيابد. هر چيزي که پيمايشگر بيابد به عنصر دوم يک موتور جستجو يعني فهرست انتقال پيدا مي کند. فهرست اغلب به کاتالوگي بزرگ اطلاق ميشود که شامل ليستي از آنچه است که پيمايشگر يافته است. مانند کتاب عظيمي که فهرستي را از آنچه که پيمايشگرها از صفحات وب يافتهاند، شامل شده است. هرگاه سايتي دچار تغيير شود، اين فهرست نيز به روز خواهد شد.
از زماني که تغييري در صفحهاي از سايت ايجاد شده تا هنگاميکه آن تغيير در فهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است که يک سايت پيمايششده باشد اما فهرستشده نباشد. تا زمانيکه اين فهرستبندي براي آن تغيير ثبت نشده باشد، نميتوان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرمافزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامهاي اطلاق ميشود که بصورت هوشمندانهاي دادههاي موجود در فهرست را دستهبندي کرده و آنها را بر اساس اهميت طبقهبندي ميکند تا نتيجه جستجو با کلمههاي درخواست شده هر چه بيشتر منطبق و مربوط باشد.
چگونه موتورهاي جستجو صفحات وب را رتبهبندي ميکنند؟
وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مينماييد، تقريبا بلافاصله اين جستجو از ميان ميليونها صفحه صورت گرفته و مرتب ميشود بطوريکه مربوطترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را احراز نمايد.
البته بايد در نظر داشته باشيد که موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد و مسلما صفحات نامربوطي را هم در نتيجه جستجو دريافت ميکنيد و گاهي اوقات مجبور هستيد که جستجوي دقيقتري را براي آنچه که ميخواهيد انجام دهيد اما موتورهاي جستجو کار حيرتانگيز ديگري نيز انجام ميدهند.
فرض کنيد که شما به يک کتابدار مراجعه مي کنيد و از وي درباره «سفر» کتابي مي خواهيد. او براي اينکه جواب درستي به شما بدهد و کتاب مفيدي را به شما ارائه نمايد با پرسيدن سوؤالاتي از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيهسازي ميکنند.
پس موتورهاي جستجوي پيمايشي چگونه به جواب مورد نظرتان از ميان ميليونها صفحه وب ميرسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده ميشود. الگوريتمهاي مورد نظر براي هر موتور جستجويي خاص و تقريبا سري هستند اما به هر حال از قوانين زير پيروي ميکنند:
مکان و تکرار
يکي از قوانين اصلي در الگوريتمهاي رتبهبندي موقعيت و تعداد تکرار کلماتي است که در صفحه مورد استفاده قرار گرفتهاند که بطور خلاصه روش مکان - تکرار (Location/Frequency Methode) ناميده ميشود.
کتابدار مذکور را به خاطر ميآورِد؟ لازم است که او کتابهاي در رابطه با کلمه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس ميکند که شما به دنبال کتابهايي هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهاي جستجو هم دقيقا همان کار را انجام ميدهند. آنها هم صفحاتي را برايتان ليست ميکنند که در برچسب Title موجود در کد HTML حاوی کلمه «سفر» باشند.
موتورهاي جستجو همچنين به دنبال کلمه مورد نظر در بالاي صفحات و يا در ابتداي پاراگرافها هستند. آنها فرض ميکنند که صفحاتي که حاوي آن کلمه در بالاي خود و يا در ابتداي پاراگرافها و عناوين باشند به نتيجه مورد نظر شما مربوط تر هستند. تکرار يا Frequesncy عامل بزرگ و مهم ديگري است که موتورهاي جستجو از طريق آن صفحات مربوط را شناسايي مينمايند. موتورهاي جستجو صفحات را تجزيه کرده و با توجه به تکرار کلمهاي در صفحه متوجه ميشوند که آن کلمه نسبت به ديگر کلمات اهميت بيشتري در آن صفحه دارد و آن صفحه را در درجه بالاتري نسبت به صفحات ديگر قرار ميدهند.
دستور آشپزي
خب آشپزي چه ربطي به موتورهاي جستجو دارد؟ رابطه در اينجاست. همانطور که آشپزهاي حرفهاي دستورات آشپزي خود را در لفافه نگه ميدارند و مقدار و چگونگي ادويههاي افزودني به غذاهاي خود را افشا نميکنند، چگونگي کارکرد دقيق موتورهاي جستجو درباره روشهايي از قبيل مکان-تکرار فاش نميشود و هر موتور جستجويي روش خود را دنبال ميکند. به همين دليل است که وقتي شما کلمات واحدي را در موتورهاي متفاوت جستجو ميکنيد، به نتايج متفاوتي ميرسيد.
برخي موتورهاي جستجو نسبت به برخي ديگر صفحات بيشتري را فهرست کردهاند. نتيجه اين خواهد شد که هيچ موتور جستجويي نتيجه جستجوي مشترکي با موتور ديگر نخواهد داشت و شما نتايج متفاوتي را از آنها دريافت ميکنيد. موتورهاي جستجو همچنين ممکن است که برخي از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با Spam شدن سعی در گول زدن موتورهای جستجوگر داشته باشند. Spamming روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهاي جستجو در پيش ميگيرند و آن به اين صورت است که با تکرار بيش از حد کلمات بطور عمدي سعي در بر هم زدن تعادل و در نتيجه فريب موتورهاي جستجو دارند. آنها سعي دارند که با افزايش عامل تکرار، در رتبه بالاتري قرار بگيرند. موتورهاي جستجو راههاي متنوعی برای جلوگيری از Spamming دارند و در اين راه از گزارشهاي کاربران خود نيز بهره ميبرند.
عوامل خارج از صفحه
موتورهاي جستجوي پيمايشي اکنون تجربه فراواني در رابطه با وب مسترهايي دارند که صفحات خود را براي کسب رتبه بهتر مرتبا بازنويسي ميکنند. بعضي از وب مسترهاي خبره حتي ممکن است به سمت روشهايي مانند مهندسي معکوس براي کشف چگونگي روشهاي مکان-تکرار بروند. به همين دليل، تمامي موتورهاي جستجوي معروف از روشهاي امتيازبندي «خارج از صفحه» استفاده ميکنند. عوامل خارج از صفحه عواملي هستند که از تيررس وبمسترها خارجند و آنها نميتوانند در آن دخالت کنند و مساله مهم در آن تحليل ارتباطات و لينکهاست. بوسيله تجزيه صفحات، موتورهاي جستجو لينکها را بررسي کرده و از محبوبيت آنها ميفهمند که آن صفحات مهم بوده و شايسته ترفيع رتبه هستند. بعلاوه تکنيکهاي پيشرفته به گونهاي است که از ايجاد لينکهاي مصتوعي توسط وبمسترها براي فريب موتورهاي جستجو جلوگيري مينمايد. علاوه بر آن موتورهاي جستجو بررسي ميکنند که کدام صفحه توسط يک کاربر که کلمهاي را جستجو کرده انتخاب ميشود و سپس با توجه به تعداد انتخابها، رتبه صفحه مورد نظر را تعيين کرده و مقام آنرا در نتيجه جستجو جابجا مينمايند.
منبع:www.itbuzzer.net
موتورهاي جستجو به دو دسته کلي تقسيم ميشوند. موتورهاي جستجوي پيمايشي و فهرستهاي تکميل دستي. هر کدام از آنها براي تکميل فهرست خود از روشهاي متفاوتي استفاده ميکنند که هر يک را بطور جداگانه مورد بررسي قرار ميدهيم:
موتورهاي جستجوي پيمايشي يا Crawler-Based Search Engines
موتورهاي جستجوي پيمايشي مانند Google ليست خود را بصورت خودکار تشکيل ميدهند. آنها وب را پيمايش کرده و سپس کاربران آنچه را که ميخواهند از ميانشان جستجو ميکنند. اگر شما در صفحه وب خود تغييراتي را اعمال نماييد، موتورهاي جستجوي پيمايشي آنها را به خودي خود مييابند و سپس اين تغييرات ليست خواهند شد. عنوان، متن و ديگر عناصر صفحه، همگي شامل اين ليست خواهند بود.
فهرستهاي تکميل دستي يا Human-Powered Directories
يک فهرست تکميل دستي مانند يک Open Directory مثل Dmoz وابسته به کاربراني است که آنرا تکميل ميکنند. شما صفحه مورد نظر را به همراه توضيحي مختصر در فهرست ثبت ميکنيد يا اين کار توسط ويراستارهايي که براي آن فهرست در نظر گرفته شده انجام ميشود.
عمل جستجو در اين حالت تنها بر روي توضيحات ثبت شده صورت ميگيرد و در صورت تغيير روي صفحه وب، روي فهرست تغييري بوجود نخواهد آورد. چيزهايي که براي بهبود يک فهرستبندي در يک موتور جستجو مفيد هستند، تاثيري بر بهبود فهرستبندي يک دايرکتوري ندارند. تنها استثناء اين است که يک سايت خوب با پايگاه دادهاي با محتواي خوب شانس بيشتري به نسبت يک سايت با پايگاه داده ضعيف دارد.
موتورهاي جستجوي ترکيبي با نتايج مختلط
به موتورهايي اطلاق ميشود که هر دو حالت را در کنار هم نمايش ميدهند. غالبا، يک موتور جستوي ترکيبي در صورت نمايش نتيجه جستجو از هر يک از دستههاي فوق، نتايج حاصل از دسته ديگر را هم مورد توجه قرار ميدهد. مثلا موتور جستجوي MSN بيشتر نتايج حاصل از فهرستهاي تکميل دستي را نشان ميدهد اما در کنار آن نيم نگاهي هم به نتايج حاصل از جستجوي پيمايشي دارد.
بررسي يک موتور جستجوي پيمايشي
موتورهاي جستجوي پيمايشي شامل سه عنصر اصلي هستند. اولي در اصطلاح عنکبوت (Spider) است که پيمايشگر (Crawler) هم ناميده ميشود. پيمايشگر همينکه به يک صفحه ميرسد، آنرا ميخواند و سپس لينکهاي آن به صفحات ديگر را دنبال مينمايد. اين چيزيست که براي يک سايت پيمايششده (Crawled) اتفاق افتاده است. پيمايشگر با يک روال منظم، مثلا يک يا دو بار در ماه به سايت مراجعه ميکند تا تغييرات موجود در آنرا بيابد. هر چيزي که پيمايشگر بيابد به عنصر دوم يک موتور جستجو يعني فهرست انتقال پيدا مي کند. فهرست اغلب به کاتالوگي بزرگ اطلاق ميشود که شامل ليستي از آنچه است که پيمايشگر يافته است. مانند کتاب عظيمي که فهرستي را از آنچه که پيمايشگرها از صفحات وب يافتهاند، شامل شده است. هرگاه سايتي دچار تغيير شود، اين فهرست نيز به روز خواهد شد.
از زماني که تغييري در صفحهاي از سايت ايجاد شده تا هنگاميکه آن تغيير در فهرست موتور جستجو ثبت شود مدت زماني طول خواهد کشيد. پس ممکن است که يک سايت پيمايششده باشد اما فهرستشده نباشد. تا زمانيکه اين فهرستبندي براي آن تغيير ثبت نشده باشد، نميتوان انتظار داشت که در نتايج جستجو آن تغيير را ببينيم. نرمافزار موتور جستجو، سومين عنصر يک موتور جستجو است و به برنامهاي اطلاق ميشود که بصورت هوشمندانهاي دادههاي موجود در فهرست را دستهبندي کرده و آنها را بر اساس اهميت طبقهبندي ميکند تا نتيجه جستجو با کلمههاي درخواست شده هر چه بيشتر منطبق و مربوط باشد.
چگونه موتورهاي جستجو صفحات وب را رتبهبندي ميکنند؟
وقتي شما از موتورهاي جستجوي پيمايشي چيزي را براي جستجو درخواست مينماييد، تقريبا بلافاصله اين جستجو از ميان ميليونها صفحه صورت گرفته و مرتب ميشود بطوريکه مربوطترين آنها نسبت به موضوع مورد درخواست شما رتبه بالاتري را احراز نمايد.
البته بايد در نظر داشته باشيد که موتورهاي جستجو همواره نتايج درستي را به شما ارائه نخواهند داد و مسلما صفحات نامربوطي را هم در نتيجه جستجو دريافت ميکنيد و گاهي اوقات مجبور هستيد که جستجوي دقيقتري را براي آنچه که ميخواهيد انجام دهيد اما موتورهاي جستجو کار حيرتانگيز ديگري نيز انجام ميدهند.
فرض کنيد که شما به يک کتابدار مراجعه مي کنيد و از وي درباره «سفر» کتابي مي خواهيد. او براي اينکه جواب درستي به شما بدهد و کتاب مفيدي را به شما ارائه نمايد با پرسيدن سوؤالاتي از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحويل خواهد داد. موتورهاي جستجو همچنين توانايي ندارند اما به نوعي آنها را شبيهسازي ميکنند.
پس موتورهاي جستجوي پيمايشي چگونه به جواب مورد نظرتان از ميان ميليونها صفحه وب ميرسند؟ آنها يک مجموعه از قوانين را دارند که الگوريتم ناميده ميشود. الگوريتمهاي مورد نظر براي هر موتور جستجويي خاص و تقريبا سري هستند اما به هر حال از قوانين زير پيروي ميکنند:
مکان و تکرار
يکي از قوانين اصلي در الگوريتمهاي رتبهبندي موقعيت و تعداد تکرار کلماتي است که در صفحه مورد استفاده قرار گرفتهاند که بطور خلاصه روش مکان - تکرار (Location/Frequency Methode) ناميده ميشود.
کتابدار مذکور را به خاطر ميآورِد؟ لازم است که او کتابهاي در رابطه با کلمه «سفر» را طبق درخواست شما بيابد. او در وحله اول احساس ميکند که شما به دنبال کتابهايي هستيد که در نامشان کلمه «سفر» را شامل شوند. موتورهاي جستجو هم دقيقا همان کار را انجام ميدهند. آنها هم صفحاتي را برايتان ليست ميکنند که در برچسب Title موجود در کد HTML حاوی کلمه «سفر» باشند.
موتورهاي جستجو همچنين به دنبال کلمه مورد نظر در بالاي صفحات و يا در ابتداي پاراگرافها هستند. آنها فرض ميکنند که صفحاتي که حاوي آن کلمه در بالاي خود و يا در ابتداي پاراگرافها و عناوين باشند به نتيجه مورد نظر شما مربوط تر هستند. تکرار يا Frequesncy عامل بزرگ و مهم ديگري است که موتورهاي جستجو از طريق آن صفحات مربوط را شناسايي مينمايند. موتورهاي جستجو صفحات را تجزيه کرده و با توجه به تکرار کلمهاي در صفحه متوجه ميشوند که آن کلمه نسبت به ديگر کلمات اهميت بيشتري در آن صفحه دارد و آن صفحه را در درجه بالاتري نسبت به صفحات ديگر قرار ميدهند.
دستور آشپزي
خب آشپزي چه ربطي به موتورهاي جستجو دارد؟ رابطه در اينجاست. همانطور که آشپزهاي حرفهاي دستورات آشپزي خود را در لفافه نگه ميدارند و مقدار و چگونگي ادويههاي افزودني به غذاهاي خود را افشا نميکنند، چگونگي کارکرد دقيق موتورهاي جستجو درباره روشهايي از قبيل مکان-تکرار فاش نميشود و هر موتور جستجويي روش خود را دنبال ميکند. به همين دليل است که وقتي شما کلمات واحدي را در موتورهاي متفاوت جستجو ميکنيد، به نتايج متفاوتي ميرسيد.
برخي موتورهاي جستجو نسبت به برخي ديگر صفحات بيشتري را فهرست کردهاند. نتيجه اين خواهد شد که هيچ موتور جستجويي نتيجه جستجوي مشترکي با موتور ديگر نخواهد داشت و شما نتايج متفاوتي را از آنها دريافت ميکنيد. موتورهاي جستجو همچنين ممکن است که برخي از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با Spam شدن سعی در گول زدن موتورهای جستجوگر داشته باشند. Spamming روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهاي جستجو در پيش ميگيرند و آن به اين صورت است که با تکرار بيش از حد کلمات بطور عمدي سعي در بر هم زدن تعادل و در نتيجه فريب موتورهاي جستجو دارند. آنها سعي دارند که با افزايش عامل تکرار، در رتبه بالاتري قرار بگيرند. موتورهاي جستجو راههاي متنوعی برای جلوگيری از Spamming دارند و در اين راه از گزارشهاي کاربران خود نيز بهره ميبرند.
عوامل خارج از صفحه
موتورهاي جستجوي پيمايشي اکنون تجربه فراواني در رابطه با وب مسترهايي دارند که صفحات خود را براي کسب رتبه بهتر مرتبا بازنويسي ميکنند. بعضي از وب مسترهاي خبره حتي ممکن است به سمت روشهايي مانند مهندسي معکوس براي کشف چگونگي روشهاي مکان-تکرار بروند. به همين دليل، تمامي موتورهاي جستجوي معروف از روشهاي امتيازبندي «خارج از صفحه» استفاده ميکنند. عوامل خارج از صفحه عواملي هستند که از تيررس وبمسترها خارجند و آنها نميتوانند در آن دخالت کنند و مساله مهم در آن تحليل ارتباطات و لينکهاست. بوسيله تجزيه صفحات، موتورهاي جستجو لينکها را بررسي کرده و از محبوبيت آنها ميفهمند که آن صفحات مهم بوده و شايسته ترفيع رتبه هستند. بعلاوه تکنيکهاي پيشرفته به گونهاي است که از ايجاد لينکهاي مصتوعي توسط وبمسترها براي فريب موتورهاي جستجو جلوگيري مينمايد. علاوه بر آن موتورهاي جستجو بررسي ميکنند که کدام صفحه توسط يک کاربر که کلمهاي را جستجو کرده انتخاب ميشود و سپس با توجه به تعداد انتخابها، رتبه صفحه مورد نظر را تعيين کرده و مقام آنرا در نتيجه جستجو جابجا مينمايند.
منبع:www.itbuzzer.net
زندگي صحنه يکتاي هنرمندي ماست هرکسي نغمه خود خواند و از صحنه رود
صحنه پيوسته به جاست خرم آن نغمه که مردم بسپارند به ياد
[External Link Removed for Guests] | [External Link Removed for Guests] | مجله الکترونيکي سنترال کلابز
[External Link Removed for Guests] | [External Link Removed for Guests] | [External Link Removed for Guests]
صحنه پيوسته به جاست خرم آن نغمه که مردم بسپارند به ياد
[External Link Removed for Guests] | [External Link Removed for Guests] | مجله الکترونيکي سنترال کلابز
[External Link Removed for Guests] | [External Link Removed for Guests] | [External Link Removed for Guests]
لطفا سوالات فني را فقط در خود انجمن مطرح بفرماييد، به اين سوالات در PM پاسخ داده نخواهد شد