سپس در زمان فرایند پرس وجو به صورت آنلاین، موتور جستجو از رتبه مناسب TSPR برای رتبهبندی صفحات استفاده میکند. این روش زمانی بهتر از رتبهبندی صفحه عمل میکند که موضوع مورد علاقه کاربر را بدانیم یا امکان تشخیص موضوع مرتبط با پرس وجوی کاربر را داشته باش . به عبارت دیگر، اشکال اصلی این الگوریتم یافتن این علایق است. اما در روش PPR برای هر کاربر، بردار اولویت موضوع جداگانه ای جهت رتبهبندی استفاده میشود این روش ٪۲۵-۳۳٪بهتر از الگوریتمTSPR عمل میکند[۲].
۳-۴-۲-۲ -۴ الگوریتم LTIL
الگوریتم LTIL از تکنیک گسترش سند که به نوعی گسترش یافته مدل فضای برداری است استفاده میکند. تکنیک گسترش سند از اطلاعات کلیک از گذر داده کاربر استفاده میکند و محتوای اسناد و یا وزن آن ها را تغییر میدهد. گسترش سند یک روش جالب و پر کاربرد است که در آن اطلاعات کلیک از گذر داده کاربران در محتوای سند تاثیر می گذارد و به نوعی جزوی از سند میشود و وزن واژه های سند را افزایش میدهد، مثالی ازآن را می توان موتور جستجوی گوگل دانست که متن Anchor را جزئی از سند در نظر میگیرد زیرا آن را نمایی از صفحه، از دید یک صفحه دیگرمی داند. الگوریتم LTIL مبتنی بر یادگیری است و از رفتار گذشته کاربران به منظور بهبود نتایج جستجو استفاده میکند و به مرور زمان محتوای اسنادرا بهبود میبخشد[۲].
۳-۴-۲-۲ -۵ روش IA
IA یک الگوریتم تکرارشونده با بهره گرفتن از کلیک از گذر داده برای بهبود کارایی فرایند جستجواست و به منظورگسترش سند به کار می رود. در واقع استفاده از کلیک از گذر داده برای بالا بردن دقت هر چه بیشتر جستجواست. این اطلاعات به عنوان متا دیتا، مفید ودر بهبود کارایی جستجو موثر است و به وسیله آن می توان شکاف بین پارس وجاوی کاربر و محتوای صفحات وب مورد انتظار کاربر را پر کرد. ازچالش های مهم برای اهداف تحقیقاتی در استخراج لاگ کلیک از گذر داده کاربر، وجود نویز، پراکندگی و عدم تمامیت و وجود نوسانات صفحات وب و پرس وجواست اما در این متد، الگوریتم تقویت شده تکراری جدیدی با بهره گرفتن از کلیک از گذر داده کاربر ارائه میشود . هدف از ارائه این الگوریتم، استخراج روابط پنهان و مشابه در میان پرس وجوها و اسناد و یافتن پرس وجوهای مجازی به صورتی موثر برای صفحات وب است. بر اساس نتایج بدست آمده از تست این الگوریتم بر روی یک مجموعه عظیم از لاگهای جستجوی MSN می توان به نتایج ارزشمندی در بهبود کارایی جستجو دست یافت. همچنین این الگوریتم میتواند به خوبی بر چالشهای مطرح شده غلبه کند.
در این روش، کلیک از گذر داده را می توان به عنوان یک مجموعه نشست در نظر گرفت که هر کدام شامل یک جفت پرس وجو و سندی است که کاربر روی آن کلیک کرده است. در صورتی که پرس وجو و صفحه وب ارائه شده در نودهای شکل ۳-۲۰ را درون V قرار گیرد و لبه E نشانگرکلیک از گذر یک پرس وجو به صفحه کلیک شده از سوی کاربر باشد، در این صورت M بیاانگر وزن لبه هاست و Mij به معنای تعداد کلیک های صورت گرفته روی سند i به منظور پرس وجوی j است.
در مثال ارائه شده در شکل ۳-۲۰ به دلیل آنکه پرس وجوی q1 و q2 به سند d2 اشاره میکنند پس مشابه یکدیگرند، همچنین سند d1 و d2 مشابهند.
به دلیل آنکه پرس وجوی q1 به هر دوی آن ها اشاره میکند و به همین شکل صفحات d2 و d3 با هم مشابهند، پس می توان به این نتیجه رسید که چون q1 و q2 با هم مشابهند پس صفحات d1 و d3 هم با هم مشابهند. در واقع می توان به این حقیقت دست یافت که صفحات وب در صورتی مشابهند که به واسطه پرس وجوی مشابهی مشاهده شده باشند و برعکس به عبارت دیگر، هدف از ارائه متد IA ، پر کردن فاصله میان پرس وجو و اسناد بر اساس روش بازگشتی است تا به شکلی مشابه، متادیتای بدست آمده از طریق کلیک از گذر داده به اسناد اضافه شود و محتوای اسناد را بهبود بخشد[۲].
شکل۳-۲۰. گراف دو بخشی از ارتباط میان صفحات وب و پرس وجوها[۲]
-
- اجرای سیستم شخصیسازی
از نظر نحوه انجام کار نیز دو رویکرد وجود دارد .
۳-۴-۳-۱ روش قطعی
در این رویکرد با این مساله به صورت یک مساله Crisp بر خورد شدهاست.در این سیستم ها پس از ساختن پروفایل کاربر ، کاربران با توجه به پروفایلشان به صورت قطعی وهمیشگی عضو یک گروه می شوند وصفحات نیز پس از بررسی محتویاتشان به صورت قطعی گروه بندی می شوند و ارتباط بین مفاهیم و کاربران نیز به صورت قطعی بر قرار میشود.کلاس بندی کننده بر اساس کلیدهای محتوایی که از الگوریتم نزدیکترین همسایه استفاده می کند، عمل میکند. یک مجموعه از اسکریپتها که log file را پردازش می کند و کارایی آن را برای هر کاربر ارزیابی می کند، استفاده می شوند که آن را به مجموعه تست و آموزش تقسیم می کند.پروفایل کاربر به صورت یک سلسله مراتب وزن دار نمایش داده می شود[۶].
۳-۴-۳-۲ روش فازی
در این رویکرد با این مساله با دید فازی برخورد شدهاست.عدم قطعیت این مساله در پیدا کردن مفاهیم اسناد و هم در تشخیص نیاز کاربر از پرس وجوی او و هم در ارتباط بین سند و مفهوم مورد نیاز کاربر وجود دارد و همچنین ارتباط بین پرسوجو ها و مفاهیم نیز دارای سطحی از عدم قطعیت است. نمیتوان ادعا کرد که کاربری به صورت قطعی عضو یک گروه است، به گروه های دیگر هیچ علاقه ای ندارد.این خوشهبندی ماهیت غیر قطعی وفازی دارد و برخورد قطعی با آن نا مناسب است. سیستم هایی که از روش فازی برای دسته بندی کاربران و محتویات صفحات و مفاهیم استفاده کنند، این عدم قطعیت را در نظر گرفتهاند[۶].
۳-۴-۳-۳ شخصیسازی موتورهای جستجو با بهره گرفتن از شبکه های مفهومی فازی و ابزارهای داده کاوی
۳-۴-۳-۳ -۱ پیش زمینه
استفاده از شبکه های مفهومی فازی در سیستم های بازیابی اطلاعات برای اولین بار در سال ۱۳۹۱ توسط لوکارلا پیشنهاد شد.چن در سال ۱۹۹۵ یک شبکه مفهومی فازی را به صورت پایگاه دانشی برای بازیابی اسناد پیشنهاد کرد و در سال ۱۹۹۹ یک سیستم بازیابی اطلاعات بر اساس شبکه های مفهومی فازی گسترش یافته ارائه نمود . کیم در سال ۲۰۰۱ یک موتور جستجوی شخصیسازی شده را با بهره گرفتن از شبکه های مفهومی فازی و ساختار پیوند بین صفحات پیشنهاد نمود.
در این پروژه یک روش جدید برای شخصیسازی نتایج جستجو بااستفاده از شبکه های مفهومی فازی اتوماتیک سازگار ارائه شدهاست. بکارگیری ابزارهای داده کاوی برای خوشهبندی پروفایل های کاربران و ساخت اتوماتیک یک شبکه مفهومی فازی برای هر خوشه باعث افزایش سودمندی نتایج بهدست آمده خواهدشد[۱].
یک شبکه مفهومی, یک گراف است که,هر نود آن نمایان گر یک مفهوم یا یک سند است و هر یال آن درجه ارتباط بین دو مفهوم و یک سند را مشخص میکند . در شکل ۳-۲۱یک شبکه مفهومی فازی نشان داده شدهاست[۱].
شکل۳-۲۱. شبکه مفهومی فازی[۱]
در یک شبکه مفهومی فازی روابط زیر وجود دارد:
-
- فرمول (۳-۱۲)نشان میدهد که درجه ارتباط بین دو مفهوم و مقدار µ میباشد و ƒ تابع نگاشت میباشد.
Eq.(3-12) ∈[۰,۱] µ ,ƒ
-
- فرمول (۳-۱۳)نشان میدهد که درجه ارتباط بین سند ومفهوم مقدارµ میباشد و g تابع نگاشت میباشد.
Eq.(3-13) ∈[۰,۱]µ g ,
- فرمول (۳-۱۴) بیان گر رابطه هم ارزی است می توان نتیجه گرفت که بر پایه منطق فازی میباشد و