فهرست مطالب
عنوان صفحه
فصل1: مقدمه…………………………………………………………………………………………………………….1
1-1. موضوع تحقیق…………………………………………………………………………………………..2
1-2. اهمیت و ضرورت تحقیق…………………………………………………………………………….3
1-3. قلمرو تحقیق……………………………………………………………………………………………..4
1-4. فرضیههای تحقیق………………………………………………………………………………………4
1-5. سوالات تحقیق………………………………………………………………………………………….5
1-6. اهداف و کاربردهای تحقیق…………………………………………………………………………5
1-7. نوآوری در تحقیق……………………………………………………………………………………..6
1-7-1. موضوع و دادههای استفاده شده در تحقیق……………………………………………..6
1-7-2. براساس مطالعه ادبیات و نحوه ارائه مطالب……………………………………………..6
1-8.. محدودیتهای تحقیق………………………………………………………………………………..6
1-9. ساختار پایاننامه…………………………………………………………………………………………7
فصل2: ادبیات تحقیق…………………………………………………………………………………………………..8
2-1. مقدمه………………………………………………………………………………………………………9
2-2. دادهکاوی…………………………………………………………………………………………………9
2-2-1. مفهوم دادهکاوی……………………………………………………………………………….9
2-2-2. مراحل دادهکاوی…………………………………………………………………………….10
2-2-3. پیشپردازش…………………………………………………………………………………..10
2-2-3-1. پاکسازی داده………………………………………………………………………11
2-2-3-2. یکپارچهسازی داده………………………………………………………………….11
2-2-3-3. تبدیل داده……………………………………………………………………………..11
2-2-3-4. کاهش داده……………………………………………………………………………12
2-2-3-5. تصویرکردن برای کاهش بعد……………………………………………………12
2-2-4. دادهکاوی………………………………………………………………………………………13
2-2-5. پسپردازش……………………………………………………………………………………14
2-2-6. کاربردهای دادهکاوی………………………………………………………………………14
2-3. دادهکاوی در پزشکی……………………………………………………………………………….14
2-4. بیماری تنفسی………………………………………………………………………………………….16
2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17
2-4-2. پنومونی…………………………………………………………………………………………17
2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18
2-5. الگوریتمهای ردهبندی………………………………………………………………………………18
2-5-1. درخت تصمیم………………………………………………………………………………..19
2-5-1-1. CHAID…………………………………………………………………………….20
2-5-1-2. ID3……………………………………………………………………………………20
2-5-1-3. C5.0…………………………………………………………………………………..21
2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21
2-5-3. شبکهی عصبی………………………………………………………………………………..24
2-5-4. Bagging…………………………………………………………………………………….25
2-5-5. AdaBoost…………………………………………………………………………………27
2-6. پیشینهی تحقیقات در بیماریهای تنفسی……………………………………………………….30
فصل3: دادههای نامتوازن……………………………………………………………………………………………32
3-1. مقدمه…………………………………………………………………………………………………….33
3-2. روشهای یادگیری در دادههای نامتوازن………………………………………………………33
3-2-1. نمونهبرداری……………………………………………………………………………………33
3-2-1-1. بیشنمونهبرداری تصادفی…………………………………………………………34
3-2-1-2. زیرنمونهبرداری تصادفی…………………………………………………………..34
3-2-1-3. نمونهبرداری آگاهانه……………………………………………………………….34
3-2-1-3-1. EasyEnsemble……………………………………………………….35
3-2-1-3-2. ModifiedBagging………………………………………………….36
3-2-1-4. ترکیب نمونهبرداری و تولید داده……………………………………………….37
3-2-2. روشهای حساس به هزینه…………………………………………………………………39
3-3. معیارهای ارزیابی ردهبند در دادههای نامتوازن……………………………………………….41
3-4. معیارهای ارزیابی ردهبند در دادههای نامتوازن و چند ردهای…………………………….44
3-4-1. میانگینگیری میکرو………………………………………………………………………..46
3-4-2. میانگینگیری ماکرو…………………………………………………………………………46
فصل4: پیشپردازش دادهها………………………………………………………………………………………..47
4-1. مقدمه…………………………………………………………………………………………………….48
4-2. جمعآوری دادهها…………………………………………………………………………………….48
4-3. ویژگیهای دادهها……………………………………………………………………………………48
4-4. نحوه توزیع دادهها براساس ویژگیها…………………………………………………………..51
4-4-1. نوع بیماری تنفسی……………………………………………………………………………51
4-4-2. سن……………………………………………………………………………………………….52
4-5. پیشپردازشهای انجام شده……………………………………………………………………….53
4-5-1. حذف ویژگیهای اضافی………………………………………………………………….53
4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53
4-5-3. یکپارچهسازی داده………………………………………………………………………….54
4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55
4-5-4-1. تفسیر آزمایشهای انجام شده روی بیماران………………………………….55
4-5-4-2. WBC (White Blood Cell)……………………………………………56
4-5-4-3. چه چیزهایی باعث کاهش WBC میشود؟………………………………..56
4-5-4-4. چه چیزهایی باعث افزایش WBC میشود؟………………………………..56
4-5-4-5. جدول گسستهسازی WBC……………………………………………………..57
4-5-4-6. RBC(Red Blood Cell)…………………………………………………57
4-5-4-7. چه چیزهایی باعث کاهش RBC میشود؟…………………………………57
4-5-4-8. چه چیزهایی باعث افزایش RBC میشود؟…………………………………58
4-5-4-9. جدول گسستهسازی RBC………………………………………………………58
4-5-4-10. Hb (Hemoglobin)………………………………………………………..58
4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین میشود؟………………………….59
4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین میشود؟…………………………59
4-5-4-13. جدول گسستهسازی هموگلوبین………………………………………………59
4-5-4-14. HCT (Hematocrit)……………………………………………………….59
4-5-4-15. چه چیزهایی باعث کاهش HCT میشود؟……………………………….60
4-5-4-16. چه چیزهایی باعث افزایش HCT میشود؟……………………………….60
4-5-4-17. جدول گسستهسازی HCT…………………………………………………….60
4-5-4-18. Plt یا پلاکتها……………………………………………………………………60
4-5-4-19. چه چیزهایی پلاکت را کاهش میدهد؟……………………………………61
4-5-4-20. چه چیزهایی پلاکت را افزایش میدهد؟……………………………………61
4-5-4-21. جدول گسستهسازی پلاکت……………………………………………………61
4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61
4-5-4-23. جدول گسستهسازی MCV، MCH و MCHC……………………..62
4-5-4-24. CRP (C-Reactive Protein)…………………………………………63
4-5-4-25. در چه شرایطی CRP افزایش پیدا میکند؟……………………………….63
4-5-4-26. در چه شرایطی CRP کاهش پیدا میکند؟……………………………….63
4-5-4-27. جدول گسستهسازی CRP…………………………………………………….63
4-5-4-28. ESR (Erythrocyte Sedimentation Rate)…………………64
4-5-4-29. جدول گسستهسازی ESR……………………………………………………..64
4-5-4-30. جدول گسستهسازی BS (Blood Suger)…………………………….64
4-5-5. ویژگی دادهها پس از پیشپردازش نهایی……………………………………………..64
4-6 نمونهبرداری…………………………………………………………………………………………….67
فصل5: نتایج و یافتههای تحقیق……………………………………………………………………………………69
5-1. مقدمه…………………………………………………………………………………………………….70
5-2. ردهبندی…………………………………………………………………………………………………70
5-2-1. مقایسهی الگوریتمهای پایه………………………………………………………………..70
5-2-2. مقایسهی روشهای یادگیری در دادههای نامتوازن…………………………………74
فصل6: نتیجهگیری و پیشنهادات…………………………………………………………………………………..79
6-1. مقدمه…………………………………………………………………………………………………….80
6-2. نتیجهگیری……………………………………………………………………………………………..80
6-3. پیشنهادها………………………………………………………………………………………………..82
6-3-1. مجموعهی داده……………………………………………………………………………….82
6-3-2. دادهکاوی………………………………………………………………………………………82
مراجع…………………………………………………………………………………………………………………….83
پیوست الف: واژهنامه انگلیسی به فارسی………………………………………………………………………. 92
فهرست جدولها
عنوان صفحه
جدول3-1: ماتریس اغتشاش برای مسائل دودویی…………………………………………………………..41
جدول3-2: ماتریس اغتشاش برای مسائل چند ردهای………………………………………………………44
جدول4-1: ویژگیهای موجود در مجموعه داده اولیه……………………………………………………..49
جدول4-2: اسامی ویژگیها پس از برخی از مراحل پیشپردازش………………………………………54
جدول4-3: ردهبندی فیلد سن به گروه سنی……………………………………………………………………55
جدول 4-4: ردهبندی فیلد آزمایش WBC…………………………………………………………………..57
جدول 4-5: ردهبندی فیلد آزمایش RBC…………………………………………………………………….58
جدول 4-6: ردهبندی فیلد آزمایش Hb………………………………………………………………………..59
جدول 4-7: ردهبندی فیلد آزمایش HCT…………………………………………………………………….60
جدول 4-8: ردهبندی فیلد آزمایش PLT……………………………………………………………………..61
جدول 4-9: ردهبندی فیلد آزمایش MCV…………………………………………………………………..62
جدول 4-10: ردهبندی فیلد آزمایش MCH…………………………………………………………………62
جدول 4-11: ردهبندی فیلد آزمایش MCHC……………………………………………………………..62
جدول 4-12: ردهبندی فیلد آزمایش CRP…………………………………………………………………..63
جدول 4-13: ردهبندی فیلد آزمایش ESR…………………………………………………………………..64
جدول 4-14: ردهبندی فیلد آزمایش BS……………………………………………………………………..64
جدول4-15: ویژگیهای مجموعه داده ثانویه پس از پیشپردازش نهایی……………………………..65
فهرست شکلها
عنوان صفحه
شکل2-1: نمونهای از یک درخت تصمیم……………………………………………………………………..19
شکل2-2: یک مجموعهی آموزش دوبعدی که دادههای آن به صورت خطی قابل جداسازی است………………………………………………………………………………………………………………………22
شکل2-3: دو خط جداساز با حاشیههای مختلف…………………………………………………………….23
شکل2-4: افزایش صحت مدل با استفاده از Bagging…………………………………………………..25
شکل2-5: شبهکد الگوریتم Bagging………………………………………………………………………..26
شکل2-6: شبهکد الگوریتم AdaBoost……………………………………………………………………..28
شکل3-1: شبهکد الگوریتم EasyEnsemble…………………………………………………………….36
شکل3-2: شبهکد الگوریتم ModifiedBagging………………………………………………………37
شکل3-3: (a) kتا از نزدیکترین همسایههای xi با فرض k=6
(b) تولید داده براساس فاصلهی اقلیدسی…………………………………………………………38
شکل3-4: ماتریس هزینهی چندردهای………………………………………………………………………….40
شکل4-1: توزیع دادهها براساس نوع بیماری تنفسی…………………………………………………………52
شکل4-2: توزیع دادهها براساس سن…………………………………………………………………………….52
شکل4-3: نمونهبرداری طبقهبندی شده…………………………………………………………………………68
شکل5-1: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آزمون)………………71
شکل5-2: مقایسهی کارایی الگوریتمها در تشخیص ردههای مختلف…………………………………72
شکل5-3: مقایسهی الگوریتمهای پایه (حاصل اعمال مدل روی مجموعهی آموزش)…………….73
شکل5-4: مقایسهی نتایج حاصل از روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون…………………………………………………………………………………………………………………….75
شکل5-5: مقایسهی حساسیت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها……………………………………………………………………………………………………….76
شکل5-6: مقایسهی دقت روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها…………………………………………………………………………………………………………76
شکل5-7: مقایسهی معیارF روشهای یادگیری در دادههای نامتوازن روی مجموعهی آزمون به تفکیک ردهها………………………………………………………………………………………………………….78
2-1. مقدمه
در این تحقیق، دادههای مربوط به بیماریهای تنفسی با استفاده از روشهای دادهکاوی مورد بررسی قرار گرفتهاند. به همین جهت در این بخش پس از مرور مختصری بر روشها و مراحل دادهکاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتمهای دادهکاوی مورد استفاده در این تحقیق و همچنین پیشینهی تحقیقات انجام شده در بیماریهای تنفسی پرداختهایم.
2-2. دادهکاوی
تکنولوژی مدیریت پایگاه دادههای پیشرفته انواع مختلفی از دادهها را میتواند در خود جای دهد، در نتیجه تکنیکهای آماری و ابزار مدیریت سنتی برای آنالیز این دادهها کافی نیست و استخراج دانش[1] از این مقدار حجیم یک چالش بزرگ تلقی میشود. دادهکاوی کوششی برای بهدست آوردن اطلاعات مفید از میان این دادههاست و رشد بیرویهی دادهها در سطح جهان اهمیت دادهکاوی را دو چندان کرده است.
پایگاه دادههای پزشکی، شامل انبوهی از اطلاعات بیماران و وضعیت پزشکی آنهاست. ارتباطات و الگوهای نهفته در این دادهها میتواند دانش جدیدی در حوزه علوم پزشکی تولید کند. بهطوریکه امروزه استخراج دانش مفید و فراهم کردن ابزارهای تصمیمگیری برای تشخیص و معالجهی بیماریها، به یک موضوع ضروری تبدیل شده است.
2-2-1. مفهوم دادهکاوی
در یک تعریف غیر رسمی دادهکاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی میکنند، که این دانش به صورت ضمنی در پایگاه دادههای عظیم، انبارداده[2]و دیگر مخازن بزرگ اطلاعات، ذخیره شده است. دادهکاوی بهطور همزمان از چندین رشته علمی بهره میبرد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکههای عصبی، آمار، شناسایی الگو، سیستمهای مبتنی بردانش[3]، حصول دانش[4]، بازیابی اطلاعات[5]، محاسبات سرعت بالا[6] و بازنمایی بصری داده[7] .
2-2-2. مراحل دادهکاوی
دادهکاوی اغلب بهعنوان بخشی از فرآیند «کشف دانش از پایگاهداده»، تلقی میشود. کشف دانش از پایگاه داده، فرآیندی است که دادههای خام را به دانش مفید تبدیل میکند که علاوه بر دادهکاوی، شامل دو مرحلهی پیشپردازش و پسپردازش نیز میباشد.
2-2-3. پیشپردازش
هدف پیشپردازش، تبدیل دادههای خام به قالبی است که برای تحلیلهای بعدی مناسب باشد. همچنین این مرحله به شناسایی ویژگیها و قطعات مختلف داده، کمک میکند. از آنجائیکه دادهها ممکن است با قالبهای مختلف و در پایگاه دادههای متفاوتی ذخیره شده باشند، اغلب زمان زیادی برای پیشپردازش داده لازم است[5].
پیشپردازش داده، یک محدودهی وسیع شامل استراتژیها و تکنیکهای مختلفی است که بهصورت بسیار پیچیدهای با یکدیگر در رابطهاند و این ارتباطات پیچیده، معرفی رهیافتها و ایدههای اصلی پیشپردازش را بهصورت منظم و ساختیافته بسیار مشکل میکند.
وظایف پیشپردازش عبارتند از: پاکسازی دادهها[8]، یکپارچهسازی دادهها[9]، تبدیل داده[10]، کاهش داده[11]، تصویر کردن و کاهش بعد[2].
2-2-3-1. پاکسازی داده
خطاهای عملیاتی اغلب باعث میشوند که دادههای بهدست آمده از منابع دنیای واقعی، پرغلط، ناقص و ناسازگار باشند. ابتدا لازم است، چنین دادههای بیکیفیتی، تمیز شوند. وظایف اصلی پاکسازی دادهها عبارتند از:
پرکردن ویژگیهایی با مقدار گمشده[12] : رویکردهای مختلفی در برخورد با مقادیر گمشده وجود دارد که عبارتند از: حذف رکورد، پرکردن بهصورت دستی، جایگزینی با یک مقدار ثابت سراسری، جایگزینی با مقدار میانگین، جایگزینی با مقادیری با احتمال بالاتر (با استفاده از رابطههای بیزی، درخت تصمیمگیری یا پسانمایی[13] ).
شناخت دادههای پرت[14] و هموار کردن دادههای نویزدار[15].
اصلاح دادههای ناسازگار.
رفع مشکل افزونگی که بر اثر یکپارچهسازی دادهها ایجاد شده است.
2-2-3-2. یکپارچهسازی داده
دادهکاوی اغلب به یکپارچهسازی داده (ادغام دادهها از چندین منبع داده) نیاز دارد. همچنین ممکن است لازم باشد که دادهها به شکل مناسب دادهکاوی تبدیل شوند. در این مرحله، دادههای چندین منبع را در یک مخزن منسجم ترکیب میکنیم.
2-2-3-3. تبدیل داده
در این مرحله، دادهها به شکل مناسب برای دادهکاوی تبدیل میشوند. این مرحله، شامل بخشهای زیر میباشد:
هموارسازی: این بخش از تبدیل داده، با حذف نویز سروکار دارد.
تجمیع: شامل عملیات تلخیص و تجمیع روی دادههاست. مثل تبدیل فروش روزانه به فروش هفتگی یا ماهانه.
تعمیم: جایگزینی دادهی سطح پائین با مفاهیم سطح بالاتر. مثل تبدیل متغیر پیوستهی سن به یک مفهوم سطح بالاتر مثل جوان، میانسال یا مسن.
ایجاد ویژگی[16] : گاهی برای کمک به فرآیند دادهکاوی لازم است که ویژگی جدیدی از روی ویژگیهای موجود ساخته شود.
نرمالسازی: نرمالسازی شامل تغییر مقیاس دادهها به گونهایست که آنها را به یک دامنهی کوچک و معین مثل ] 1،1-[ نگاشت کند. مهمترین روشهای نرمالسازی عبارتند از: Min-Max، Z-Score و نرمالسازی با استفاده از مقیاسبندی اعشاری[17].
2-2-3-4. کاهش داده
روشهای کاهش داده، میتواند برای بهدست آوردن یک بازنمایی کوچکتر و کاهشیافته از داده، که بسیار کمحجمتر از دادههای اصلی بوده و البته یکپارچگی دادههای اصلی را حفظ میکند، بهکار میرود. استراتژیهای کاهش داده، عبارتند از: تجمیع مکعبی داده[18]، انتخاب زیرمجموعهای از ویژگیها[19]، کاهش تعداد نقاط، گسستهسازی و تولید سلسله مراتب مفهومی.
1 Knowledge Discovery
[2] Data Warehouse
[3] Knowledge-based System