2-2-1. مفهوم داده­کاوی……………………………………………………………………………….9

 

2-2-2. مراحل داده­کاوی…………………………………………………………………………….10

 

2-2-3. پیش­پردازش…………………………………………………………………………………..10

 

2-2-3-1. پاک­سازی داده………………………………………………………………………11

 

2-2-3-2. یکپارچه­سازی داده………………………………………………………………….11

 

2-2-3-3. تبدیل داده……………………………………………………………………………..11

 

2-2-3-4. کاهش داده……………………………………………………………………………12

 

2-2-3-5. تصویرکردن برای کاهش بعد……………………………………………………12

 

2-2-4. داده­کاوی………………………………………………………………………………………13

 

2-2-5. پس­پردازش……………………………………………………………………………………14

 

2-2-6. کاربردهای داده­کاوی………………………………………………………………………14

 

2-3. داده­کاوی در پزشکی……………………………………………………………………………….14

 

2-4. بیماری تنفسی………………………………………………………………………………………….16

 

2-4-1. عفونت دستگاه تنفسی فوقانی…………………………………………………………….17

 

2-4-2. پنومونی…………………………………………………………………………………………17

 

2-4-3. بیماری مزمن انسدادی ریه…………………………………………………………………18

 

2-5. الگوریتم­های رده­بندی………………………………………………………………………………18

 

2-5-1. درخت تصمیم………………………………………………………………………………..19

 

2-5-1-1. CHAID…………………………………………………………………………….20

 

2-5-1-2. ID3……………………………………………………………………………………20

 

2-5-1-3. C5.0…………………………………………………………………………………..21

 

2-5-2. ماشین بردار پشتیبان………………………………………………………………………….21

 

2-5-3. شبکه­ی عصبی………………………………………………………………………………..24

 

2-5-4. Bagging…………………………………………………………………………………….25

 

2-5-5. AdaBoost…………………………………………………………………………………27

 

2-6. پیشینه­ی تحقیقات در بیماری­های تنفسی……………………………………………………….30

 

فصل3: داده­های نامتوازن……………………………………………………………………………………………32

 

3-1. مقدمه…………………………………………………………………………………………………….33

 

3-2. روش­های یادگیری در داده­های نامتوازن………………………………………………………33

 

3-2-1. نمونه­برداری……………………………………………………………………………………33

 

3-2-1-1. بیش­نمونه­برداری تصادفی…………………………………………………………34

 

3-2-1-2. زیرنمونه­برداری تصادفی…………………………………………………………..34

 

3-2-1-3. نمونه­برداری آگاهانه……………………………………………………………….34

 

3-2-1-3-1. EasyEnsemble……………………………………………………….35

 

3-2-1-3-2. ModifiedBagging………………………………………………….36

 

3-2-1-4. ترکیب نمونه­برداری و تولید داده……………………………………………….37

 

3-2-2. روش­های حساس به هزینه…………………………………………………………………39

 

3-3. معیارهای ارزیابی رده­بند در داده­های نامتوازن……………………………………………….41

 

3-4. معیارهای ارزیابی رده­بند در داده­های نامتوازن و چند رده­ای…………………………….44

 

3-4-1. میانگین­گیری میکرو………………………………………………………………………..46

 

3-4-2. میانگین­گیری ماکرو…………………………………………………………………………46

 

فصل4: پیش­پردازش داده­ها………………………………………………………………………………………..47

 

4-1. مقدمه…………………………………………………………………………………………………….48

 

4-2. جمع­آوری داده­ها…………………………………………………………………………………….48

 

4-3. ویژگی­های داده­ها……………………………………………………………………………………48

 

4-4. نحوه توزیع داده­ها براساس ویژگی­ها…………………………………………………………..51

 

4-4-1. نوع بیماری تنفسی……………………………………………………………………………51

 

4-4-2. سن……………………………………………………………………………………………….52

 

4-5. پیش­پردازش­های انجام شده……………………………………………………………………….53

 

4-5-1. حذف ویژگی­های اضافی………………………………………………………………….53

 

4-5-2. حذف یا اصلاح رکورد…………………………………………………………………….53

 

4-5-3. یکپارچه­سازی داده………………………………………………………………………….54

 

4-5-4. تبدیل مقادیر ویژگی………………………………………………………………………..55

پایان نامه

 

 

4-5-4-1. تفسیر آزمایش­های انجام شده روی بیماران………………………………….55

 

4-5-4-2. WBC (White Blood Cell)……………………………………………56

 

4-5-4-3. چه چیزهایی باعث کاهش WBC می­شود؟………………………………..56

 

4-5-4-4. چه چیزهایی باعث افزایش WBC می­شود؟………………………………..56

 

4-5-4-5. جدول گسسته­سازی WBC……………………………………………………..57

 

4-5-4-6.  RBC(Red Blood Cell)…………………………………………………57

 

4-5-4-7. چه چیزهایی باعث کاهش RBC می­شود؟…………………………………57

 

4-5-4-8. چه چیزهایی باعث افزایش RBC می­شود؟…………………………………58

 

4-5-4-9. جدول گسسته­سازی RBC………………………………………………………58

 

4-5-4-10. Hb (Hemoglobin)………………………………………………………..58

 

4-5-4-11. چه چیزهایی باعث کاهش هموگلوبین می­شود؟………………………….59

 

4-5-4-12. چه چیزهایی باعث افزایش هموگلوبین می­شود؟…………………………59

 

4-5-4-13. جدول گسسته­سازی هموگلوبین………………………………………………59

 

4-5-4-14. HCT (Hematocrit)……………………………………………………….59

 

4-5-4-15. چه چیزهایی باعث کاهش HCT می­شود؟……………………………….60

 

4-5-4-16. چه چیزهایی باعث افزایش HCT می­شود؟……………………………….60

 

4-5-4-17. جدول گسسته­سازی HCT…………………………………………………….60

 

4-5-4-18. Plt یا پلاکت­ها……………………………………………………………………60

 

4-5-4-19. چه چیزهایی پلاکت را کاهش می­دهد؟……………………………………61

 

4-5-4-20. چه چیزهایی پلاکت را افزایش می­دهد؟……………………………………61

 

4-5-4-21. جدول گسسته­سازی پلاکت……………………………………………………61

 

4-5-4-22. اجزای دیگر آزمایش خون……………………………………………………..61

 

4-5-4-23. جدول گسسته­سازی MCV، MCH و MCHC……………………..62

 

4-5-4-24. CRP (C-Reactive Protein)…………………………………………63

 

4-5-4-25. در چه شرایطی CRP افزایش پیدا می­کند؟……………………………….63

 

4-5-4-26. در چه شرایطی CRP کاهش پیدا می­کند؟……………………………….63

 

4-5-4-27. جدول گسسته­سازی CRP…………………………………………………….63

 

4-5-4-28. ESR (Erythrocyte Sedimentation Rate)…………………64

 

4-5-4-29. جدول گسسته­سازی ESR……………………………………………………..64

 

4-5-4-30. جدول گسسته­سازی BS (Blood Suger)…………………………….64

 

4-5-5. ویژگی داده­ها پس از پیش­پردازش نهایی……………………………………………..64

 

4-6 نمونه­برداری…………………………………………………………………………………………….67

 

فصل5: نتایج و یافته­های تحقیق……………………………………………………………………………………69

 

5-1. مقدمه…………………………………………………………………………………………………….70

 

5-2. رده­بندی…………………………………………………………………………………………………70

 

5-2-1. مقایسه­ی الگوریتم­های پایه………………………………………………………………..70

 

5-2-2. مقایسه­ی روش­های یادگیری در داده­های نامتوازن…………………………………74

 

فصل6: نتیجه­گیری و پیشنهادات…………………………………………………………………………………..79

 

6-1. مقدمه…………………………………………………………………………………………………….80

 

6-2. نتیجه­گیری……………………………………………………………………………………………..80

 

6-3. پیشنهادها………………………………………………………………………………………………..82

 

6-3-1. مجموعه­ی داده……………………………………………………………………………….82

 

6-3-2. داده­کاوی………………………………………………………………………………………82

 

مراجع…………………………………………………………………………………………………………………….83

 

پیوست الف: واژه­نامه انگلیسی به فارسی………………………………………………………………………. 92

 

 

 

 

 

فهرست جدول­ها

 

عنوان                                                                                                          صفحه

 

جدول3-1: ماتریس اغتشاش برای مسائل دودویی…………………………………………………………..41

 

جدول3-2: ماتریس اغتشاش برای مسائل چند رده­ای………………………………………………………44

 

جدول4-1: ویژگی­های موجود در مجموعه داده اولیه……………………………………………………..49

 

جدول4-2: اسامی ویژگی­ها پس از برخی از مراحل پیش­پردازش………………………………………54

 

جدول4-3: رده­بندی فیلد سن به گروه سنی……………………………………………………………………55

 

جدول 4-4: رده­بندی فیلد آزمایش WBC…………………………………………………………………..57

 

جدول 4-5: رده­بندی فیلد آزمایش RBC…………………………………………………………………….58

 

جدول 4-6: رده­بندی فیلد آزمایش Hb………………………………………………………………………..59

 

جدول 4-7: رده­بندی فیلد آزمایش HCT…………………………………………………………………….60

 

جدول 4-8: رده­بندی فیلد آزمایش PLT……………………………………………………………………..61

 

جدول 4-9: رده­بندی فیلد آزمایش MCV…………………………………………………………………..62

 

جدول 4-10: رده­بندی فیلد آزمایش MCH…………………………………………………………………62

 

جدول 4-11: رده­بندی فیلد آزمایش MCHC……………………………………………………………..62

 

جدول 4-12: رده­بندی فیلد آزمایش CRP…………………………………………………………………..63

 

جدول 4-13: رده­بندی فیلد آزمایش ESR…………………………………………………………………..64

 

جدول 4-14: رده­بندی فیلد آزمایش BS……………………………………………………………………..64

 

جدول4-15: ویژگی­های مجموعه داده ثانویه پس از پیش­پردازش نهایی……………………………..65

 

 

 

 

 

فهرست شکل­ها

 

عنوان                                                                                                          صفحه

 

شکل2-1: نمونه­ای از یک درخت تصمیم……………………………………………………………………..19

 

شکل2-2: یک مجموعه­ی آموزش دوبعدی که داده­های آن به صورت خطی قابل جداسازی است………………………………………………………………………………………………………………………22

 

شکل2-3: دو خط جداساز با حاشیه­های مختلف…………………………………………………………….23

 

شکل2-4: افزایش صحت مدل با استفاده از Bagging…………………………………………………..25

 

شکل2-5: شبه­کد الگوریتم Bagging………………………………………………………………………..26

 

شکل2-6: شبه­کد الگوریتم AdaBoost……………………………………………………………………..28

 

شکل3-1: شبه­کد الگوریتم EasyEnsemble…………………………………………………………….36

 

شکل3-2: شبه­کد الگوریتم ModifiedBagging………………………………………………………37

 

با فرض k=6

 

(b) تولید داده براساس فاصله­ی اقلیدسی…………………………………………………………38

 

شکل3-4: ماتریس هزینه­ی چندرده­ای………………………………………………………………………….40

 

شکل4-1: توزیع داده­ها براساس نوع بیماری تنفسی…………………………………………………………52

 

شکل4-2: توزیع داده­ها براساس سن…………………………………………………………………………….52

 

شکل4-3: نمونه­برداری طبقه­بندی شده…………………………………………………………………………68

 

شکل5-1: مقایسه­ی الگوریتم­های پایه (حاصل اعمال مدل روی مجموعه­ی آزمون)………………71

 

شکل5-2: مقایسه­ی کارایی الگوریتم­ها در تشخیص رده­های مختلف…………………………………72

 

شکل5-3: مقایسه­ی الگوریتم­های پایه (حاصل اعمال مدل روی مجموعه­ی آموزش)…………….73

 

شکل5-4: مقایسه­ی نتایج حاصل از روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون…………………………………………………………………………………………………………………….75

 

شکل5-5: مقایسه­ی حساسیت روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون به تفکیک رده­ها……………………………………………………………………………………………………….76

 

شکل5-6: مقایسه­ی دقت روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون به تفکیک رده­ها…………………………………………………………………………………………………………76

 

شکل5-7: مقایسه­ی معیارF روش­های یادگیری در داده­های نامتوازن روی مجموعه­ی آزمون به تفکیک رده­ها………………………………………………………………………………………………………….78

 

 

 

2-1. مقدمه

 

در این تحقیق، داده­های مربوط به بیماری­های تنفسی با استفاده از روش­های داده­کاوی مورد بررسی قرار گرفته­اند. به همین جهت در این بخش پس از مرور مختصری بر روش­ها و مراحل داده­کاوی، به معرفی بیماری تنفسی و انواع آن و سرانجام الگوریتم­های داده­کاوی مورد استفاده در این تحقیق و همچنین پیشینه­ی تحقیقات انجام شده در بیماری­های تنفسی پرداخته­ایم.

 

 

 

2-2. داده­کاوی

 

تکنولوژی مدیریت پایگاه ­داده­های پیشرفته انواع مختلفی از داده­ها را می­تواند در خود جای دهد، در نتیجه تکنیک­های آماری و ابزار مدیریت سنتی برای آنالیز این داده­ها کافی نیست و استخراج دانش[1] از این مقدار حجیم یک چالش بزرگ تلقی می­شود. داده­کاوی کوششی برای به­دست آوردن اطلاعات مفید از میان این داده­هاست و رشد بی­رویه­ی داده­ها در سطح جهان اهمیت داده­کاوی را دو­ چندان کرده است.

 

پایگاه ­داده­های پزشکی، شامل انبوهی از اطلاعات بیماران و وضعیت پزشکی آنهاست. ارتباطات و الگوهای نهفته در این داده­ها می­تواند دانش جدیدی در حوزه علوم پزشکی تولید کند. به­طوری­که امروزه استخراج دانش مفید و فراهم کردن ابزارهای تصمیم­گیری برای تشخیص و معالجه­ی بیماری­ها، به یک موضوع ضروری تبدیل شده است.

 

 

 

2-2-1. مفهوم داده­کاوی

 

در یک تعریف غیر رسمی داده­کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می­کنند، که این دانش به صورت ضمنی در پایگاه داده­های عظیم، انباردادهو دیگر مخازن بزرگ اطلاعات، ذخیره شده است. داده­کاوی به­طور همزمان از چندین رشته علمی بهره می­برد نظیر: تکنولوژی پایگاه داده، هوش مصنوعی، یادگیری ماشین، شبکه­های عصبی، آمار، شناسایی الگو، سیستم­های مبتنی بردانش، حصول دانش، بازیابی اطلاعات، محاسبات سرعت بالا و بازنمایی بصری داده .

 

 

 

2-2-2. مراحل داده­کاوی

 

داده­کاوی اغلب به­عنوان بخشی از فرآیند «کشف دانش از پایگاه­داده»، تلقی می­شود. کشف دانش از پایگاه داده، فرآیندی است که داده­های خام را به دانش مفید تبدیل می­کند که علاوه بر داده­کاوی، شامل دو مرحله­ی پیش­پردازش و پس­پردازش نیز می­باشد.

 

 

 

2-2-3. پیش­پردازش

 

هدف پیش­پردازش، تبدیل داده­های خام به قالبی است که برای تحلیل­های بعدی مناسب باشد. همچنین این مرحله به شناسایی ویژگی­ها و قطعات مختلف داده، کمک می­کند. از آنجائی­که داده­ها ممکن است با قالب­های مختلف و در پایگاه داده­های متفاوتی ذخیره شده باشند، اغلب زمان زیادی برای پیش­پردازش داده لازم است[5].

 

پیش­پردازش داده، یک محدوده­ی وسیع شامل استراتژی­ها و تکنیک­های مختلفی است که به­صورت بسیار پیچیده­ای با یک­دیگر در رابطه­اند و این ارتباطات پیچیده، معرفی رهیافت­ها و ایده­های اصلی پیش­پردازش را به­صورت منظم و ساخت­یافته بسیار مشکل می­کند.

 

وظایف پیش­پردازش عبارتند از: پاک­سازی داده­ها[8]، یکپارچه­سازی داده­ها[9]، تبدیل داده[10]، کاهش داده[11]، تصویر کردن و کاهش بعد[2].

 

 

 

 

 

2-2-3-1. پاک­سازی داده

 

خطاهای عملیاتی اغلب باعث می­شوند که داده­های به­دست آمده از منابع دنیای واقعی، پرغلط، ناقص و ناسازگار باشند. ابتدا لازم است، چنین داده­های بی­کیفیتی، تمیز شوند. وظایف اصلی پاک­سازی داده­ها عبارتند از:

 

 

    • پرکردن ویژگی­هایی با مقدار گمشده[12] : رویکردهای مختلفی در برخورد با مقادیر گمشده وجود دارد که عبارتند از: حذف رکورد، پرکردن به­صورت دستی، جایگزینی با یک مقدار ثابت سراسری، جایگزینی با مقدار میانگین، جایگزینی با مقادیری با احتمال بالاتر (با استفاده از رابطه­های بیزی، درخت تصمیم­گیری یا پسانمایی[13] ).

 

    • شناخت داده­های پرت[14] و هموار کردن داده­های نویزدار[15].

 

    • اصلاح داده­های ناسازگار.

 

  • رفع مشکل افزونگی که بر اثر یکپارچه­سازی داده­ها ایجاد شده است.

 

 

 

2-2-3-2. یکپارچه­سازی داده

 

داده­کاوی اغلب به یکپارچه­سازی داده (ادغام داده­ها از چندین منبع داده) نیاز دارد. همچنین ممکن است لازم باشد که داده­ها به شکل مناسب داده­کاوی تبدیل شوند. در این مرحله، داده­های چندین منبع را در یک  مخزن منسجم ترکیب می­کنیم.

 

 

 

2-2-3-3. تبدیل داده

 

در این مرحله، داده­ها به شکل مناسب برای داده­کاوی تبدیل می­شوند. این مرحله، شامل بخش­های زیر می­باشد:

 

 

    • هموارسازی: این بخش از تبدیل داده، با حذف نویز سروکار دارد.

 

    • تجمیع: شامل عملیات تلخیص و تجمیع روی داده­هاست. مثل تبدیل فروش روزانه به فروش هفتگی یا ماهانه.

 

    • تعمیم: جایگزینی داده­ی سطح پائین با مفاهیم سطح بالاتر. مثل تبدیل متغیر پیوسته­ی سن به یک مفهوم سطح بالاتر مثل جوان، میانسال یا مسن.

 

    • ایجاد ویژگی[16] : گاهی برای کمک به فرآیند داده­کاوی لازم است که ویژگی جدیدی از روی ویژگی­های موجود ساخته شود.

 

  • نرمال­سازی: نرمال­سازی شامل تغییر مقیاس داده­ها به گونه­ایست که آن­ها را به یک دامنه­ی کوچک و معین مثل ] 1،1-[ نگاشت کند. مهمترین روش­های نرمال­سازی عبارتند از: Min-Max،  Z-Score و نرمال­سازی با استفاده از مقیاس­بندی اعشاری[17].

 

 

 

2-2-3-4. کاهش داده

 

روش­های کاهش داده، می­تواند برای به­دست آوردن یک بازنمایی کوچک­تر و کاهش­یافته از داده، که بسیار کم­حجم­تر از داده­های اصلی بوده و البته یکپارچگی داده­های اصلی را حفظ می­کند، به­کار می­رود. استراتژی­های کاهش داده، عبارتند از: تجمیع مکعبی داده[18]، انتخاب زیرمجموعه­ای از ویژگی­ها[19]، کاهش تعداد نقاط، گسسته­سازی و تولید سلسله مراتب مفهومی.

 

1 Knowledge Discovery

 

[2] Data Warehouse

 

[3] Knowledge-based System

 

[4] Knowledge-acquisition

 

[5] Information  Retrieval

 

[6] High-performance Computing

 

[7] Data Visualization

 

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...