پایان نامه داده کاوی در بیمه با عنوان ارائه مدلی برای شناسایی عوامل اثرگذار و ضریب تاثیر آنها در سود و زیان بیمه شخص ثالث خودرو شرکتهای بیمه بوسیله روشهای داده کاوی شرکت سهامی بیمه ایران می باشد.در این تحقیق توانستیم اثبات کنیم که با روشهای داده کاوی می توان مدلی هایی ارائه داد که عوامل موثر در احتمال به بار آوردن خسارت یک مشتری را با توجه به میزان تاثیر آن عوامل مشخص کند. این موضوع از طریق الگوریتم های کاهش ویژگی و وزن دهی و شبکه عصبی مهیا شد. همچنین الگوریتم های خوشه بندی نیز نتایج مشابهی را ارائه داده اند. علاوه بر این، الگوریتم های دسته بندی با تشخیص عوامل اثر گذار توانسته اند مدلی را ارائه دهند که با دقت بسیار بالایی احتمال خسارتی بودن یک بیمه نامه را تشخیص می دهد.

 

 

 الگوریتم های درخت تصمیم نیز با دقت بالایی در تشخیص عوامل موثر در خسارتی بودن یک بیمه نامه و ارائه مدل و قوانین لازم موفق عمل کرده اند. الگوریتم های مبتنی بر قانون اگرچه قوانین بسیار محدودی ارائه داده اند اما درصد تشخیص عوامل اثر گذار و دقت قوانین استخراج شده قابل اطمینان بوده است. عوامل در الگوریتم های مختلف با ضریب تشخیصی متفاوت قید شده است. عوامل اثر گذار استخراج شده عمدتاً به تنهایی موثر نبوده بلکه دارای اثرات وابسته به دیگر عوامل بوده است که این موضوع در درختهای تصمیم و قواعد تلازمی(مبتنی بر قانون) به وضوح مشخص است و بیان شده است. 

 

 

 

در این پژوهش از8 الگوریتم دسته بندی شامل KNN, Naïve bayes, Neural Network,   SVM Linear, Meta Decision Tree, Wj48, Random Forest و رگرسیون لجستیک استفاده شده است که تعداد 3 الگوریتم آن درخت تصمیم بوده است. همچنین دو الگوریتم مبتنی بر قانون  Apriori, Fp Growthو 3 الگوریتم خوشه بندی K-Means، دوگامی و Kohonen نیز مورد استفاده قرار گرفته  اند. در این قسمت نتایج الگوریتمهای دسته بند غیر درخت با هم مقایسه می شوند و به ترتیب بهترین مدلها مشخص میگردند. همچنین سه الگوریتم دسته بند درختی با هم دیگر مقایسه شده و بهترین نتایجی که خسارتی بودن یک رکورد را مشخص میکند پس از مشاوره با یک متخصص و کارشناس در امور بیمه از هر درخت استخراج می گردد و به ترتیب دقت نهایی آن الگوریتم اعلام میگردد. در خصوص الگوریتم های مبتنی بر قانون نیز دو الگوریتم با هم دیگر مقایسه شده و بهترین قوانینی که خسارتی بودن یک رکورد را مشخص میکند پس از مشاوره با یک متخصص و کارشناس در امور بیمه از هر الگوریتم استخراج و اعلام میگردد. 

 

 

 

 

 

 

 


فهرست مطالب

فصل اول:  مقدمه
1-1    تعریف داده کاوی    4
1-2    تعریف بیمه    4
1-3    هدف پایان نامه    5
1-4    مراحل انجام تحقیق    5
1-5    ساختار پایان نامه    6

 

 


فصل دوم: ادبیات موضوع و تحقیقات پیشین
2-1    داده کاوی و یادگیری ماشین    8
2-2    ابزارها و تکنیک های داده کاوی    9
2-3    روشهای داده کاوی    11
2-3-1    روشهای توصیف داده ها    12
2-3-2    روشهای تجزیه و تحلیل وابستگی     12
2-3-3    روشهای دسته بندی و پیشگویی    12
2-3-4    درخت تصمیم    13
2-3-5    شبکه عصبی    14
2-3-6    استدلال مبتنی بر حافظه    14
2-3-7    ماشین های بردار پشتیبانی    15
2-3-8    روشهای خوشه بندی     16
2-3-9    روش K-Means    16
2-3-10    شبکه کوهنن    16
2-3-11    روش  دو گام    17
2-3-12    روشهای تجزیه و تحلیل نویز    17
2-4    دسته های نامتعادل]صنیعی آباده 1391[.    18
2-4-1    راهکار مبتنی بر معیار    18
2-4-2    راهکار مبتنی بر نمونه برداری    19
2-5    پیشینه تحقیق    20
2-6    خلاصه فصل    23

 

 


فصل سوم: شرح پژوهش
3-1    انتخاب نرم افزار    26
3-1-1    Rapidminer    26
3-1-2    مقایسه RapidMiner   با سایر نرم افزار های مشابه    27
3-2    داده ها    31
3-2-1    انتخاب داده    31
3-2-2    فیلدهای مجموعه داده صدور    31
3-2-3    کاهش ابعاد    31
3-2-4    فیلدهای مجموعه داده خسارت    37
3-2-5    پاکسازی داده ها    37
3-2-6    رسیدگی به داده های از دست رفته    37
3-2-7    کشف داده دور افتاده    39
3-2-8    انبوهش داده    41
3-2-9    ایجاد ویژگی دسته    41
3-2-10    تبدیل داده    41
3-2-11    انتقال داده به محیط داده کاوی    42
3-2-12    انواع داده تعیین شده    42
3-2-13    عملیات انتخاب ویژگیهای موثرتر    43
3-3    نتایج اعمال الگوریتم PCA و الگوریتم های وزن دهی    44
3-4    ویژگی های منتخب جهت استفاده در الگوریتمهای حساس به تعداد ویژگی    46
3-5    معیارهای ارزیابی الگوریتمهای دسته بندی    47
3-6    ماتریس درهم ریختگی    47
3-7    معیار AUC    48
3-8    روشهای ارزیابی الگوریتم های دسته بندی    49
3-8-1    روش Holdout    49
3-8-2    روش Random Subsampling    50
3-8-3    روش Cross-Validation    51
3-8-4    روش Bootstrap    51
3-9    الگوریتمهای دسته بندی    52
3-9-1    الگوریتم KNN    53
3-9-2    الگوریتم Naïve Bayes    54
3-9-3    الگوریتم Neural Network    54
3-9-4    الگوریتم   SVM   خطی    56
3-9-5    الگوریتم   رگرسیون لجستیک    58
3-9-6    الگوریتم  Meta Decision Tree    59
3-9-7    الگوریتم درخت Wj48    61
3-9-8    الگوریتم درخت Random forest    63
3-10    معیارهای ارزیابی الگوریتم های مبتنی بر قانون(کشف قوانین انجمنی)    65
3-10-1    الگوریتم FPgrowth    66
3-10-2    الگوریتم Weka Apriori    67
3-11    معیارهای ارزیابی الگوریتمهای خوشه بندی    67
3-12    الگوریتم های خوشه بندی    69
3-12-1    الگوریتم K-Means    69
3-12-2    الگوریتم Kohonen    73
3-12-3    الگوریتم دوگامی    77

 

 


فصل چهارم: ارزیابی و نتیجه گیری
4-1    مقایسه نتایج    83
4-2    الگوریتمهای دسته بندی    84
4-3    الگوریتم های دسته بندی درخت تصمیم    84
4-4    الگوریتم های خوشه بندی    96
4-5    الگوریتم های قواعد تلازمی(مبتنی بر قانون)    98
4-6    پیشنهادات به شرکت های بیمه    99
4-7    پیشنهادات جهت ادامه کار    101

 

 

منابع و مأخذ
    فهرست منابع فارسی    102
    فهرست منابع انگلیسی    103

 

 

 

فهرست جدول‌ها 
جدول شماره 3-1:  نتایج رای گیری استفاده از نرم افزارهای داده کاوی    24
جدول شماره 3-2: فیلدهای اولیه داده های صدور    26
جدول شماره 3-3: فیلدهای نهایی داده های صدور    27
 جدول شماره 3-4: فیلدهای  حذف شده داده های صدور و علت حذف آنها    28
جدول 3-5:  فیلدهای استخراج شده از داده های خسارت    28
جدول 3-6: نتایج  نمودار boxplot    31
جدول 3-7: انواع داده استفاده شده    33
جدول 3-8: نتایج حاصل از اجتماع فیلدهای با بالاترین وزن در الگوریتمهای مختلف    37
جدول 3-9: ماتریس در هم ریختگی رکوردهای تخمینی(Predicted  Records)    38
جدول 3-10: قوانین استخراج شده توسط الگوریتم Fpgrowth    55
جدول 3-11: قوانین استخراج شده توسط الگوریتم Weka Apriori    55
جدول 3-12: تنظیمات پارامترهای الگوریتم K-Means    57
اجرا برای 9 خوشه در الگوریتم K-Means    60
جدول 3-13: تنظیمات پارامترهای الگوریتم Kohonen    64
جدول 3-14: تنظیمات پارامترهای الگوریتم دوگامی    69
جدول 4-1: مقایسه الگوریتم های دسته بند    70
جدول 4-2: مقایسه الگوریتم های دسته بند درخت تصمیم    70
جدول 4-3: ماتریس آشفتگی قانون شماره 1    71
جدول 4-4: ماتریس آشفتگی قانون شماره 2    72
جدول 4-5: ماتریس آشفتگی قانون شماره 3 الف    72
جدول 4-6: ماتریس آشفتگی قانون شماره 3 ب    72
جدول 4-7: ماتریس آشفتگی قانون شماره 3 ج    73
جدول 4-8: ماتریس آشفتگی قانون شماره 3 د    73
جدول 4-9: ماتریس آشفتگی قانون شماره 3 ه    73
جدول 4-10: ماتریس آشفتگی قانون شماره 3 و    74
جدول 4-11: ماتریس آشفتگی قانون شماره 3 ز    76
جدول 4-12: ماتریس آشفتگی قانون شماره 4    76
جدول 4-13: ماتریس آشفتگی قانون شماره 5    77
جدول 4-14: ماتریس آشفتگی قانون شماره 6 الف    77
جدول 4-15: ماتریس آشفتگی قانون شماره 6 ب    78
جدول 4-16: ماتریس آشفتگی قانون شماره7    78
جدول 4-17: ماتریس آشفتگی قانون شماره8    79
جدول 4-18: مقایسه الگوریتم های خوشه بندی    79
جدول 4-19: فیلدهای حاصل از الگوریتم های خوشه بندی    80
جدول 4-20: نتایج الگوریتم های FpGrowth, Weka Apriori    81
    

 

 

 

فهرست شکل‌ها 
شکل شماره3-1: داده از دست رفته فیلد" نوع بیمه " پس از انتقال به محیط داده کاوی    33
شکل 3-2:  نتایج الگوریتمPCA     34
شکل 3-3:  نتایج الگوریتم SVM Weighting در ارزشدهی به ویژگی ها    35
شکل 3-4: نتایج الگوریتم Weighting Deviation  در ارزشدهی به ویژگی ها    35
شکل 3-5: نتایج الگوریتم Weighting Correlation در ارزشدهی به ویژگی ها    36
شکل 3-6:  نمای کلی استفاده از روشهای ارزیابی    41
شکل 3-7:  نمای کلی استفاده از یک مدل درون یک روش ارزیابی    42
شکل 3-8:  نمودار AUC الگوریتم KNN    42
شکل 3-9:  نمودار AUC الگوریتم Naïve Bayes    43
شکل 3-10:  تبدیل ویژگی های غیر عددی به عدد در الگوریتم شبکه عصبی    44
شکل 3-11:  نمودار AUC و ماتریس آشفتگی الگوریتم Neural Net    44
شکل 3-12:  تبدیل ویژگی های غیر عددی به عدد در الگوریتم  SVM  خطی    45
شکل 3-13 :  نمودار AUC الگوریتم  SVM Linear    46
شکل 3-14 :  نمودار AUC الگوریتم  رگرسیون لجستیک    47
شکل 3-15 : نمودار AUC الگوریتم  Meta Decision Tree    48
شکل 3-16 : قسمتی از نمودارtree الگوریتم  Meta Decision Tree    49
شکل 3-17 :  نمودار radial الگوریتم  Meta Decision Tree    49
شکل 3-18: نمودار AUC الگوریتم  Wj48    50
شکل 3-19 :  نمودار tree الگوریتم  Wj48    51
شکل 3-20 :  نمودار AUC الگوریتم  Random forest    52
شکل 3-21 :  نمودار تولید 20 درخت در الگوریتم  Random Forest    53
شکل 3-22 :  یک نمونه درخت تولید شده توسط الگوریتم  Random Forest    53
شکل 3-23 : رسیدن درصد خطا به صفر پس از 8مرتبه    57
شکل 3-24 : Predictor  Importance for K-Means    58
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم K-Means    59
شکل 3-26 : کیفیت خوشه ها در الگوریتمMeans K-    60
شکل 3-27 : Predictor  Importance for Kohonen    61
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم Kohonen    62
شکل 3-29 : کیفیت خوشه ها در الگوریتمMeans K-    63
شکل 3-30 : تعداد نرون های ورودی و خروجی در Kohonen    63
شکل 3-31 : Predictor  Importance for  دوگامی    64
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترین خوشه به بزرگترین خوشه در الگوریتم دوگامی    65
شکل 3-33 : کیفیت خوشه ها در الگوریتم دوگامی    66
شکل4-1: نمودارنسبت تخفیف عدم خسارت به خسارت    75