data cleaning

پاکسازی داده‌ها یا تمیز کردن داده‌ها فرآیندی جهت تشخیص ،حذف و اصلاح  داده‌های نادرست از مجموعه‌ای از رکوردها، جداول یا بانک‌های اطلاعاتی می‌باشد و شناسایی قسمتهای ناقص و نادرست داده‌ها و سپس اصلاح و جایگزینی یا حذف داده‌های فاسد اشاره دارد. هدف از پاکسازی داده‌ها استخراج اطلاعات دقیق می‌باشد چرا که داده‌های نادرست یا ناسازگار می‌تواند منجر به نتیجه‌گیری غلط و شکست شود. تمیز کردن داده‌ها ممکن است به صورت تعاملی با ابزارهای داده‌کاوی و یا به عنوان پردازش دسته ای از طریق اسکریپت‌ها انجام شود. پس از پاکسازی، مجموعه داده‌ها باید با سایر مجموعه داده‌های مشابه در سیستم سازگار باشد. در واقع داده‌های ناسازگار شناسایی شده یا حذف شده ممکن است در ابتدا ناشی از اشتباهات ورود داده‌ها از طرف کاربر، تغییر داده‌ها در حین انتقال پرونده یا ذخیره‌سازی با تعاریف غیراستانداردی که بین سرویس های مختلف متفاوت می‌باشد صورت پذیرد. در دنیای تحقیقات بازار، داده‌های نادرست می‌توانند پرهزینه باشند. بسیاری از شرکت‌ها از پایگاه‌های اطلاعاتی مصرف کننده گان استفاده می‌کنند و اطلاعاتی مانند اطلاعات تماس، آدرس‌ها و توضیحاتی در مورد علایق مشتری را ثبت می‌کنند اما اگر اطلاعات علاقه مندی مشتری ناردست باشد هزینه قابل توجهی به سازمان تحمیل می‌شود و ممکن است مشتریان از این موضوع آزرده خاطر شده و منجر به از دست دادن مشتری شود. به همین دلیل داده‌ها قبل از ورود به پایگاه داده توسط متخصصان داده مورد بازدید قرار می گیرد.

چرخه پاکسازی
· پاکسازی داده (data cleaning)

مهمترین فعالیت های این بخش عبارت است تخمین مقادیر ناموجود در پایگاه داده ها، از بین بردن اختلال (noise) در داده ها، حذف کردن داده های پرت و نامربوط، از بین بردن ناسازگاری در داده ها. نکته مهم این است که هر چه این گام از داده کاوی بهتر انجام شود، خروجی الگوریتم ها و تکنیک های داده کاوی کیفیت بالاتری خواهد داشت

· یکپارچه سازی داده (data integration)

در بسیاری از موارد ممکن است داده ها در فایل ها و منابع مختلف نگهداری شوند و در این صورت نیاز است تا داده ها پیش از اجرای تکنیک های داده کاوی با یکدیگر یکپارچه شوند.  یکپارچه سازی هم فعالیتی سنگین است و هم چالش های فراوانی را به همراه دارد که در مفصل در مورد آن صحبت خواهیم کرد.

· کاهش داده (data reduction)

یکی از مهمترین نکات در داده کاوی این است که ممکن است همیشه، همه داده ها مورد نیاز نباشند و تنها بخشی از داده ها که مورد نیاز است باید مورد پردازش قرار بگیرد. کاهش داده (data reduction) به این مباحث می پردازد.

· تبدیل داده (data transformation)

فعالیت های مانند نرمال سازی داده ها، تجمیع و گسسته سازی داده ها در این حوزه جای میگیرند. 

صحت سنجی داده ها:

اعتبارسنجی (validation) و صحت‌سنجی (verification) فرایند بررسی این است که داده هایی که قرار است گزارش داده شوند، هدف و مقصود خود را برآورده ‌سازند. این فرایند در کلیه مراحل سیستم باید اجرا شود تا از اعتبار و صحت ورودی‌ها و خروجی‌های سیستم اطمینان حاصل شود. اعتبار سنجی و صحت سنجی با یکدیگر متفاوت هستند، “بری بوهم” به طور خلاصه تفاوت این دو را در قالب دو سوال زیر بیان می کند:

صحت سنجی: آیا گزارش به درستی ایجاد شده است؟

اعتبار سنجی: آیا گزارش در برآوردن نیازها به درستی عمل می‌کند؟