
پاکسازی دادهها یا تمیز کردن دادهها فرآیندی جهت تشخیص ،حذف و اصلاح دادههای نادرست از مجموعهای از رکوردها، جداول یا بانکهای اطلاعاتی میباشد و شناسایی قسمتهای ناقص و نادرست دادهها و سپس اصلاح و جایگزینی یا حذف دادههای فاسد اشاره دارد. هدف از پاکسازی دادهها استخراج اطلاعات دقیق میباشد چرا که دادههای نادرست یا ناسازگار میتواند منجر به نتیجهگیری غلط و شکست شود. تمیز کردن دادهها ممکن است به صورت تعاملی با ابزارهای دادهکاوی و یا به عنوان پردازش دسته ای از طریق اسکریپتها انجام شود. پس از پاکسازی، مجموعه دادهها باید با سایر مجموعه دادههای مشابه در سیستم سازگار باشد. در واقع دادههای ناسازگار شناسایی شده یا حذف شده ممکن است در ابتدا ناشی از اشتباهات ورود دادهها از طرف کاربر، تغییر دادهها در حین انتقال پرونده یا ذخیرهسازی با تعاریف غیراستانداردی که بین سرویس های مختلف متفاوت میباشد صورت پذیرد. در دنیای تحقیقات بازار، دادههای نادرست میتوانند پرهزینه باشند. بسیاری از شرکتها از پایگاههای اطلاعاتی مصرف کننده گان استفاده میکنند و اطلاعاتی مانند اطلاعات تماس، آدرسها و توضیحاتی در مورد علایق مشتری را ثبت میکنند اما اگر اطلاعات علاقه مندی مشتری ناردست باشد هزینه قابل توجهی به سازمان تحمیل میشود و ممکن است مشتریان از این موضوع آزرده خاطر شده و منجر به از دست دادن مشتری شود. به همین دلیل دادهها قبل از ورود به پایگاه داده توسط متخصصان داده مورد بازدید قرار می گیرد.
چرخه پاکسازی
· پاکسازی داده (data cleaning)
مهمترین فعالیت های این بخش عبارت است تخمین مقادیر ناموجود در پایگاه داده ها، از بین بردن اختلال (noise) در داده ها، حذف کردن داده های پرت و نامربوط، از بین بردن ناسازگاری در داده ها. نکته مهم این است که هر چه این گام از داده کاوی بهتر انجام شود، خروجی الگوریتم ها و تکنیک های داده کاوی کیفیت بالاتری خواهد داشت
· یکپارچه سازی داده (data integration)
در بسیاری از موارد ممکن است داده ها در فایل ها و منابع مختلف نگهداری شوند و در این صورت نیاز است تا داده ها پیش از اجرای تکنیک های داده کاوی با یکدیگر یکپارچه شوند. یکپارچه سازی هم فعالیتی سنگین است و هم چالش های فراوانی را به همراه دارد که در مفصل در مورد آن صحبت خواهیم کرد.
· کاهش داده (data reduction)
یکی از مهمترین نکات در داده کاوی این است که ممکن است همیشه، همه داده ها مورد نیاز نباشند و تنها بخشی از داده ها که مورد نیاز است باید مورد پردازش قرار بگیرد. کاهش داده (data reduction) به این مباحث می پردازد.
· تبدیل داده (data transformation)
فعالیت های مانند نرمال سازی داده ها، تجمیع و گسسته سازی داده ها در این حوزه جای میگیرند.
صحت سنجی داده ها:
اعتبارسنجی (validation) و صحتسنجی (verification) فرایند بررسی این است که داده هایی که قرار است گزارش داده شوند، هدف و مقصود خود را برآورده سازند. این فرایند در کلیه مراحل سیستم باید اجرا شود تا از اعتبار و صحت ورودیها و خروجیهای سیستم اطمینان حاصل شود. اعتبار سنجی و صحت سنجی با یکدیگر متفاوت هستند، “بری بوهم” به طور خلاصه تفاوت این دو را در قالب دو سوال زیر بیان می کند:
صحت سنجی: آیا گزارش به درستی ایجاد شده است؟
اعتبار سنجی: آیا گزارش در برآوردن نیازها به درستی عمل میکند؟