نوشته‌ها

داده کاوی

از جمله سلسله مقالات گروه داده کاوی همت، مقالات منحصر به فرد در حوزه داده کاوی است که در این دانشنامه در حال گردآوری می باشد که برای علاقمندان ارسال و در یک مجموعه واحد آماده مطالعه عزیزان می باشد

همانطور که در سری مقالات گذشته گروه همت حتما خوانده اید، به طور مفصل داده کاوی را تشریح کرده و مفصلا به آن پرداخته ایم.

در این مقاله نیز مجددا که برای شما علاقمندان گردآوری شده است قصد داریم مجددا داده کاوی را توضیح دهیم.اگر از علاقمندان به علم داده کاوی هستید از طریق لینک های داخل مطلب یا مراجعه به بخش دانشنامه همت سایرمقالات را نیز حتما بخوانید

داده کاوی چیست

در این مقاله سعی خواهیم کرد داده کاوی و کاربرد های آنرا به بیان ساده برای شما عزیزان بنویسیم.
روند حفاری از طریق داده ها برای کشف اتصالات پنهان و پیش بینی روند آینده، تاریخچه طولانی دارد. گاهی اوقات به عنوان “کشف دانش در پایگاه های داده” نامیده می شود، اصطلاح “داده کاوی” تا دهه ۱۹۹۰ ساخته نشده بود. اما پایه آن شامل سه رشته علمی مقابل است:

  • آمار (مطالعه عددی روابط داده ها)
  • هوش مصنوعی (هوش انسان مانند نرم افزار و / یا ماشین)
  • یادگیری ماشین (الگوریتم هایی است که می توانند از داده ها برای پیش بینی استفاده کنند).

آنچه که قدیمی بود دوباره جدید است، زیرا تکنولوژی داده کاوی در حال تکامل است تا با پتانسیل بی حد و حصر داده های بزرگ و قدرت محاسباتی مقرون به صرفه هماهنگ شود.

در دهه گذشته، پیشرفت در پردازش قدرت و سرعت، ما را قادر به فراتر رفتن از شیوه های دستی میکند، تجزیه و تحلیل داده هایی که خسته کننده و وقت گیر بود، سریع، آسان و خودکارشده است.  مجموعه داده ها پیچیده تر جمع آوری شده است، پتانسیل بیشتری برای کشف بینش مربوطه وجود دارد.

از جمله خرده فروشان، بانک ها، تولید کنندگان، ارائه دهندگان خدمات مخابراتی و بیمه گران، از استخراج داده ها برای کشف روابط بین همه چیز از جمله بهینه سازی قیمت، تبلیغات و جمعیت شناختی تا نحوه اقتصاد، خطر، رقابت و رسانه های اجتماعی بر مدل های کسب و کار، درآمد، عملیات و روابط مشتریاستفاده میکنند.

 

امروزه شرکت ها نیاز به یک روش کارآمد برای یافتن اطلاعات ارزشمند دارند تا بتوانند با سرعت بیشتری رشد اقتصادی آنها ادامه یابند. در رده داده های بزرگ، هر روز داده های توده ای را در بسیاری از زمینه ها تولید می کند.

روش های آماری سنتی برای مقابله با آن بسیار وقت گیر و ناکارآمد بود. بنابراین لازم است که یک الگوریتم هوشمند پیدا کنیم که بتواند حجم زیادی از اطلاعات را برای استخراج دانش بالقوه اداره کند. داده کاوی یک تکنولوژی مبتنی بر روش های آماری ریاضی آماری است و ترکیبی از بسیاری از الگوریتم های پردازش پیچیده داده ها است.

این توانایی برای تجزیه و تحلیل داده های مقیاس پذیر، چند بعدی، متنوع، پیچیده و دیگر انواع داده ها را دارد. به دلیل برتر بودن داده کاوی، محققان به طور گسترده ای این تکنولوژی را در بازاریابی، بیمه، بانکی و پزشکی برای یافتن دانش پنهان استفاده می کنند.


برای مطالعه بیشتر مقاله معرفی { داده کاوی } را حتما بخوانید


چرا داده کاوی مهم است؟

شما موارد زیادی را دیده اید که حجم داده های تولید شده هر دو سال دو برابر می شود. داده های بدون ساختار به تنهایی ۹۰ درصد از جهان دیجیتال را تشکیل می دهند. اما اطلاعات بیشتر لزوما به معنی دانش بیشتر نیست.
داده کاوی به شما امکان می دهد تا:

  • درک آنچه مربوط است و سپس استفاده مناسب از آن اطلاعات برای ارزیابی نتایج احتمالی.
  • سرعت تصمیم گیری های آگاهانه را تسریع کنید.

کاربرد های داده کاوی چیست؟

داده کاوی در قلب تلاش های تحلیلی در صنایع مختلف و رشته ها قرار دارد لذا کاربرد های داده کاوی را در زیر مورد بررسی قرار داده ایم.

ارتباطات

در یک بازار پربار که رقابت تنگ است، پاسخ اغلب در اطلاعات مصرف کننده شماست. شرکت های چند رسانه ای و ارتباطات از راه دور می توانند از مدل های تحلیلی برای شناسایی کوه ها از اطلاعات مشتریان استفاده کنند، به آنها کمک می کند تا رفتار مشتری را پیش بینی کنند و کمپین های بسیار هدفمند و مناسب را ارائه دهند.

بیمه

شرکت های بیمه با استفاده از تکنیک های تحلیلی می توانند مشکلات پیچیده ای را در رابطه با تقلب، انطباق، مدیریت ریسک و سقوط مشتری حل کنند. شرکت ها از تکنیک های داده کاوی به قیمت محصولات به طور موثر در خطوط کسب و کار استفاده کرده اند و روش های جدیدی برای ارائه محصولات رقابتی به مشتریان موجود خود دارند.

تحصیلات

با یکپارچه، دیدگاه های داده شده بر پیشرفت دانش آموزان، معلمان می توانند قبل از اینکه پای درس در کلاس درس را پیش ببرند، پیش بینی می کنند و راهبردهای مداخله ای برای نگه داشتن آنها در مسیر فراهم می کنند. داده کاوی به آموزگاران کمک می کند تا داده های دانش آموزان را در دسترس داشته باشند، پیش بینی سطوح دستاورد و دانش آموزان یا گروه هایی که نیاز به توجه بیشتری دارند، به طور دقیق مشخص شود.

 

دیتاماینینگ

دیتاماینینگ

 

ساخت

هماهنگ کردن برنامه های عرضه با پیش بینی های تقاضا ضروری است، همانطور که تشخیص زودهنگام مشکلات، تضمین کیفیت و سرمایه گذاری در ارزش سهام برند است. تولید کنندگان می توانند از دارایی های تولیدی پیش بینی کنند و پیش بینی های تعمیر و نگهداری را انجام دهند، که می تواند به حداکثر رساندن زمان آماده سازی و خط تولید را به موقع حفظ کند.

بانکداری

الگوریتم های خودکار کمک به بانک ها در درک مشتریان خود و همچنین میلیاردها معاملات در قلب سیستم مالی. داده کاوی به شرکت های خدمات مالی کمک می کند تا دیدگاه های بهتر در مورد خطرات بازار، سریعتر تشخیص تقلب، مدیریت تعهدات قانونی و بازده مطلوب سرمایه گذاری های بازاریابی خود را دریافت کنند.

خرده فروشی

یکی دیگر از کاربرد های داده کاوی بانک اطلاعاتی مشتریان مشتری بینش پنهانی مشتری را که می تواند به شما در بهبود روابط، بهینه سازی کمپین های بازاریابی و پیش بینی فروش کمک کند. از طریق مدل های دقیق تر داده ها، شرکت های خرده فروشی می توانند اقدامات هدفمندتری ارائه دهند و پیشنهاداتی را که بیشترین تاثیر را بر مشتری می گذارد، پیدا کنید.


برای مطالعه دقیقتر پیرامون نقش داده کاوی در کسب و کارهای مختلف به شما توصیه میکنیم حتما چند مقاله زیر را مطالعه کنید..

نقش داده کاوی در صنعت

نقش داده کاوی در بازاریابی

نقش داده کاوی در پزشکی

نقش داده کاوی در بورس


تا این بخش مقاله امیدواریم که شما با داده کاوی و نقش داده کاوی به صورت خلاصه آشنا شدید

 

داده کاوی چه فایده ای دارد

شناخت مشتریان سودآور: می توانید مشتریانی که بیشترین سود شما از آنها حاصل شده را شناسایی کنید و برای حفظ وفاداری مشتری تلاش کنید.

بهینه سازی سبد محصول: شناخت محصولات پر فروش، محصولات سودآور محصولات زیان ده از دیگر فواید داده کاوی است. با این کار می توانید در بهتر کردن سبد محصول خود اقدام کنید.

شناخت مشتریان وفادار و قدیمی: می توانید بفهمید مشتریان قدیمی شما چه کسانی هستند و با چه برنامه ای خرید می کنند، چه کالایی را دوست دارند و چه کالایی باعث وفاداری آنها شده است.

بررسی طول عمر مشتری: با استفاده از داده کاوی می توانید طول عمر مشتری و چرخه آن، میزان سود حاصل عایده از هر مشتری در هر مرحله را بررسی کنید.

شناسایی رفتار مشتری: اگر شما بتوانید رفتار مشتریان خود را بشناسید و آن را با ویژگی های مشتری تطابق دهید می توانید در زمینه بخش بندی و قسمت بندی بازار موفق عمل کنید. اگر امروز بتوانید برای یک محصول خود به صورت مستند بخش بندی بازار انجام دهید در ادامه نیز در این امر موفق خواهید بود.

بررسی عمکلرد یک برنامه بازاریابی: اگر می خواهید بدانید یک برنامه بازاریابی و تبلیغاتی که انجام داده اید چه اثرات آشکار و پنهانی داشته و برای انتخاب آن در آینده تصمیم بگیرید بی شک داده کاوی بسیار مفید خواهد بود.

کشف الگو و روند: با استفاده از داده کاوی و بررسی میزان خرید مشتریان می توانید الگوهای فصلی خرید را استخراج کنید، روند کاهش و یا افزایش آن را تحلیل کنید و در صورت نیاز اقدام اصلاحی انجام دهید.

پیش بینی فروش: با استفاده از اطلاعات گذشته و بهره بردن از الگو و ارتباط میان داده ها و رونده می توانید فروش خود را در آینده پیش بینی کنید. روند فصلی فروش را بیابید و برای فروش یک محصول جدید برنامه ریزی کنید.


اگر از علاقمندان به داده کاوی هستید این مطالب را بخوانید { گروه تلگرامی داده کاوی }

داده کاوی در شناسایی عیوب و بهبود کیفیت

⭕️شناسایی عیوب یکی از نخستین حوزه‌هایی است که داده کاوی در آن به‌کار رفته است؛ ایده به‌کار گرفته شده در داده‌کاوی در این خصوص مطالعه‌ی رفتار گذشته سیستم و فهم فرایند و سپس پیش‌بینی و ارتقا عملکرد آینده سیستم است.

از داده‌کاوی می‌توان برای شناسایی الگوهایی که می‌توانند به خرابی منجر شوند استفاده کرد؛ چنین شیوه‌هایی نه تنها در شناسایی محصولات معیوب کمک می‌کنند بلکه به‌صورت فنی پارامترهای مهم و تاثیرگذار بر کیفیت را نیز تغیین می‌کنند.

چند نمونه از کاربردها در ادامه ذکر شده است:
۱-کنترل کیفیت
۲-تعیین طرح‌های کنترل کیفی
۳-شناسایی نوع خرابی
۴-شناسایی مکانیزم خرابی قطعات مکانیکی
۵-بهبود کیفیت
۶- مهندسی کیفیت
۷-پیش‌بینی احتمال خرابی

امیدوارم از مقاله ای که در دانشنامه همت برای شما گردآوری شده بهره کافی برده باشید

با ما همراه باشید

منابع
  1. Data Mining and Knowledge Discovery
  2. International Journal of Data Mining and Bioinformatics
  3. EPJ Data Science
  4.  Journal of Data Science
  5. Big Data

 

 

 

داده کاوی در بازاریابی

اغلب شرکت ها و کسب و کارهای مختلف داده ها و اطلاعات بسیار زیادی از مشتریان خود را ثبت و ضبط می کنند  که این اطلاعات می تواند شامل اسم ، جنس و سن مشتریان و … باشد در صورتی که هیچ استفاده ای از این اطلاعات نمی کنند

داده ها و دیتاها مانند گنجینه ای پنهان در هر کسب و کاری هستند که بسیاری از مشاغل و کسب و کارها قدر این اطلاعات را به خوبی نمی دانند در صورتی که داشتن این داده ها نیز به تنهایی کاربردی ممکن است برای یک کسب وک ار نداشته باشد و تنها استفاده درست از این داده ها است که رشد کسب و کار کمک زیادی میکند

در این مقاله قصد داریم شما را با کاربرد داده کاوی در بازاریابی و صنعت های مختلف آشنا کنیم تا اگر شما از آن دسته کسب و کارهایی هستید که داده های انبار شده دارید برای آینده کسب و کارخود تصمیم درستی بگیرید

 

داده کاوی در بازاریابی

داده کاوی در بازاریابی

کاربردهای داده کاوی چیست؟

داده‌کاوی (Data Mining) به معنای کشف دانش درون داده‌هاست.

اصولاً هر جایی که داده وجود داشته باشد داده‌کاوی نیز معنا می‌یابد؛ از قبیل: امور تجاری و مالی، امور پزشکی، زیست پزشکی، تجزیه و تحلیل‌های مربوط به DNA، کشف ناهنجاری‌ها و اسناد جعلی، ارتباطات از راه دور، ورزش و سرگرمی، کتابداری و اطلاع‌رسانی، و خیلی حوزه‌های مختلف دیگر.

امروزه عملیات داده‌کاوی به صورت گسترده توسط تمامی شرکت‌هایی که مشتریان در کانون توجه آنها قرار دارند، استفاده می‌شود.

استفاده از داده‌کاوی به این شرکت‌ها کمک می‌کند تا ارتباط عوامل داخلی (از جمله: قیمت، محل قرارگیری محصولات و مهارت کارمندان) را با عوامل خارجی (از جمله: وضعیت اقتصادی، رقابت در بازار و محل جغرافیایی مشتریان) کشف نمایند.

 


می توانید در مورد {  داده کاوی  } از طریق این مقاله اطلاعات بیشتری کسب کنید


حال اگر بخواهیم به فواید و آثار داده کاوی- به طور خلاصه که مناسب این نوشتار کوتاه باشد– اشاره کنیم، می‌توانیم این موارد را بیاوریم:

1. شناخت مشتریان سودآور

با داده کاوی می‌توانید مشتریانی که بیشترین سود شما از آنها حاصل شده را شناسایی کنید و برای حفظ وفاداری مشتری تلاش کنید.

2. بهینه‌سازی سبد محصول

شناخت محصولات پرفروش، محصولات سودآور و محصولات زیان‌ده از دیگر فواید داده کاوی است. با این کار می‌توانید در بهتر کردن سبد محصول خود اقدام کنید.

3. شناخت مشتریان وفادار و قدیمی

می‌توانید بفهمید مشتریان قدیمی شما چه کسانی هستند و با چه برنامه‌ای خرید می‌کنند، چه کالایی را دوست دارند و چه کالایی باعث وفاداری آنها شده است.

4. بررسی طول عمر مشتری

با استفاده از داده کاوی می‌توانید طول عمر مشتری و چرخه آن، میزان سود به دست آمده از هر مشتری در هر مرحله را بررسی کنید.

5. شناسایی رفتار مشتری

اگر شما بتوانید رفتار مشتریان خود را بشناسید و آن را با ویژگی‌های مشتری تطابق دهید، قادر خواهید بود در زمینه بخش‌بندی و قسمت‌بندی بازار موفق عمل کنید.

اگر امروز بتوانید برای یک محصول خود به صورت مستند بخش‌بندی بازار انجام دهید در ادامه نیز در این امر موفق خواهید بود.

6. بررسی عمکلرد یک برنامه بازاریابی

اگر می‌خواهید بدانید یک برنامه بازاریابی و تبلیغاتی که انجام داده‌اید چه اثرات آشکار و پنهانی داشته و برای انتخاب آن در آینده تصمیم بگیرید، بی‌شک داده کاوی بسیار مفید خواهد بود.

7. کشف الگو و روند

با استفاده از داده کاوی و بررسی میزان خرید مشتریان می‌توانید الگوهای فصلی خرید را استخراج کنید، روند کاهش و یا افزایش آن را تحلیل کنید و در صورت نیاز اقدام اصلاحی انجام دهید.

8. پیش‌بینی فروش

با استفاده از اطلاعات گذشته و بهره بردن از الگو و ارتباط میان داده‌ها می‌توانید فروش خود را در آینده پیش‌بینی کنید، روند فصلی فروش را بیابید و برای فروش یک محصول جدید دست به برنامه‌ریزی بزنید.


مقاله نقش { داده کاوی در صنعت پزشکی } را حتما بخوانید

نمونه‌های اجرا شده داده‌کاوی

1. در زمینه صنعت

شرکت فولادسازی پوهانگ (Pohang) کره جنوبی برای صرفه‌جویی در مصرف انرژی در کوره‌های بلند خود از الگوریتم‌های داده‌کاوی استفاده و در حدود 15% از مصرف انرژی خود را کاهش داد.

این موضوع چند فایده داشت: 3/1 میلیون دلار صرفه‌جویی در هزینه‌های شرکت به ارمغان آورد، قیمت محصولات شرکت را کاهش داد، تعداد مشتریان را افزایش داد و به دنبال آن سود شرکت بیشتر شد.

2. در هتل‌داری

یکی از هتل‌های مشهور در لاس‌وگاس آمریکا، برای بالا بردن رضایت مسافران از الگوریتم‌های داده‌کاوی استفاده کرد.

به این صورت که با استفاده از اطلاعات جمع‌آوری شده از مسافران به وسیله پرسشنامه، و آنالیز آن داده‌ها توانست عواملی که باعث می‌شد مسافران دوباره به این هتل باز گردند را پیدا کرده و با طبقه‌بندی آنها، مسافران وفادار به هتل را پیدا کنند.

3. در مدیریت ریسک

در یکی از بانک‌های بزرگ کانادا با استفاده از الگوریتم‌های داده‌کاوی، مدلی را برای داده‌ها ارائه داده و به وسیله نتایج آنالیز آن، مسئله مهم تقلب در حساب‌ها و چگونگی و میزان برگشت وام‌های داده شده توسط بانک را حل نمودند و تصمیمی صحیح را برای مشتری‌های جدید بانک گرفتند.

داده با اطلاعات چه فرقی دارد؟

بسیاری از مردم به اشتباه می‌پندارند که داده (Data) با اطلاعات (Information) تفاوت ندارد و عموماً این دو واژه را به جای هم استفاده می‌کنند.

داده می‌تواند شامل هر نوع کاراکتر از قبیل متن، عدد، کلمه، صدا و تصویر باشد و در صورتی که توسط انسان مشاهده شود لزوماً معنای خاصی هم در بر نخواهد داشت.

داده‌ها اغلب خام، دسته‌بندی و طبقه‌بندی نشده هستند و در صورتی که بخواهیم از آنها به صورت مستقیم استفاده کنیم عموماً بی‌فایده خواهد بود.

حال آنکه پس از طبقه‌بندی، دسته‌بندی و ساختاردهی به داده‌ها، اطلاعات به وجود می‌آید.

می‌توان از داده‌ها برای تصمیم‌گیری و یا ایجاد دانش در مورد یک مقوله استفاده کرد. اطلاعات عموما برای کاربر مفهوم دارد و قابل استفاده است.

جمع‌بندی

هرچه داده‌ی بیشتری از مشتریان کسب کنید، می‌توانید ارزش بیشتری به آنها پیشنهاد کنید؛ در نتیجه درآمد بیشتری به‌ دست می‌آورید.

داده کاوی در بازاریابی همان چیزی است که می‌تواند حکم یک یاری‌کننده را برای شما داشته باشد.

پس اگر شما هم جزء آن کسب‌و‌کارهایی هستید که روی گنجی از داده نشسته‌اید و هیچ‌کاری درباره‌ی آن نمی‌کنید، پیشنهاد می‌دهیم داده‌هایتان را تقسیم‌بندی کنید؛ یا خودتان این کار را انجام دهید یا کسی را استخدام کنید که به داده کاوی در بازاریابی تسلط داشته باشد.


برای درخواست { خدمات داده کاوی } می توانید با شرکت ما در ارتباط باشید

زبان برنامه نویسی پایتون

پایتون (به انگلیسی: Python، US: ‎/ˈpθɑːn/‎) یک زبان برنامه‌نویسی تفسیری، سطح بالا، و همه منظوره است، که خیدو فان روسوم آن را طراحی کرده‌است، و اولین بار در سال ۱۹۹۱ منتشر شده‌است. فلسفه اصلی طراحی پایتون «خوانایی بالای کد» می‌باشد و نویسه‌های فاصله خالی در آن معنادار هستند و مکرر استفاده می‌شوند. ساختار زبانی و دیدگاه شیءگرا در پایتون به گونه‌ای طراحی شده‌است که به برنامه‌نویس امکان نوشتن کد منطقی و واضح (بدون ابهام) را برای پروژه‌های کوچک و بزرگ می‌دهد

زبان برنامه نویسی پایتون

زبان برنامه نویسی پایتون

با پایتون بیشتر آشنا شوید

کلمات کلیدی و اصلی این زبان به صورت حداقلی تهیه شده‌اند و در مقابل کتابخانه‌هایی که در اختیار کاربر است بسیار وسیع هستند.

بر خلاف برخی زبان‌های برنامه‌نویسی رایج دیگر که بلاک‌های کد در آکولاد تعریف می‌شوند (به‌ویژه زبان‌هایی که از نحو زبان سی پیروی می‌کنند) در زبان پایتون از نویسه فاصله و جلو بردن متن برنامه برای مشخص کردن بلاک‌های کد استفاده می‌شود. به این معنی که تعدادی یکسان از نویسه فاصله در ابتدای سطرهای هر بلاک قرار می‌گیرند، و این تعداد در بلاک‌های کد درونی‌تر افزایش می‌یابد. بدین ترتیب بلاک‌های کد به صورت خودکار ظاهری مرتب دارند.

پایتون مدل‌های مختلف برنامه‌نویسی (از جمله شی‌گرا و برنامه‌نویسی دستوری و تابع محور) را پشتیبانی می‌کند و برای مشخص کردن نوع متغیرها از یک سامانهٔ پویا استفاده می‌کند.

این زبان از زبان‌های برنامه‌نویسی مفسر بوده و به صورت کامل یک زبان شیءگرا است که در ویژگی‌ها با زبان‌های تفسیری پرل، روبی، اسکیم، اسمال‌تاک و تی‌سی‌ال مشابهت دارد و از مدیریت خودکار حافظه استفاده می‌کند.

زبان پایتون ۲ رسماً از سال ۲۰۲۰ دیگر پشتیبانی نمی‌شود و پایتون ۲٫۷٫۱۸ آخرین نسخهٔ پایتون ۲٫۷ و همچنین پایتون ۲ است؛ و ازاین به بعد دیگر هیچ وصلهٔ امنیتی ای یا بهبود دیگری در این نسخه داده نخواهد شد. با پایان پشتیبانی از پایتون ۲ فقط پایتون ۳ نسخه‌های بعدی آن پشتیبانی خواهند شد.

پایتون پروژه‌ای آزاد و متن‌باز توسعه‌یافته‌است و توسط بنیاد نرم‌افزار پایتون مدیریت می‌گردد.

درصورتی که تمایل به یادگیری این مبحث هستید میتوانید از طریق دپارتمان آموزش گروه داده کاوی همت اقدام کنید

برای مشاهده مطلب از منبع کلیک کنید..

داده کاوی

در این مقاله قصد داریم شما را با کلیات داده کاوی و همه مفاهیم آن و همچنین کاربرد های آن بیشتر آشنا کنیم

پس اگر از علاقمندان به علم داده کاوی هستید با ما همراه باشید تا با این علم به روز آشنا شوید

داده‌کاوی (به انگلیسی : Data Mining)، به مفهوم استخراج اطلاعات نهان یا الگوها و روابط مشخص در حجم زیادی از داده‌ها در یک یا چند بانک اطلاعاتی بزرگ گفته می‌شود. بسیاری از مردم داده کاوی را مترادف واژه‌های رایج کشف دانش در پایگاه‌داده‌ها (به انگلیسی: knowledge discovery in databases) (اختصاری KDD) می‌دانند. داده‌کاوی، پایگاه‌ها و مجموعه حجیم داده‌ها را در پی کشف و استخراج، مورد تحلیل قرار می‌دهد. این‌گونه مطالعات و کاوش‌ها را به واقع می‌توان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینه‌ها و کاربردها، و نیز ابعاد و اندازه‌های داده‌های امروزین است که شیوه‌های ماشینی مربوط به یادگیری، مدل‌سازی، و آموزش را طلب می‌نماید.

در سال ۱۹۶۰ آماردانان اصطلاح “Data Fishing” یا “Data Dredging”به معنای “صید داده” را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده‌ها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن داده‌ها در پایگاه داده اصطلاح داده کاوی در حدود سال ۱۹۹۰ رواج بیشتری یافت. اصطلاحات دیگری نظیر “Data Archaeology”یا “Information Harvesting” یا “Information Discovery” یا”Knowledge Extraction” نیز بکار رفته‌اند.

بسیاری از شرکت‌ها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیک‌های داده‌کاوی به‌طور تاریخی به گونه‌ای گسترش یافته‌اند که به سادگی می‌توان آن‌ها را بر ابزارهای نرم‌افزاری و … امروزی تطبیق داده و از اطلاعات جمع‌آوری شده بهترین بهره را برد.

در صورتی که سیستم‌های داده‌کاوی بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانک‌های اطلاعاتی بزرگ فراهم باشد، می‌توان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.

 

داده کاوی

داده کاوی

ویژگی‌ها

یکی از ویژگی‌های کلیدی در بسیاری از ابتکارات مربوط به تأمین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار می‌رود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست. داده کاوی غالباً در زمینه تأمین امنیت ملی به منزله ابزاری برای شناسایی فعالیت‌های افراد خرابکار شامل جابه جایی پول و ارتباطات بین آن‌ها و همچنین شناسایی و ردگیری خود آن‌ها با بررسی سوابق مربوط به مهاجرت و مسافرت هاست.

داده کاوی پیشرفت قابل ملاحظه‌ای را در نوع ابزارهای تحلیل موجود نشان می‌دهد اما محدودیت‌هایی نیز دارد. یکی از این محدودیت‌ها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک می‌کند اما اطلاعاتی را دربارهٔ ارزش یا میزان اهمیت آن‌ها به دست نمی‌دهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره‌گیری از کارشناسان فنی و تحلیل گران کار آزموده‌ای است که از توانایی کافی برای طبقه‌بندی تحلیل‌ها و تغییر آن‌ها برخوردار هستند.

بهره‌برداری از داده کاوی در دو بخش دولتی و بخش خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازاریابی آن را عموماً برای کاهش هزینه‌ها، ارتقاء کیفی پژوهش‌ها و بالاتر بردن میزان فروش به کار می‌برند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بوده‌است اما امروزه دامنه بهره‌برداری از آن گسترش روزافزونی یافته و سنجش و بهینه‌سازی برنامه‌ها را نیز در بر می‌گیرد. بررسی برخی از برنامه‌های کاربردی مربوط به داده کاوی که برای تأمین امنیت ملی به کار می‌روند، نشان دهنده رشد قابل ملاحظه‌ای در رابطه با کمیت و دامنه داده‌هایی است که باید تجزیه و تحلیل شوند.

داده کاوی

داده کاوی

توانایی‌های فنی در داده کاوی از اهمیت ویژه‌ای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده‌سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرم‌افزار داده کاوی با بانک‌های اطلاعاتی است که از سوی شرکت‌های متفاوتی عرضه می‌شوند. عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره‌برداری از داده‌ها به منظوری است که در ابتدا با این نیت گرد آوری نشده‌اند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت.

اصولاً به پرسش‌های زیر در زمینه داده کاوی باید پاسخ داده شود:

  • سازمان‌های دولتی تا چه حدی مجاز به بهره‌برداری از داده‌ها هستند؟
  • آیا از داده‌ها در چارچوبی غیر متعارف بهره‌برداری می‌شود؟
  • کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟

کاوش در داده‌ها بخشی بزرگ از سامانه‌های هوشمند است. سامانه‌های هوشمند زیر شاخه‌ای بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی هستند که خود زمینه‌ای در هوش مصنوعی است. فرایند گروه گروه کردن مجموعه‌ای از اشیاء فیزیکی یا مجرد به صورت طبقه‌هایی از اشیاء مشابه هم را خوشه‌بندی می‌نامیم.

با توجه به اندازه‌های گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعه‌های داده‌ها مقیاس‌پذیری الگوریتم‌های به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در داده‌ها است.

کاوش‌های ماشینی در متون حالتی خاص از زمینهٔ عمومی‌تر کاوش در داده‌ها بوده، و به آن دسته از کاوش‌ها اطلاق می‌شود که در آن‌ها داده‌های مورد مطالعه از جنس متون نوشته شده به زبان‌های طبیعی انسانی باشد.

چیستی

داده کاوی به بهره‌گیری از ابزارهای تجزیه و تحلیل داده‌ها به منظور کشف الگوها و روابط معتبری که تاکنون ناشناخته بوده‌اند اطلاق می‌شود. این ابزارها ممکن است مدل‌های آماری، الگوریتم‌های ریاضی و روش‌های یاد گیرنده (Machine Learning Methods) باشند که کار این خود را به صورت خودکار و بر اساس تجربه‌ای که از طریق شبکه‌های عصبی (Neural Networks) یا درخت‌های تصمیم‌گیری (Decision Trees) به دست می‌آورند بهبود می‌بخشد. داده کاوی منحصر به گردآوری و مدیریت داده‌ها نبوده و تجزیه و تحلیل اطلاعات و پیش‌بینی را نیز شامل می‌شود برنامه‌های کاربردی که با بررسی فایل‌های متن یا چند رسانه‌ای به کاوش داده‌ها می‌پردازند پارامترهای گوناگونی را در نظر می‌گیرد که عبارت اند از:

  • قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط می‌شود مثلاً خرید قلم به خرید کاغذ.
  • ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص می‌کند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
  • پیش‌بینی(Prediction): در پیش‌بینی هدف پیش‌بینی یک متغیر پیوسته می‌باشد. مانند پیش‌بینی نرخ ارز یا هزینه‌های درمانی.
  • رده‌بندی یا طبقه‌بندی (Classification): فرایندی برای پیدا کردن مدلی است که رده‌های موجود در داده‌ها را تعریف می‌نماید و متمایز می‌کند، با این هدف که بتوان از این مدل برای پیش‌بینی رده رکوردهایی که برچسب رده آن‌ها (متغیر هدف) ناشناخته می‌باشد، استفاده نمود. در حقیقت در رده‌بندی بر خلاف پیش‌بینی، هدف پیش‌بینی مقدار یک متغیر گسسته‌است. روش‌های مورد استفاده در پیش‌بینی و رده‌بندی عموماً یکسان هستند.
  • خوشه‌بندی (Clustering): گروه‌بندی مجموعه‌ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه‌های دیگر داشته باشند.
  • مصورسازی (visualization): مصورسازی داده‌ها یکی از قدرتمندترین و جذابترین روش‌های اکتشاف در داده‌ها می‌باشد

برنامه‌های کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار می‌روند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانک‌های اطلاعاتی یافت می‌شود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامه‌های مربوط به داده کاوی در عین برخورداری از این قابلیت‌ها از نظر نوع با آن‌ها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل داده‌ها روشی بر پایه راستی آزمایی (verification) را به کار می‌برند که در آن فرضیه‌ای بسط داده شده آنگاه داده‌ها برای تأیید یا رد آن بررسی می‌شوند. به‌طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارائه فرضیه‌های متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روش‌هایی برای کشف روابط بکار برده می‌شوند و به کمک الگوریتم‌هایی روابط چند بعدی بین داده‌ها تشخیص داده شده و آن‌هایی که یکتا (unique) یا رایج هستند شناسایی می‌شوند. به‌طور مثال در یک فروشگاه سخت‌افزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آن‌ها با فروشگاه رابطه‌ای برقرار شود.

در نتیجه قابلیت‌های پیچیده‌اش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحله‌ای در روند کشف دانش در پایگاه داده‌ها می‌دانند (KDD). مراحل دیگری در روند KDD به صورت تصاعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش می‌باشد. بسیاری از پیشرفت‌ها در تکنولوژی و فرایندهای تجاری بر رشد علاقه‌مندی به داده کاوی در بخش‌های خصوصی و عمومی سهمی داشته‌اند. بعضی از این تغییرات شامل:

  • رشد شبکه‌های کامپیوتری که در ارتباط برقرار کردن پایگاه‌ها داده مورد استفاده قرار می‌گیرند.
  • توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکه‌های عصبی و الگوریتم‌های پیشرفته.
  • گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع داده‌های متمرکز شده را از روی دسک تاپ می‌دهد.
  • و افزایش توانایی به تلفیق داده از منابع غیر متجانس به یک منبع قابل جستجو می‌باشد.

علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا می‌کند. در طول چند سال گذشته افزایش سریع جمع‌آوری و نگهداری حجم اطلاعات وجود داشته‌است. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت داده‌های دنیا به‌طور تخمینی هر ساله دوبرابر می‌گردد. در همین زمان هزینه ذخیره‌سازی داده‌ها به‌طور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کرده‌است. مطابقاً قدرت محاسبه‌ها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کرده‌است این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاوی به‌طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کرده‌است. سازمان‌ها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده می‌کنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده‌سازی و پیامد اشتباه را هم دارد. این‌ها شامل نگرانی‌هایی در مورد کیفیت داده‌ای که تحلیل می‌گردد، توانایی کار گروهی پایگاه‌های داده و نرم‌افزارها بین ارگان‌ها و تخطی‌های بالقوه به حریم شخصی می‌باشد. همچنین ملاحظاتی در مورد محدودیت‌هایی در داده کاوی در ارگان‌ها که کارشان تأثیر بر امنیت دارد، نادیده گرفته می‌شود.

 

مفهوم مدیریت ذخیره سازی و دستیابی اطلاعات

داده‌های اطلاعاتی به عنوان یکی از منابع حیاتی سازمان شناخته می‌شود و بسیاری از سازمان‌ها با اطلاعات و دانش سازمانی خود مانند سایر دارایی‌های ارزشمندشان برخورد می‌کنند .

نکته: داده اطلاعاتی به اطلاعات خام سازمان اطلاق می‌شود و اطلاعات به داده‌های پردازش شده. همچنین داده‌های پردازش شده پس از طبقه‌بندی و آنالیز به دانش سازمان تبدیل می‌گردند.

حال تصور نمایید، دسترسی به اطلاعات در شرایطی که داده‌ها به روش نامناسبی نگهداری شوند و یا روش ضابطه مندی جهت دستیابی به آن‌ها وجود نداشته باشد تا چه حد مشکل است . برای رسیدن به یک سیستم اطلاعاتی مناسب، داده‌ها می‌بایست به صورتی منطقی طبقه‌بندی و ذخیره شوند تا استفاده از آن‌ها ساده‌تر بوده، با کارایی بیشتری تحلیل شوند و سریعتر مورد استفاده قرار گیرند و در نتیجه مدیریت بهتری بر آن‌ها اعمال شود.

ساختار بانک اطلاعاتی سازمان

داده‌های سازمان‌ها در انواع بانک‌های اطلاعاتی و با ساختارهای متنوعی ذخیره می‌گردند . طراحی و سازماندهی این ساختارها، بکارگیری و انتقال به بانک‌های اطلاعاتی پیشرفته و بهینه سازی آن‌ها یکی خدماتی است که توسط واحدهای فناوری اطلاعات ارائه می‌شود .

محدودیت‌های داده‌کاوی

در حالیکه محصولات داده کاوی ابزارهای قدرتمندی می‌باشند، اما در نوع کاربردی کافی نیستند. برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفه‌ای و متخصصان ماهری می‌باشد که بتوانند ترکیب خروجی به وجود آمده را تحلیل و تفسیر نمایند. در نتیجه محدودیت‌های داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.

اگرچه {داده کاوی} به الگوهای مشخص و روابط آن‌ها کمک می‌کند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمی‌کند. تصمیماتی از این قبیل بر عهده خود کاربر است. برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود. با اینهمه در حالیکه ممکن است اطلاعات شخص به‌طور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به‌طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.

تشخیص رابطه بین رفتارها یا متغیرها یکی دیگر از محدودیت‌های داده کاوی می‌باشد که لزوماً روابط اتفاقی را تشخیص نمی‌دهد. برای مثال برنامه‌های کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد. در حقیقت رفتارهای شخصی شامل شغل (نیاز به سفر در زمانی محدود) وضع خانوادگی (نیاز به مراقبت پزشکی برای مریض) یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکان‌های جدید) ممکن است بر روی متغیرهای اضافه تأثیر بگذارد.

کاربردهای داده‌کاوی در علوم رایانه

در علم رایانه از داده‌کاوی برای کشف الگوی میان داده‌ها استفاده می‌شود، معمولاً داده‌های خام و معمولاً بی‌معنا وارد سیستم شده و پس از پردازش‌های مورد نیاز نتایج حاصل از داده که آن‌ها را اطلاعات می‌نامند، استخراج می‌گردد کاربردهای عمومی داده‌کاوی در علم کامپیوتر عبارتند از:

  • کشف الگوی میان داده‌ها
  • پیش‌بینی حدودی نتایج
  • به‌دست آوردن اطلاعات کاربردی
  • تمرکز بر روی داده‌های بزرگ

کاربردهای داده‌کاوی در رشته مهندسی صنایع

در مهندسی صنایع از داده‌کاوی در حوزه‌های مدیریت ارتباط با مشتری ، نگهداری و تعمیرات پیشگیرانه ، مدیریت زنجیره تأمین ، برنامه‌ریزی تولید ، کنترل کیفیت ، مدیریت پروژه ، ایمنی، بهداشت و محیط زیست  استفاده می‌شود. زبان رایج در استفاده از دیتا ماینینگ و تحلیل داده‌ها نرم افزار می‌باشد، اما به تازگی نرم افزار Rapidminer نیز با توجه به امکانات زیادش مورد توجه قرار گرفته‌است.

کاربردهای داده کاوی در کتابخانه ها

 

داده کاوی در ابتدا از حوزه تجارت برخاست اما کاربردهای آن در سایر حوزه هائی که به گردآوری حجم وسیعی از داده هائی می پردازند که دستخوش تغییرات پویا نیز می‌گردند؛ مفید شناخته شد. بخش‌هایی مثل بانکداری، تجارت الکترونیک، تجارت سهام، بیمارستان و هتل از این نمونه‌اند.

انتظار میرود که استفاده از داده کاوی در بخش آموزش به‌طور عام امکان‌های جدید بسیاری ارائه دهد. برخی کاربردهای داده کاوی در کتابخانه‌ها و قسمت اداری آموزش در ذیل مورد بحث قرار گرفته‌اند.

عملیات کتابداری به‌طور کلی شامل مدیریت مدارک، ارائه خدمات و امور اداره و نگهداری است. هر کدام از این کارکردها با انواع مختلفی از داده‌ها سروکار دارد و به‌طور جداگانه پردازش می‌شود. اگرچه، انجام تحلیل ترکیبی بر این مجموعه‌های داده  نیز می‌تواند افق تازه ای را بگشاید که به طرح خدمات جدید و تحول رویه‌ها و عملیات جاری کمک نماید. جدول یک برخی از کاربردهای ممکن داده کاوی را که می‌تواند در کتابداری مفید باشد ارائه می‌کند.

ابزارهای داده‌کاوی

معروف‌ترین ابزارهای داده‌کاوی برای انجام پروژه‌های داده کاوی به ترتیب پرطرفدار بودن

  1. آر (زبان برنامه‌نویسی)
  2. پایتون (زبان برنامه‌نویسی)
  3. رپیدماینر
  4. Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده می‌شود.
  5. نرم‌افزار وکا
  6. متلب

نرم‌افزار

برنامه‌های کاربردی و نرم‌افزارهای داده کاوی متن-باز رایگان

  • Carrot2: پلتفرمی برای خوشه بندی متن و نتایج جستجو
  • Chemicalize.org: یک کاوشگر ساختمان شیمیایی و موتور جستجوی وب
  • ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشه‌ای پیشرفته و روش‌های تشخیص داده‌های خارج از محدوده که به زبان جاوا نوشته شده‌است.
  • GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.

برنامه‌های کاربردی و نرم‌افزارهای داده کاوی تجاری

  • Angoss KnowledgeSTUDIO: ابزار داده کاوی تولید شده توسط Angoss.
  • BIRT Analytics: ابزار داده کاوی بصری و تحلیل پیش‌بینی گر تولید شده توسط Actuate Corporation.
  • Clarabridge: راه حل تحلیلگر کلاس متن.
  • (E-NI(e-mining, e-monitor: ابزار داده کاوی مبتنی بر الگوهای موقتی.
  • IBM SPSS Modeler: نرم‌افزار داده کاوی تولید شده توسط IBM
  • Microsoft Analysis Services: نرم‌افزار داده کاوی تولید شده توسط مایکروسافت
  • Oracle Data Mining: نرم‌افزار داده کاوی تولید شده توسط شرکت اوراکل
  • نرم افزار وکا

بررسی اجمالی بازار نرم‌افزارهای داده کاوی

تا کنون چندین محقق و سازمان بررسی‌هایی را بر روی ابزارهای داده کاوی و راهنماییهایی برای داده کاوها تهیه دیده‌اند. این بررسی‌ها بعضی از نقاط ضعف و قوت بسته‌های نرم‌افزاری را مشخص می‌کنند. همچنین خلاصه‌ای را از رفتارها، اولویت‌ها و دیدهای داده کاوها تهیه کرده‌اند. بعضی از این گزارش‌ها را در زیر می‌توانید مشاهده نمایید:

  • گزارش: 2011 Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery
  • Annual Rexer Analytics Data Miner Surveys تاریخ(2007–2011)

داده کاوی از جمله علم های روزی است که کاربردهای فرآوانی دارد که به بخشی از این کاربرها برای شما عزیزان پرداختیم

با سری مقالات داده کاوی گروه همت همراه باشید


مقاله به نقل از { ویکی پدیا }