خانه  :: اساتید  :: اخبار

علم داده
.



علم داده چیست؟

علم داده یا دیتا ساینس (Data Science)، به مطالعه داده ها برای استخراج دانش و آگاهی برای کسب و کارها گفته می شود. به افراد فعال در حوزه علم داده Data Scientist گفته می شود که در فارسی با عبارات دانشمند داده، متخصص علم داده یا داده شناس ذکر می شود.

علم داده، یک رویکرد چندرشته ای است که از ترکیبی از اصول و روش های موجود در رشته های متنوعی همچون ریاضیات، آمار، هوش مصنوعی و مهندسی کامپیوتر، برای تحلیل مقادیر بزرگی از داده بهره می گیرد. این تحلیل به دانشمندان داده کمک می کند که سوالاتی را مطرح کرده و آن ها را پاسخ دهند، سوالاتی همچون:

  • چه اتفاقی افتاد؟
  • چرا این اتفاق افتاد؟
  • چه اتفاقی خواهد افتاد؟
  • و با این نتایج، می توان چه کرد؟

 

چرا علم داده مهم است؟

علم داده به این دلیل مهم است که ابزارها، روش ها و تکنولوژی را با هم ترکیب می کند تا از داده ها، معنایی بیرون بکشد. سازمان ها و شرکت های امروزی، غرق در داده ها هستند. تعداد بسیار زیادی دستگاه وجود دارد که می توانند به شکل اتوماتیک، اطلاعات را جمع آوری و نگهداری کنند.

امروزه سیستم های آنلاین و درگاه های پرداخت، داده های بیشتری را در حوزه های تجارت الکترونیک (e-commerce)، درمان و دارو، مالی و تمام جنبه های زندگی انسان، جمع آوری می کنند. ما به حجم بسیار گسترده ای از داده ها در فرمت های متنی، صوتی، تصویری و ویدیویی دسترسی داریم.

 

تاریخچه علم داده

عبارت «علم داده» عبارت جدیدی نیست اما معنا و مفهوم آن با گذر زمان، تغییر کرده است. اصطلاح علم داده، اولین بار در دهه 1960 میلادی به عنوان نامی متفاوت برای علم آمار مطرح شد.

در اواخر دهه 1990 میلادی، متخصصان علم کامپیوتر، این اصطلاح علم داده را به شکلی رسمی تعریف کردند. تعریفی که آن زمان برای علم داده ها مطرح شد، این حوزه را به عنوان رشته ای جداگانه با سه جنبه تعریف کرد:

طراحی، جمع آوری و تحلیل داده ها.

همچنان تا یک دهه بعد، این اصطلاح فقط در فضای آکادمیک و دانشگاهی کاربرد داشت.

 

آینده علم داده

نوآوری ها در زمینه هوش مصنوعی و یادگیری ماشین، باعث شده که پردازش داده ها سریع تر و با بهره وری بیشتری انجام شود. نیاز و تقاضای بخش صنعتی، اکوسیستمی کامل از دوره های آموزشی، مدارک تحصیلی و سِمت های شغلی را در رشته علم داده ایجاد کرده است.

به دلیل اینکه علم داده نیازمند مجموعه مهارت هایی است که چندکاربردی هستند و همچنین به تخصص نیاز دارد، تخمین زده می شود که در دهه های آینده، حوزه علم داده به شکل قابل توجهی رشد کند.

 

فرآیند علم داده چیست؟

معمولا یک مشکل در کسب و کارها است که باعث می شود فرآیند علم داده شروع شودیک دانشمند داده همکاری نزدیکی با سهامداران کسب و کار دارد تا متوجه شود که یک کسب و کار به چه چیزی نیاز دارد. وقتی که این مشکل تعریف شد، دانشمند داده می تواند آن را از طریق فرآیند علم داده OSEMN حل کند:

 

O – به دست آوردن داده ها

داده ممکن است از پیش وجود داشته باشد، به تازگی به دست آمده باشد یا یک ظرف داده ای (data repository) قابل دانلود از اینترنت باشد. دانشمندان داده می توانند داده ها را از دیتابیس های اینترنال یا اکسترنال، نرم افزار مدیریت ارتباط با مشتری سازمانی و شرکتی (CRM)، لاگ های وب سرور یا شبکه های اجتماعی استخراج کنند یا اینکه داده ها را از منابع سوم شخص معتبر خریداری کنند.

 

S – پاک سازی داده ها

پاک سازی داده یا دیتا اسکرابینگ (data scrubbing)، فرآیندِ استانداردسازی داده ها، بر اساس یک فرمت از پیش تعیین شده است. این فرآیند شامل کارهایی همچون مدیریت داده های ناقص، تصحیح خطاهای داده ها و حذف داده های پرت و نامربوط می شود. چند مثال از پاک سازی داده:

  • تغییر تمام مقادیر تاریخ به یک فرمت استاندارد رایج
  • تصحیح اشتباهات تایپی و املایی و حذف فاصله های اضافه (spaceهای اضافه)
  • تصحیح خطاهای ریاضی یا حذف ویرگول و کاما (,) در اعداد بزرگ

 

E – کاوش داده ها

کاوش داده ها، یک تحلیل داده مقدماتی است که برای برنامه ریزی های بعدی استراتژی های مدلسازی داده مورد استفاده قرار می گیرد. دانشمندان داده با استفاده از آمار توصیفی و ابزارهای مصورسازی داده، یک درک اولیه از داده های مورد نظر پیدا می کنند. سپس داده را کاوش می کنند تا الگوهای جالب توجهی را شناسایی کنند که می توان آن ها را مورد مطالعه قرار داد یا به کار گرفت.

 

M – مدل کردن داده ها

نرم افزارها و الگوریتم های یادگیری ماشین برای به دست آوردن دانش و آگاهی عمیق تر، پیش بینی نتایج و برآیندها و همچنین تجویز کردن بهترین راهکارها مورد استفاده قرار می گیرد.

برخی تکنیک های یادگیری ماشین مثل همبستگی، طبقه بندی و خوشه بندی به مجموعه داده ای مورد آموزش اعمال می شود. این مدل ممکن است برای ارزیابی دقت نتایج، با یک مجموعه داده آزمایشی از پیش تعیین شده، تست شود. برای بهبود برآیندها و نتایج، می توان مدل داده را بارها و بارها به شکل دقیق تنظیم کرد.

 

N – تفسیر نتایج

دانشمندان داده با تحلیلگران و کسب و کارها همکاری می کنند تا دانش و آگاهی داده ها را به عمل تبدیل کنند. این متخصصان داده، نمودارها و گراف ها و نگاره هایی را تولید می کنند که روندها و پیش بینی ها را نشان می دهند. خلاصه کردن داده ها به سهامداران کمک می کند که به شکل موثر، نتایج را درک و پیاده سازی کنند.

 

کاربردهای علم داده چیست؟

علم داده برای مطالعه داده ها، به 4 روش مورد استفاده قرار می گیرد:

 

1- تحلیل توصیفی (descriptive analysis)

تحلیل توصیفی، داده ها را بررسی می کند تا در مورد آنچه که در محیط داده ای اتفاق می افتد یا اتفاق خواهد افتاد، دانش و آگاهی کسب کند. از ویژگی های بارز این نوع تحلیل، مصورسازی هایی مثل:

✔️ نمودار دایره ای،

✔️ نمودار میله ای،

✔️ گراف های خطی،

✔️ جدول ها و

✔️ روایت تولیدی (generated narrative)

می باشد.

به طور مثال، یک شرکت ارائه دهنده خدمات رزرو بلیت هواپیما مثل علی بابا، ممکن است داده هایی مثل تعداد بلیت های رزرو شده در هر روز را ثبت و نگهداری کند. تحلیل توصیفی کمک می کند که زمان اوج رزرو بلیت، زمان رکود رزرو و ماه هایی که این مجموعه بهترین عملکرد را دارد، مشخص شود.

 

2- تحلیل تشخیصی (diagnostic analysis)

تحلیل تشخیصی، به معنی ارزیابی و بررسی عمیق و مفصل برای درک کردن دلیل رخ دادن یک اتفاق استاین نوع تحلیل، شامل تکنیک هایی همچون:

✔️ واکاوی دقیق (drill-down)

✔️ کشف داده ها (data discovery)،

✔️ داده کاوی (data mining) و

✔️ بررسی همبستگی و وابستگی (correlations)

می شود.

چندین تحول و عملیات مختلف داده ای، روی یک مجموعه داده (دیتا سِت) انجام می شود تا الگوهای منحصر به فرد در هر یک از این تکنیک ها کشف شود.

به طور مثال، این شرکت خدمات رزرو بلیت پرواز، می تواند واکاوی دقیق روی ماهی انجام دهد که فروش موفقی داشته اند تا بهتر دلیل این اوج گیری رزرو بلیت را متوجه شوند. این تحلیل، می تواند منجر به این کشف شود که مشتریان زیادی، برای حضور در یک رویداد ورزشی ماهانه، به یک شهر خاص سفر می کنند.

3- تحلیل پیش بینی کننده (predictive analysis)

تحلیل پیش بینی کننده، از داده های تاریخی و پیشین برای انجام پیش بینی های دقیق در مورد الگوهای داده ای که ممکن است در آینده رخ بدهد، استفاده می کند. از ویژگی های این نوع تحلیل، تکنیک هایی همچون:

✔️ یادگیری ماشین،

✔️ پیش نگری (forecasting)،

✔️ تطبیق الگو (pattern matching)

✔️ مدل سازی پیش بینی کننده (predictive modeling)

هستند.

در هر یک از این تکنیک ها، کامپیوترها یاد می گیرند که ارتباطات علیت موجود در داده ها را مهندسی معکوس کنند. به طور مثال آن شرکت خدمات رزرو بلیت پرواز که در مورد آن صحبت کردیم، ممکن است در ابتدای سال، از علم داده ها برای پیش بینی الگوهای رزرو بلیت برای سال جاری استفاده کند.

این برنامه کامپیوتری یا الگوریتم، می تواند داده های پیشین را بررسی کند و زمان اوج رزرو بلیت را برای مقصدهای خاصی در ماه خاصی پیش بینی کند. بعد از این تحلیل، حالا این شرکت نیازمندی های پرواز مشتریان بالقوه خود را پیش بینی کرده است، در نتیجه می تواند از ماه بعد، تبلیغات هدفمند را برای این شهرها شروع کند، به همین سادگی!

4- تحلیل تجویزی (prescriptive analysis)

تحلیل تجویزی، یک مرحله پیشرفته تر از داده پیش بینی کننده است. این نوع تحلیل، نه تنها پیش بینی می کند که احتمالا چه اتفاقی رخ خواهد داد، بلکه واکنشی بهینه را برای این اتفاق احتمالی ارائه خواهد کرد.

این تحلیل، می تواند پیامدهای احتمالیِ انتخاب های مختلف را تحلیل کند و بهترین راهکارها را توصیه کند. تحلیل تجویزی از:

✔️ تحلیل گراف،

✔️ شبیه سازی،

✔️ پردازش پیچیده رویداد،

✔️ شبکه های عصبی و

✔️ موتورهای توصیه گرِ یادگیری ماشین

استفاده می کند.

به همان مثال رزرو بلیت هواپیما برگردیم، تحلیل تجویزی در این مثال می تواند کمپین های بازاریابی پیشین را برای بیشینه کردن مزایای دوره اوج رزرو بلیت (که در آینده است) بررسی کند.

یک دانشمند داده، می تواند تخمین بزند که بر اساس میزان بازاریابی و سطح هزینه انجام شده روی کانال های مختلف بازاریابی، نتیجه به دست آمده از نظر تعداد رزرو بلیت به چه شکلی خواهد بود.

این پیش بینی داده ای، باعث می شود که این شرکت خدمات رزرو بلیت پرواز، بتواند در تصمیم گیری های بازاریابی خود، با اعتماد به نفس بیشتری عمل کند.

مبانی تکنیک های علم داده

جزییات متفاوت است، اما اصول و مبانی این تکنیک ها عبارتند از:

به یک ماشین آموزش دهید که چطور داده ها را بر اساس یک دیتا ست مشخص (آشکار)، مرتب کند. به طور مثال، کلیدواژه های نمونه با مقدار مرتب کردن، به کامپیوتر ارائه می شود. مثلا «خوشحال» مثبت است اما «نفرت» منفی است.

حالا، داده های نامشخص و ناشناخته را به ماشین بدهید و اجازه بدهید که ماشین، به شکل مستقل دیتاست را مرتب کند.

اجازه دهید که عدم صحت و اشتباهات در نتایج وجود داشته باشد و عامل احتمال نتیجه را مدیریت کنید.

 

تکنیک های مورد استفاده در علم داده چیست؟

متخصصان علم داده از سیستم های کامپیوتری برای پیش بردن فرآیندِ علم داده استفاده می کنند. برترین تکنیک های مورد استفاده توسط دانشمندان داده عبارتند از:

 

✔️طبقه بندی (Classification)

طبقه بندی، مرتب سازی داده ها در گروه ها یا دسته هایی مشخص است. کامپیوترها آموزش دیده اند که داده ها را شناسایی و مرتب کنند. دیتاست های شناخته شده برای ایجاد الگوریتم های تصمیم در یک کامپیوتر مورد استفاده قرار می گیرند که به سرعت، داده ها را پردازش و دسته بندی می کند. به طور مثال:

  • مرتب کردن محصولات در دو دسته محبوب و نامحبوب
  • مرتب کردن درخواست های بیمه در دو دسته با ریسک بالا و ریسک پایین
  • مرتب کردن نظرات در شبکه های اجتماعی در دسته های مثبت، منفی یا خنثی.

متخصصان علم داده از سیستم های کامپیوتری برای پیش بردن فرآیند علم داده استفاده می کنند.

 

✔️رگرسیون (Regression)

رگرسیون، روشی برای یافتن ارتباط بین دو نقطه داده ای (دیتاپوینت) است که ظاهرا با هم ارتباطی ندارند. این ارتباط، معمولا بر اساس یک فرمول ریاضی مدلسازی می شود و با یک گراف یا منحنی نمایش داده می شود. وقتی که مقدار یک نقطه داده ای مشخص است، رگرسیون برای پیش بینی نقطه داده دیگر استفاده می شود. به طور مثال:

  • نرخ شیوع بیماری های هوابُرد (قابل شیوع از طریق هوا)
  • رابطه بین رضایتمندی مشتری و تعداد کارمندان
  • رابطه بین تعداد ایستگاه های آتش نشانی و تعداد جراحات ناشی از آتش در یک منطقه خاص

 

✔️خوشه بندی (Clustering)

خوشه بندی، روشی از گروه بندی داده هایی است که به شکل نزدیک بهم مرتبط هستند، برای یافتن الگوها و ناهنجاری ها (آنامولی ها). خوشه بندی با مرتب کردن (sorting) متفاوت است، چون داده ها را نمی توان به شکل دقیق در دسته هایی ثابت، طبقه بندی کرد. در عوض داده ها در گروه هایی قرار می گیرند که احتمال ارتباط بین آن ها بیشترین است. روابط و الگوهای جدید را می توان با خوشه بندی کشف کرد. به طور مثال:

  • گروه بندی مشتریانی که رفتار خرید مشابهی دارند، با هدف بهبود خدمات مشتریان
  • گروه بندی ترافیک شبکه برای شناسایی الگوهای استفاده روزمره و شناسایی سریع تر حمله شبکه
  • خوشه بندی مقالات در چندین دسته بندی متفاوت جدید و استفاده از این اطلاعات برای یافتن محتوای خبری جعلی و ساختگی

گرد آورنده : معصومه شکیب فر

 

 


ارسال شده در مورخه: 27-05-1403

آخرين اخبار با موضوع: آمار

علم داده

. (27-05-1403)

   

پربازدیدترین مطلب در زمینه:
آمار

علم داده