یکی از شغلهایی که بهواسطه گسترش اینترنت ایجادشده، دانشمند دادهها یا دیتا ساینتیست (Data Scientist) است. امروزه شرکتها در دنیا دادههای بسیار زیادی از کاربران خود دارند که دوست دارند از آنها استفاده کنند تا خدمات بهتری به مشتری بدهند و سود بیشتری هم بکنند.
در این میان دیتا ساینتیستها افرادی هستند که میتوانند از لابهلای این حجم از دادهها متنوع، تصاویر دقیق و عمیق درباره فاکتورها مختلف از رفتارهای مشتری بگیر تا شرایط آینده استخراج کنند. به همین دلیل هم دیتا ساینتیست در حال تبدیل به شغلی بسیار مهم است. شغلی که البته درآمد خوبی هم دارد.
اما چگونه میتوانیم یک دیتا ساینتیست شویم و چه مهارتهایی برای آن لازم است. با ما همراه باشید.
دیتا ساینتیست، قهرمان عصر داده.
عصر ما عصر دادهها و اقتصاد دادهها است. در حال حاضر روزانه ۲.۵ میلیون ترابایت داده در اینترنت تولید میشود. همه اینها یا دادههای کاربرانی هستند که صرفا مصرفکننده اطلاعات هستند یا اینکه دادههای هستند که تولیدکنندگان در سایتهای گوناگون اینترنتی بارگذاری میکنند.
۲.۵ میلیون ترابایت داده عدد بسیار بزرگی است؛ یعنی شما برای ذخیرهسازی دادههایی که هر روز در اینترنت تولید میشود ۲.۵ میلیون هارد یک ترابایت لازم دارید.
بخشی از این دادهها، دادههایی هستند که شرکتها از کاربران جمع میکنند و کاربران خواسته یا ناخواسته در اختیار شرکتها قرار میدهد، دادههایی مثل جنسیت، سابقه خرید اینترنتی، سابقه جستجو، موقعیت مکانی و سابقه وبسایتهای بازدید شده. این دادهها ساختار (structured) دارند و خواندنشان راحت است.
بقیه دادهها مثل پستهای وبلاگ، فیلم، عکس و کامنت دادههای بدونساختار (Unstructured) نام دارند.
این دادهها هم حجمشان زیاد است (Volume)، هم تنوع زیادی دارند (Variety) و هم با سرعت بسیار بیشتری در قیاس با دادههای بدون ساختار مثل عکس و ویدئو تولید میشوند (Velocity). سه فاکتور حجم، سرعت و تنوع چیزهایی هستند که حوزه بیگ دیتا (Big Data) را تعریف میکنند.
نکته اینجاست که مدیریت و ذخیرهسازی این حجم از دادههای ساختاردار چالش بسیار بزرگی است. چالشی که بیگ دیتا و فناوریهای آن سعی در حل آن دارند.
استخدام دیتا ساینتیست.
فناوریهای بیگ دیتا به دو حوزه قابلتقسیم هستند. حوزه ذخیرهسازی و مدیریت دادهها و حوزه پردازش و تحلیل آنها. مشخص است که برای مدیریت این حجم از دادهها با ابزارهای بیگ دیتا یا باید کسی را استخدام کنیم یا مسئولیت نگهداری آن را به شرکتهای دیگر بدهیم.
وقتی شما حجم عظیمی از دادههای ساختاردار دارید، بیشتر آن چیزی شبیه فایلهای اکسل هستند که شاید هزاران یا میلیونها داده در خود دارند. ما برای اینکه بتوانیم واقعا از این دادههای استفاده کنیم و مثلا بفهمیم که بر اساس آنها چگونه استراتژیهای بازاریابی را تغییر دهیم، نیازمند این هستیم که این دادهها تحلیل کنیم و از آنها سر دربیاوریم.
تحلیل کردن این حجم از دادهها و فهمیدن اینکه چگونه از آن نتیجهای بگیریم، کار هر کسی نیست. استفاده از این دادههای نیازمند دانش دادههاست و کسی که این دانش را دارد و میتواند این دادهها را تحلیل کند، دانشمند دادهها یا دیتا ساینتیست است.
دیتا ساینتیست کسی است که مهارتهای متنوعی در حوزه نرمافزارها، برنامهنویسی در زبانهای گوناگون، هوش مصنوعی، مدیریت دادهها و دانش زیادی از بازارها، رفتارهای کاربران روانشناسی آنها دارد و میتواند با تحلیل دادهها، تصاویر دقیقی از آنچه لازم است، ارائه دهد.
او میتواند دادهها را مصورسازی کند و از آنها نمودارها و اینفوگراف تهیه کند و یا الگوهایی از دادهها بیابد که احتمالا پیش از آن قابلتصور نبود.
تفاوت دیتا ساینتیست و متخصص آمار.
در ضمن دیتا ساینتیستها متفاوت از متخصصین آمار هستند. با اینکه دیتا ساینتیست و متخصص آمار اهداف و مهارتهای مشترکی دارند و هر دو از دادههای حجیم استفاده میکنند، اما کار این دو متفاوت است. دانش دادهها یا دیتا ساینس (Data Science) حوزه جدیدی است که عمیقا بر استفاده از کامپیوتر و فناوری متکی است.
دانش دادهها یا دیتا ساینس (Data Science) حوزه جدیدی است که عمیقا بر استفاده از کامپیوتر و فناوری متکی است.
دیتا ساینتیست با اتصال به پایگاههای داده عظیم، دادهها را دریافت میکند، با برنامههای کامپیوتری که مینویسد آنها را تحلیل میکند و میتواند نمودارها و تصاویر قابلدرکی را از آنها تولید کند.
اما متخصصین آمار در تلاش هستند از نظریههای تایید شده برای تحلیل دادههای استفاده کنند و کارشان بیشتر بررسی فرضیهها است. رشته آمار رشتهای است که در صدسال گذشته چندان تغییر نکرده است و به همین دلیل همهچیز آن مشخص و معین هستند اما دانش دادهها پس از کامپیوترها و بهطور خاص در چند سال گذشته توسعهیافته است.
دیتا ساینتیست کارمندی پردرآمد.
ازآنجاییکه اهمیت دادهها هر روز در دنیا ما بیشتر میشود، چندین سال است که شرکتها دیتا ساینتیست استخدام میکنند. این شغل در حال حاضر یکی از پردرآمدترین شغلهای دنیاست.
برخی از شرکتهای ایرانی نیز در سالهای اخیر شروع به استخدام دیتا ساینتیست کردهاند اما با توجه به درصد بالای بیکاری در ایران، صرفا فارغالتحصیلان دکترا میتوانند در این شغلهای استخدام شوند.
زیرا مثل دیگر شغلهای بازار کار آیتی در ایران، شرکتها در این حوزه هم دوست دارند یک نوبل فیزیک را با حقوق ۳ میلیون تومان استخدام کنند. یکی از دلایلی که بسیاری شرکتهای ایرانی هنوز به استخدام دیتا ساینتیست اقدامی نمیکنند، این است که دادههای آنها کم است.
این شرکتها یا دادههای چندانی از کاربران ندارند زیرا در بهترین سیستمهای روابط عمومی ضعیف یا وبسایتهایی صرفا با ظاهر خوب دارند (البته اگر خوشبین باشیم!) و ابزارهایی برای جمعآوری دادهها ندارند و در بدترین حالت کلا اقدامی برای جمعآوری چنین دادههایی نکردهاند.
همچنین به دلیل نبود و یا محدودیت شدید ارتباط مالی با دنیا، این امکان که شرکتهای ایرانی بتوانند از گوگل داده دریافت کنند سخت است. به همین دلیل هم ممکن است داده چندانی نداشته باشند که بخواهند دیتا ساینتیست استخدام کنند.
اما همه اینها در حال تغییر است. ما در دهه و شاید قرن اطلاعات زندگی میکنیم که بیگ دیتا یکی از مهمترین ترندها و مگاترندهای آن است. به همین دلیل دیر یا زود، شرکتهای ایرانی هم دیتا ساینتیست نیاز خواهند داشت.
مطمئن هم باشید که اگر شما دیتا ساینتیست باشید، شغل خوبی با درآمد بالا خواهید داشت. به همین دلیل شاید بد نباشد بدانید چگونه میتوان دیتا ساینتیست شد.
چگونه میتوان دیتا ساینتیست شد؟
برای اینکه شما دیتا ساینتیست شوید یا اینکه دیتا ساینتیست خوبی شوید، باید علاوه بر مهارتها، خصوصیات منحصربهفردی هم داشته باشید.
پیش از همه باید ذاتی کنجکاو داشته باشید که شما را دائما به سمت یادگیری چیزهای جدید سوق دهد. در حوزه دانش دادهها، موضوعات فراوان و دادههای بسیاری وجود دارند که یک دیتا ساینتیست باید کنجکاوی ذاتی برای مطالعه، تفکر و جمعآوری اطلاعات را داشته باشد تا در نهایت بتواند با یافتن ارتباط بین اجزای مختلف دادههای موجود، پاسخهای درست به سوالهای مطرحشده بدهد.
کار کردن در حوزههایی مثل دانش دادهها که دائما در حال تغییر است، چالش بخشی جداییناپذیر در آن است، لازم است مستمر یاد بگیرید و خلاقیت دائمی هم لازم دارد، میتواند خستهکننده هم باشد. در نتیجه کمی سرسختی در این شغل بسیار مفید خواهد بود.
قضیه اینجاست که یک دیتا ساینتیست در طول کارهایی که بهطورمعمول انجام میدهد، به شرایطی برمیخورد که انگار همهچیز به هم گرهخورده است و ممکن است به کلاف سردرگمی از دادهها و مسائل پیچیده برسد که به نظر حل ناپذیر میآید.
اما یک دیتا ساینتیست خوب در این شرایط همدست از دستهبندی، تحلیل دوباره و کار کردن روی دادهها برنمیدارد و آنقدر ادامه میدهد که بتواند مسئله را از نگاهی جدید دریابد و حل کند.
خصوصیات دیگری مثل خلاقیت، توانایی تمرکز بالا و توجه بسیار زیاد به جزئیات میتواند به شما کمک کند که یک دیتا ساینتیست خوب باشید. داشتن مهارتهای ارتباطی و توان کار تیمی هم مهم است.
در ضمن ازآنجاکه در این شغل اولا شما باید مهارتهای زیاد و در حوزههای گستردهای دانش داشته باشید و همچنین بتوانید دائم و سریع یاد بگیرید، اگر یک فرد چندپتانسیلی (Multipotentialite) هستید، مطمئن باشید که شما میتوانید بهترین دیتا ساینتیستی باشید که میتوان پیدا کرد.
اما علاوه بر اینها شما باید تحصیلات دانشگاهی و تعداد زیادی مهارت کامپیوتری هم داشته باشید.
قدم بهسوی دیتا ساینتیست شدن.
تحصیلات دانشگاهی.
برای اینکه شما در شرکتی دیتا ساینتیست بشوید، باید دکترا یا کارشناسی ارشد داشته باشید. در دنیا ۳۷ درصد دیتا ساینتیستها مدرک دکترا و ۷۳ درصد مدرک کارشناسی ارشد دارند. بعید هم هست که این قاعده به این زودیها از بین برود.
در نتیجه باید یک لیسانس در حوزه آیتی، علوم کامپیوتر، ریاضیات، فیزیک، آمار، ریاضیات کاربردی، اقتصاد یا علوم اجتماعی دیگر بگیرید.
اگر مدرک کارشناسی ارشد هم که مرتبط به دادهها باشد، بهتر است. طبیعتا اگر پایاننامه کارشناسی ارشد شما کارهایی مثل شبیهسازی، برنامهنویسی و یا کار با دادههای بزرگ دارد، برای شما مفیدتر خواهد بود.
اگر هم میخواهید دکترا بگیرید، بهتر است کار شما در دکترا به برنامهنویسی، هوش مصنوعی یا حتی استخراج داده (Data Mining) ربط داشته باشد.
همچنین باید پیشازاینکه بخواهید دیتا ساینتیست شوید، اطلاعات و دانشی در حوزهای که میخواهید در آن کار کنید داشته باشید؛ مثلا اگر میخواهید در یک شرکت دارویی دیتا ساینتیست شوید که مثلا میخواهد متناسب با نیاز بازار دارو تولید کند، بهتر است اطلاعاتی در مورد بیماریها، میزان شیوع، دوره بیماری، دوره پنهان و هر چیزی دیگری در مورد بیماریها داشته باشید.
همچنین اگر میخواهید یک دیتا ساینتیست ارشد در شرکتی شوید، احتمالا داشتن مدرک دکترا برای شما ضروری خواهد بود.
اخیرا در دانشگاههای جهان، رشته دانش دادهها از همان دوره لیسانس تاسیس شده است. احتمالا چند سال دیگر این رشته به ایران هم خواهد آمد. البته من اطلاعاتی در این مورد ندارم شاید همینالان هم وجود داشته باشد.
مسلما اگر شما مدرکی از این رشته داشته باشید، از بقیه رشتهها بهتر است. چنین رشتهای به شما دانش لازم برای تحلیل مجموعه دادههای پیچیده و مهارتهای لازم در حوزه آمار، کامپیوتر و تکنیکهای تحلیل را آموزش میدهد.
مهارتهای کامپیوتری لازم برای دیتا ساینتیست.
یک دیتا ساینتیست علاوه برای چیزهایی که در دانشگاه یاد میگیرد باید مهارتهای دیگری هم بلد باشد که لزوما در دانشگاه و در رشته تحصیلیاش یاد نگرفته است. همچنین بسته به اینکه رشته تحصیلی شما چیست، ممکن است در برخی از این مهارتها بهتر از بقیه باشید. درهرصورت اگر بخواهید دیتا ساینتیست شوید باید این مهارتهای کامپیوتری را نیز داشته باشید:
۱- زبان برنامهنویسی پایتون.
پایتون (Python) یک زبان برنامهنویسی بسیار خوب و قدرتمند است. پایتون زبانی نیست که با هدف تحلیل دادهها ایجادشده باشد. بلکه شما با پایتون میتوانید وبسایت، اپلیکیشن وب و هر برنامه دیگری بنویسید.
اهمیت پایتون در اینجاست که در طول این سالها کتابخانههای بسیار مهمی مثل Numpy و Matplotlib برای پایتون نوشتهشده است که پایتون را تبدیل به زبانی قدرتمند و محبوب در بین دیتا ساینتیستها کرده است. به همین دلیل الگوریتمها و کدهای فراوان دیگری نیز در پایتون نوشتهشدهاند که برای کار یک دیتا ساینتیست لازم هستند.
همچنین دانستن زبانهایی مثل جاوا، پرل (Perl) و C++/C نیز میتواند بسیار مفید باشد. انعطاف زبان پایتون باعث میشود که شما بتوانید صرفا با کدنویسی در آن به پایگاههای داده گوناگون متصل شوید و از آنها داده بخوانید و داده وارد کنید.
۲- زبان R
زبان برنامهنویسی R برخلاف پایتون زبانی است که فقط برای کارهای آماری و سروکله زدن با دادهها ساختهشده است.
شما میتوانید با زبان R هر مسئله مربوط به دادهها را حل کنید اما چون این زبان انعطاف و قدرت زبان پایتون رو ندارد، احتمالا لازم خواهد بود برخی از کارها را دستی انجام دهید.
یکی از مشکلات زبان R این است که یادگیری آن سخت است خصوصا وقتی شما پیشازاین یک یا چند زبان برنامهنویسی را بهخوبی بلد باشید.
به دلیل همین سختی و همچنین نداشتن انعطاف کافی در زبان R، زبان برنامهنویسی دیگری با نام جولیا (Julia) نیز درستشده است. جولیا زبانی است که همزمان قدرت و انعطاف و سرعت زبان R، پایتون و C++/C را ترکیب کرده است.
دانستن نرمافزارهای آماری مثل SPSS و SAS هم میتواند به دردتان بخورد.
۳- پلتفرم هادوپ.
همانطور که در سطور بالاتر نیز گفتیم، پلتفرم هادوپ (Apache Hadoop) مجموعهای از نرمافزارها و ابزارها مثل هایو (Apache Hive) و پیگ (Apache Pig) است که مخصوص مدیریت و کارهای عددی و محاسباتی روی دادههای حجیم ساختهشدهاند.
تسلط به ابزارهای مجموعه هادوپ بعد از زبان پایتون، مهمترین مهارت لازم برای یک دیتا ساینتیست است.
قضیه اینجاست که وقتی شما با مجموعه دادههای بسیار عظیم روبهرو میشود، ممکن است شرایطی پیش بیاید که حجم دادهها یا میزان حافظه رم یا حتی توان پردازشی لازم برای دادهها بسیار از بیشتر از چیزی باشد که شما در اختیار دارید. در نتیجه شما مجبور میشوید دادهها را به سرورها یا کلاسترهای محاسباتی دیگری انتقال بدهید. اینجاست که هادوپ به درد میخورد. هادوپ میتواند این کار را بهصورت راحت، بهینه و سریع برای شما انجام دهد.
همچنین شما میتوانید از همین هادوپ برای استخراج، کاوش، فیلتر کردن، نمونهگیری و خلاصهسازی دادهها هم استفاده کنید.
۴- تسلط به SQL
وقتی حجم دادههای بسیار زیاد است، ذخیرهسازی و خواندن آنها روی فایلها چیز معقولی نیست. چون هم کار را کند میکند و هم حجم زیادی میبرد. در این حالتها دادهها در پایگاههای داده ذخیره میشود؛ یعنی دادهها در فرمت خاصی که در هر پایگاه دادهای متفاوت است بهصورت فایلهایی ذخیره میشوند که خواندن و نوشتن در آنها سریع و راحت است.
وقتی هم که حجم دادهها بسیار زیاد باشد پایگاههای داده NoSQL و هادوپ بسیار به درد میخورند و احتمالا بخش زیادی از احتیاجهای یک دیتا ساینتیست را رفع کنند؛ اما از شما بهعنوان یک دیتا ساینتیست انتظار میرود که دستورها و درخواستهای پیچیده در SQL را هم بلد باشید.
با اینکه شما باید پیش از SQL، هادوپ و NoSQL بدانید، اما دانستن SQL میتواند بسیار مفید باشد؛ زیرا دستورهایی که برای درخواستهای آن استفاده میکنید، میتوانید تصویر بسیار خوبی از دادهها به شما بدهد. در ضمن سادگی دستورهای آن، کار را سادهتر میکند و شما میتوانید با برنامهنویسی کمتری کارتان را جلو ببرید.
۵- آپاچی اسپارک.
آپاچی اسپارک (Apache Spark) مثل هادوپ یک ابزار مدیریت بیگ دیتا است. هر دو هم محصول تیم نرمافزاری آپاچی هستند؛ اما تفاوت اسپارک یا هادوپ این است که اسپارک بسیار سریعتر از هادوپ است.
اسپارک بهطور اختصاصی برای اجرای سریع الگوریتمهای پیچیده ساختهشده است. همچنین مدیریت دادههای بدونساختار با اسپارک راحتتر است و میتواند از گمشدن و از دست رفتن دادهها جلوگیری کند.
۷- یادگیری ماشینی و هوش مصنوعی
بسیاری از دیتا ساینتیستها هوش مصنوعی بلد نیستند؛ اما هوش مصنوعی چیزی است که میتواند شما را بسیار جلو ببرد. پس اگر میخواهید چند سر و گردن بالاتر از بقیه دیتا ساینتیستها باشید بهتر است هوش مصنوعی بدانید.
توانایی آموزش یک سیستم هوش مصنوعی متناسب با دادهها و پاسخهای موردنیاز با استفاده از الگوریتمهای گوناگون، میتواند به شما کمک کند مسائل متفاوتی را حل کنید.

تسلط به هوش مصنوعی در مفهوم کلی و الگوریتمهای گوناگون آن کار سخت و زمانبری است؛ اما شما میتوانید با کتابخانه بسیار قدرتمند و رایگان تنسورفلو (Tensorflow) گوگل، هوش مصنوعی یاد بگیرید. یادگیری آن آسان است و آموزشها و کدهای فراوانی برای آن وجود دارند.
۸- مصورسازی دادهها (Data Visualization)
بعد از استخراج دادهها، مهمترین کار ارائه آنها است؛ اما برای اکثر افراد درک یک جدول عریض و طویل از اعداد کار سختی است. در نتیجه شما باید از راه دیگری جلو بروید.
شما باید بتوانید آنچه را از دادهها به دست آوردهاید، در نمودارها و جداول، تصویرسازی کنید. در نتیجه بد نیست که از هر ابزاری که میتوان با آن نمودار کشید سر دربیاورید؛ اما دانستن ggplot، matplotlib و d3.js ضروری است.
شما با همین نمودارها است که میتوانید توجهها را زود جلب کنید تا آنها را به اقدامهای درست مجاب کنید.
۹- کار کردن با دادههای بدونساختار.
دادههای بدون ساختار شامل ویدئوها، پستهای وبلاگی، کامنتها، پستهای شبکههای اجتماعی، صدا و حتی تصاویر است. این دادهها شامل متنهای بلند و درهمتنیده هستند که دستهبندی آنها هم کار سختی است. شما باید بهعنوان یک دیتا ساینتیست بتوانید با اینگونه دادهها کار کنید.
تحلیل دادههایی بدونساختار میتواند به شما اطلاعات بیشتری برای کسب بینش بهتر از دادهها بدهد.
منبع : https://tejaratnews.com/training