ظهور فناوری‌هایی نظیر علم داده‌ها و یادگیری ماشین عرصه تجزیه‌وتحلیل داده‌ها را دگرگون ساخته و تمامی ذی‌نفعان حوزه داده‌ها را تحت تأثیر قرار داده است. اگر سازمان‌ها به دنبال بهره‌برداری از تجزیه‌وتحلیل داده‌ها برای دستیابی به اطلاعات عملی هستند، ابزارهای بسیاری برای این کار وجود دارند که برخی از آن‌ها در پایان دوران درخشش خود و در مقابل، برخی تازه در آغاز مسیر صعود هستند.

تجزیه‌وتحلیل داده‌ها به سرعت در حال تبدیل شدن به عامل حیات صنعت IT است. دامنه شگردها و فناوری‌های موجود، نظیر داده‌های بزرگ، یادگیری ماشین، یادگیری عمیق و علم داده‌ها، برای تحلیل حجم‌های عظیم داده‌ها به سرعت در حال گسترش است. سازمان‌ها با آگاهی از جدیدترین تحولات در حوزه تجزیه‌وتحلیل داده‌ها و به‌کارگیری آن‌ها در راهبرد خود در این حوزه، از منافع فراوانی بهره‌مند خواهند شد و می‌توانند به بینش‌های عمیقی از رفتار مشتریان، عملکرد سیستم‌ها و فرصت‌های جدید جهت کسب درآمد دست یابند.
در ادامه، آن دسته از راهبردها، شگردها و فناوری‌های در حال رشد تجزیه‌وتحلیل داده‌ها و نیز روندهای رو به افول آن مورد بررسی قرار خواهند گرفت. همه کسانی که با داده‌ها سروکار دارند، از تحلیلگران کسب‌وکار گرفته تا دانشمندان داده، همگی تحت تأثیر انقلاب تجزیه‌وتحلیل داده‌ها قرار گرفته‌اند. اگر سازمان‌ها به دنبال بهره‌برداری از تجزیه‌وتحلیل داده‌ها برای دستیابی به اطلاعات پردازش‌شده و عملی هستند، شاخص‌های زیر در زمینه تجزیه‌وتحلیل داده‌ها می‌تواند به آن‌ها در این امر یاری رساند.

در حال رشد: هوشمندی کسب‌وکار (BI) به صورت سلف‌سرویس
کاربران ذی‌نفع: متخصصان حوزه BI، تحلیلگران کسب‌وکار و مدیران
مدیران با استفاده از ابزارهای BI سلف‌سریس، نظیر Tableau و Qlik Sense و Power BI و Domo، قادر خواهند بود تا به صورت آنی، اطلاعات کسب‌وکاری جاری را به شکل نموداری مشاهده کنند. در حالی که برای دستیابی به این امر، ممکن است نیاز باشد میزان خاصی از تنظیمات در ابتدا و نیز در هنگام افزودن منابع داده‌ای توسط متخصصان IT اعمال شود؛ اما در ادامه، بخش اعظم اقدامات مرتبط با پاکسازی داده‌ها و انجام تجزیه‌وتحلیل توسط تحلیلگران کسب‌وکار صورت خواهد گرفت. همچنین، می‌توان این تجزیه‌وتحلیل را هنگام بازگشایی مجدد، به طور خودکار و بر اساس جدیدترین داده‌ها به‌روزرسانی نمود.
سپس، مدیران می‌توانند از تحلیل‌های نموداری به‌دست‌آمده برای شناسایی مسائل و مشکلات نیازمند رسیدگی استفاده نمایند؛ برای مثال، در یک پنل مدیریتی ایجادشده بر اساس BI یا آمار مربوط به فروش، این امر احتمالاً به معنای انجام بررسی‌های دقیق جهت یافتن محصولات، فروشندگان و فروشگاه‌های دارای عملکرد نامناسب یا شناسایی تحولات رخ‌داده بر اساس مقایسه‌های سال‌به‌سال در یک فروشگاه خاص خواهد بود. اطلاعات به‌دست‌آمده از این تحلیل‌ها به نوبه خود می‌توانند در اتخاذ تصمیم‌گیری‌های مربوط به سطح تأمین و ذخیره‌سازی در انبار، بازاریابی و فروش محصولات و حتی ساخت فروشگاه‌های بیشتر در مناطق دارای خدمات ناکافی تأثیرگذار باشند.

در حال رشد: پنل‌های مدیریتی در دستگاه‌های همراه
کاربران ذی‌نفع: متخصصان حوزه BI، تحلیلگران کسب‌وکار، مدیران و برنامه‌نویس‌ها
در جهانی که مدیران به ندرت در دفاتر خود حضور دارند، ابزارهای مدیریتی باید پنل‌های مدیریتی را به گونه‌ای سازگار و متناسب با دستگاه‌های همراه عرضه نمایند تا کارامد و به‌هنگام باشند. در حال حاضر، اغلب ابزارهای BI سلف‌سرویس از این ویژگی برخوردار هستند؛ اما تمامی معیارهای کلیدی سنجش کسب‌وکار لزوماً از مجرای یک ابزار BI عبور نمی‌کنند؛ برای مثال، کارخانه‌های تولیدی احتمالاً دارای یک سیستم تضمین کیفیت (QA) اختصاصی برای پایش تمامی خطوط تولیدی هستند و همه مدیران کارخانه باید خیلی سریع از بروز اختلالات احتمالی در هر یک از خطوط تولید آگاه شوند. این امر به آسانی از طریق یک برنامه کاربردی محقق می‌گردد؛ این برنامه کاربردی می‌تواند پایگاه‌داده QA را دقیقه‌به‌دقیقه کوئری کند، نمودار کنترل Shewhart را به‌روزرسانی نماید و نمایش دهد و در صورت نیاز، یک زنگ هشدار را در هنگام بروز اختلال در هر یک از خطوط تولید فعال کند.

در حال افول: هادوپ
کاربران ذی‌نفع: دانشمندان داده
در گذشته به نظر می‌رسید که چارچوب نرم‌افزاری هادوپ به این سؤال پاسخ می‌دهد که «چگونه باید داده‌های حقیقتاً بزرگ را ذخیره‌سازی و پردازش نمود»، اما اکنون به نظر می‌رسد که این چارچوب به این سؤال پاسخ می‌دهد که «چه تعداد بخش متحرک را می‌توان به یک سیستم اضافه نمود؛ پیش از آن که فرایند تعمیر و نگهداری آن غیرممکن گردد».
پروژه آپاچی هادوپ شامل چهار ماژول است: Hadoop Common به عنوان ابزارهای کاربردی، فایل‌سیستم توزیع‌یافته هادوپ (HDFS)، ماژول Hadoop YARN به عنوان برنامه‌ریز و Hadoop MapReduce برای انجام پردازش‌های موازی. اما کاربران علاوه بر این ماژول‌ها یا به جای آن‌ها، از یک یا چند پروژه مرتبط دیگر نیز استفاده می‌کنند؛ برای مثال، Ambari برای مدیریت خوشه‌ها، Avro جهت سری‌سازی داده‌ها، Cassandra به عنوان پایگاه‌داده دارای چند سیستم اصلی، Chukwa جهت جمع‌آوری داده‌ها، HBase به عنوان پایگاه‌داده توزیع‌یافته، Hive به عنوان انبار داده‌ها، Mahout برای داده‌کاوی و یادگیری ماشین، Pig به عنوان چارچوب اجرایی، Spark به عنوان موتور رایانشی، Tez به عنوان چارچوب برنامه‌ریزی جریان داده‌ها به منظور جایگزینی MapReduce و ZooKeeper به عنوان سرویس هماهنگ‌سازی.
اگر موارد مذکور در بالا به اندازه کافی پیچیده و بغرنج نیستند، می‌توان به Apache Storm برای پردازش رشته‌ای و Kafka جهت انتقال پیام نیز اشاره نمود. حال، همین محصولات را با ارزش افزوده از جانب ارائه‌دهندگان در نظر بگیرید؛ نظیر سرویس Elastic Map Reduce متعلق به آمازون، Cloudera، سرویس HDInsight متعلق به مایکروسافت، Hortonworks، سرویس MapR و سرویس Altiscale متعلق به SAP.

در حال رشد: زبان R
کاربران ذی‌نفع: دانشمندان داده با مهارت‌های آماری قدرتمند
چندین گزینه برای انجام تجزیه‌وتحلیل داده‌ها با استفاده از روش‌های آماری در اختیار دانشمندان داده قرار دارد. استفاده از زبان برنامه‌نویسی رایگان R، یکی از مناسب‌ترین و قدرتمندترین این روش‌ها محسوب می‌شود. زبان برنامه‌نویسی R یکی از بهترین روش‌های موجود برای ارائه تحلیل‌های باکیفیت و قابل‌تولید مجدد است؛ زیرا بر خلاف یک صفحه‌گسترده، به آسانی می‌توان اسکریپت‌های زبان R را ممیزی و مجدداً اجرا نمود. زبان R و مخازن موجود به همراه آن قادر هستند تا دامنه گسترده‌ای از شگردهای آماری، دستکاری داده‌ها و طرح‌ریزی را ارائه کنند؛ تا جایی که می‌توان بیان داشت اگر شگردی وجود دارد، احتمالاً در یکی از بسته‌های زبان R پیاده‌سازی شده است. به علاوه، زبان R تقریباً کارکرد و توانمندی مشابهی در پشتیبانی از یادگیری ماشین دارد. با این حال، از آنجا که شبکه‌های عصبی عمیق به توان رایانشی بالاتری در مقایسه با توان کنونی زبان R نیاز دارند، این زبان احتمالاً انتخاب اول متخصصان این حوزه نخواهد بود.
زبان R به عنوان یک نرم‌افزار کدباز رایگان در دسترس کاربران قرار دارد و در چندین محصول تجاری از جمله نرم‌افزارهای Azure Machine Learning Studio و SQL Server 2016 متعلق به شرکت مایکروسافت تعبیه شده است.

در حال رشد: شبکه‌های عصبی عمیق (DNN)
کاربران ذی‌نفع: دانشمندان داده
شبکه‌های DNN از جمله قدرتمندترین الگوریتم‌های یادگیری عمیق محسوب می‌شوند. این شبکه‌های عصبی از چندین لایه متشکل از واحدهای پردازشی خطی و غیرخطی متناوب ساخته شده‌اند و با استفاده از حجم عظیمی از داده‌های آموزشی و الگوریتم‌های مقیاس‌بزرگ آموزش داده می‌شوند. یک شبکه عصبی عمیق ممکن است دارای ۱۰ تا ۲۰ لایه مخفی باشد؛ در حالی که یک شبکه عصبی معمولی ممکن است تنها یک لایه داشته باشد.
وجود لایه‌های بیشتر در شبکه به معنای توانایی آن برای تشخیص خصوصیت‌ها و مشخصه‌های بیشتر است. اما متأسفانه، استفاده از لایه‌های بیشتر در شبکه باعث افزایش زمان مورد نیاز برای انجام محاسبات و دشوارتر شدن آموزش آن می‌گردد. بسته‌های موجود برای ساخت شبکه‌های عصبی عمیق عبارت هستند از: Caffe و Microsoft Cognitive Toolkit و MXNet و Neon و TensorFlow و Theano و Torch.

در حال افول: اینترنت اشیا (IoT)
کاربران ذی‌نفع: متخصصان حوزه BI، تحلیلگران کسب‌وکار و دانشمندان داده
فناوری IoT احتمالاً مشهورترین و پرسروصداترین مجموعه فناوری به شمار می‌رود که تا کنون دیده شده است. همچنین، ظهور این فناوری را می‌توان به عنوان بدترین اتفاق برای امنیت اینترنت محسوب نمود. فناوری IoT در حوزه‌های گوناگونی نظیر خانه‌های هوشمند، دستگاه‌های پوشیدنی، شهرهای هوشمند، شبکه‌های هوشمند توزیع برق، اینترنت صنعتی، وسایل نقلیه متصل به شبکه، خدمات بهداشت‌ودرمان متصل به شبکه، عرضه هوشمند محصولات به مصرف‌کننده، کشاورزی و بسیاری حوزه‌های دیگر تبلیغ و به کار گرفته شده است. البته، در صورتی که پیاده‌سازی این فناوری با امنیت مناسب همراه باشد، بسیاری از این کاربردها منطقی خواهند بود؛ اما این امنیت تقریباً به هیچ وجه فراهم نگردیده است.
در حقیقت، تولیدکنندگان این دستگاه‌ها غالباً در طراحی محصولات خود دچار اشتباه‌هایی اساسی شده‌اند. در برخی موارد، این دستگاه‌های هوشمند تنها در صورتی کار می‌کنند که به اینترنت متصل باشند و بتوانند به سرورهای تولیدکنندگان خود دسترسی داشته باشند. این ویژگی هنگامی به یک نقطه‌ضعف قابل توجه تبدیل می‌شود که تولیدکنندگان این دستگاه‌ها پشتیبانی از محصولات خود را متوقف کنند؛ رخدادی که برای دستگاه‌های Sony Dash و دماسنج Nest به وقوع پیوست. گنجاندن یک سرور راه دور متصل به اینترنت در چرخه کنترل نیز باعث ایجاد تأخیرهای قابل‌توجه و کوتاه‌وبلند در چرخه کنترل می‌گردد و متعاقباً باعث ناپایداری می‌شود.
بدتر از همه آن که تولیدکنندگان در تکاپو برای متصل نمودن «اشیا» یا دستگاه‌های خود به اینترنت، آسیب‌پذیری‌هایی را افشا نمودند که در ادامه توسط هکرها مورد سوءاستفاده قرار گرفتند؛ از جمله آن که در اثر این افشاگری‌ها، خودروها به صورت از راه دور تحت کنترل هکرها قرار گرفتند، مسیریاب‌های خانگی برای انجام حملات DDoS در بات‌نت‌ها استفاده شدند و شبکه‌های توزیع برق در برخی مناطق از کار افتادند.
حال این سؤالات مطرح می‌شوند: تأمین امنیت دستگاه‌های IoT به چه چیزی نیاز خواهد داشت و چرا تولیدکنندگان به تأمین امنیت دستگاه‌های خود توجه نمی‌کنند؟ با این حساب، تا زمانی که امنیت این دستگاه‌ها تأمین نگردد، وعده تحلیل داده‌ها روی دستگاه‌های IoT بیش از آن که مزیت به ارمغان آورد، با مخاطرات همراه خواهد بود.

در حال رشد: TensorFlow
کاربران ذی‌نفع: دانشمندان داده
TensorFlow یک کتابخانه کدباز برای شبکه‌های عصبی و یادگیری ماشین متعلق به گوگل است و به عنوان زیربنا و پایه‌ی اغلب سرویس‌های کاربردی یادگیری ماشین گوگل عمل می‌کند. برنامه‌های کاربردی گوگل، نظیر Google Maps و Google Translate، همگی از شبکه‌های عصبی مبتنی بر TensorFlow استفاده می‌کنند که بر روی گوشی‌های هوشمند اجرا می‌شوند. مدل‌های TensorFlow، زیربنای آن دسته از رابط‌های برنامه‌نویسی نرم‌افزار (APIها) مبتنی بر یادگیری ماشین هستند که در سرویس‌های گوگل نظیر Vision و Translate و Speech و Cloud Natural Language استفاده می‌شوند.
دانشمندان داده نیز می‌توانند از TensorFlow استفاده نمایند؛ البته پس از آن که موانع قابل‌توجه موجود در مسیر یادگیری این چارچوب را پشت سر گذاشتند. TensorFlow دارای ویژگی‌های برجسته‌ای چون انعطاف‌پذیری عمیق، کاملاً قابل‌حمل بودن، توانایی مرتبط نمودن تحقیقات و تولیدات، تمایز خودکار متغیرها و توانایی به حداکثر رساندن عملکرد از طریق اعطای اولویت بیشتر به GPUها نسبت به CPUها است.

در حال رشد: MXNet
کاربران ذی‌نفع: دانشمندان داده
MXNet که به صورت «میکس‌نت» خوانده می‌شود، یک چارچوب یادگیری عمیق مشابه با TensorFlow است. این چارچوب فاقد قابلیت اشکال‌زدایی بصری است که در TensorFlow وجود دارد؛ اما در عوض، یک زبان دستوری برای محاسبه تانسورها ارائه می‌نماید که TensorFlow از آن بی‌بهره است. پلت‌فرم MXNet به طور خودکار عملیات‌های دستوری و نمادین را طی انجام فرایند، موازی‌سازی می‌کند و وجود یک لایه بهینه‌سازی گراف بر روی سیستم برنامه‌ریز آن باعث می‌گردد تا اجرای عملیات‌های نمادین سریع‌تر و عملکرد حافظه کارامدتر شود (توضیح مترجم: عملیات‌های نمادین، روشی برای تجزیه‌وتحلیل یک برنامه است که مشخص می‌کند چه ورودی‌هایی باعث می‌شوند کدام بخش از برنامه اجرا شود).
پلت‌فرم MXNet در حال حاضر از مدل‌های آموزش و ساخت در زبان‌های پایتون و R و Scala و Julia و++C پشتیبانی می‌کند. همچنین،‌ می‌توان از مدل‌های آموزش‌دیده MXNet برای فعالیت‌های پیش‌بینی در نرم‌افزارهای Matlab و جاوااسکریپت استفاده نمود. پلت‌فرم MXNet صرف نظر از زبان مورد استفاده برای مدل‌سازی، از یک موتور بک‌اِند و بهینه‌سازی‌شده ++C استفاده می‌نماید.

در حال افول: تحلیل دسته‌ای
کاربران ذی‌نفع: متخصصان حوزه BI، تحلیلگران کسب‌وکار، دانشمندان داده
اجرای پردازش‌های دسته‌ای برای تحلیل داده‌ها در طی شب از جمله اقدامات رایج در دهه ۷۰ بود؛ دورانی که داده‌ها بر روی 9-track tapes ذخیره‌سازی می‌شدند و رایانه مین‌فریم در طی شب مشغول انجام پردازش‌های دسته‌ای می‌گردید. اما در حال حاضر، هیچ دلیل متقاعدکننده‌ای برای بسنده کردن و استفاده از داده‌های روز گذشته وجود ندارد.
در برخی موارد، یک یا چند سیستم بازمانده از قبل که ممکن است ساخت آن‌ها به دهه ۶۰ باز گردد، بتوانند فقط یکی از این دو کار را در طول شب انجام دهند: تجزیه‌وتحلیل داده‌ها یا تهیه نسخه پشتیبان از آن‌ها؛ البته آن هم در صورتی که استفاده دیگری نداشته باشند. در غیر این صورت، هیچ دلیل فنی دیگری برای اجرای تجزیه‌وتحلیل دسته‌ای وجود ندارد؛ اما این فرایندی است که از گذشته مرسوم و متداول بوده است. امروزه، این شرایط بسیار بهتر گشته است و سازمان‌ها و مدیران آن‌ها نیازمند تحلیل‌های داده‌ای تقریباً بلادرنگ هستند.

در حال رشد: تول‌کیت شناختی مایکروسافت، نسخه 2.0
کاربران ذی‌نفع: دانشمندان داده
تول‌کیت شناختی مایکروسافت که با نام CNTK 2.0 نیز شناخته می‌شود، یک تول‌کیت یکپارچه و متمرکز برای یادگیری عمیق است که شبکه‌های عصبی را در قالب سلسله‌ای از گام‌های محاسباتی از طریق یک گراف جهت‌دار توصیف می‌نماید. این تول‌کیت تشابهات فراوانی با پلت‌فرم‌های TensorFlow و MXNet دارد؛ اگرچه مایکروسافت ادعا می‌کند که CNTK سریع‌تر از پلت‌فرم TensorFlow است و این امر به طور خاص برای شبکه‌های عصبی بازگشتی صدق می‌کند؛ CNTK از پشتیبانی برای واسط‌ها برخوردار است به شکلی که باعث می‌شود یکپارچه‌سازی آن‌ها با برنامه‌های کاربردی آسان‌تر باشد، و همچنین، دارای سیستم‌های توکار و کارامدی برای خواندن داده است که از یادگیری توزیع‌یافته نیز پشتیبانی می‌کنند.
در حال حاضر، حدود ۶۰ نمونه، از جمله برگزیدگان مسابقات گوناگون یک دهه اخیر، در بخش Model Gallery شرکت مایکروسافت وجود دارد. تول‌کیت شناختی مایکروسافت، فناوری زیربنایی به‌کاررفته در دستیار شخصی کورتانا، قابلیت ترجمه زنده در اسکایپ، موتور جستجوی Bing و برخی قابلیت‌های دستگاه Xbox است.

در حال رشد: Scikit-learn
کاربران ذی‌نفع: دانشمندان داده
Scikitها از جمله جعبه‌ابزارهای علمی مبتنی بر زبان پایتون هستند که بر مبنای کتابخانه پایتون با نام Scipy و به منظور رایانش علمی ساخته شده‌اند. Scikit-learn یک پروژه کدباز متمرکز بر یادگیری ماشین است که به دقت و با احتیاط سعی دارد از تغییرات کنترل‌نشده در دامنه پروژه و رفتن به سمت الگوریتم‌های تثبیت‌نشده اجتناب نماید. از طرف دیگر، این پروژه از مجموعه مناسبی از الگوریتم‌های خوب و باکیفیت برخوردار است و از زبان Cython، کامپایلر زبان پایتون به C، برای کارکردهایی نظیر چرخه‌های داخلی که نیازمند سرعت عمل بالا هستند، استفاده می‌کند.
حوزه‌هایی که پروژه Scikit-learn از آن‌ها پشتیبانی نمی‌کند، عبارت هستند از: یادگیری عمیق، یادگیری تقویتی، مدل‌های گرافیکی و پیش‌بینی توالی‌ها. این پروژه برای زبان پایتون و استفاده در آن تعریف شده است؛ بنابراین از APIهای لازم برای استفاده از آن در زبان‌های دیگر برخوردار نیست. پروژه Scikit-learn از PyPy که نوعی پیاده‌سازی از زبان پایتون با کامپایلینگ بسیار سریع است و همچنین، از فناوری تسریع با GPU پشتیبانی نمی‌کند؛ البته، به جز برای استفاده در شبکه‌های عصبی، نیاز اندکی به این فناوری دارد.
در نظر عده‌ای، پروژه Scikit-learn در میان تمامی چارچوب‌های یادگیری ماشین، بالاترین نمره را از نظر سهولت برنامه‌نویسی به دست آورده است؛ الگوریتم‌های آن مطابق با تبلیغات مرتبط با آن و مستندسازی‌های موجود کار می‌کنند، APIهای آن منسجم و پایدار هستند و به خوبی طراحی شده‌اند و موارد اندکی از عدم‌تطابق‌های امپدانس در میان ساختارهای داده‌ای آن وجود دارد. کار با این کتابخانه بسیار لذت‌بخش است؛ چراکه قابلیت‌های آن به خوبی طراحی شده‌اند و ایرادها و باگ‌های آن نیز کاملاً برطرف شده است.

رو به افول: Caffe
کاربران ذی‌نفع: دانشمندان داده
به نظر می‌رسد پروژه یادگیری ماشین Caffe که زمانی بسیار امیدوارکننده بود، هم‌اکنون متوقف شده است. این پروژه در اصل چارچوبی قدرتمند برای طبقه‌بندی تصاویر است. این چارچوب از شبکه‌های عصبی پیچشی قدرتمندی برای تشخیص تصویر برخوردار است، از فناوری CUDA در GPUها پشتیبانی می‌کند و قابلیت حمل مناسب و قابل‌قبولی ارائه می‌نماید؛ اما علیرغم این ویژگی‌ها، مدل‌های منتشرشده آن غالباً نیازمند حافظه گرافیکی بسیار زیادی هستند، همچنین، ایرادها و باگ‌هایی در نرم‌افزار آن وجود دارد که حدود یک سال است برطرف نشده‌اند و مستندات آن در بهترین حالت مشکل‌آفرین خواهند بود.
نرم‌افزار Caffe پس از یک سال کشمکش برای انتخاب نسخه مناسب انتشار از میان نامزدهای دارای اشکال، نهایتاً در ماه آوریل ۲۰۱۷ به انتشار نسخه 1.0 رسید. با این حال فقط تا ماه جولای ۲۰۱۷، بیش از ۵۰۰ مشکل حل‌نشده در این نرم‌افزار شناسایی گردید. این طور به نظر می‌رسد که این پروژه در نتیجه گرایش جامعه یادگیری عمیق به استفاده از پلت‌فرم‌های TensorFlow و CNTK و MXNet، با توقف مواجه شده است.

در حال رشد: Jupyter Notebooks
کاربران ذی‌نفع: دانشمندان داده
Jupyter Notebook که در اصل IPython Notebook نامیده شده بود، یک برنامه کاربردی تحت وب و کدباز است که به دانشمندان داده اجازه ساخت و اشتراک‌گذاری اسنادی را می‌دهد که حاوی کدهای زنده، معادلات، بصری‌سازی‌ها و متن‌های توصیفی هستند. موارد استفاده از این برنامه کاربردی عبارت هستند از: دگردیسی و پاکسازی داده‌ها، شبیه‌سازی‌های عددی، مدل‌سازی آماری، یادگیری ماشین و مواردی از این دست.
اسناد Jupyter Notebook به محیط توسعه مورد پسند بسیاری از محققان حوزه یادگیری ماشین و دانشمندان داده تبدیل شده است. این اسناد از جمله مؤلفه‌های استاندارد بر روی سرویس‌های آنلاینی نظیر Azure و Databricks هستند؛ سرویس‌هایی که شامل قابلیت‌های یادگیری ماشین و داده‌های بزرگ هستند و همچنین، می‌توان آن‌ها را به صورت محلی نیز اجرا نمود. Jupyter در اصل یک نام مخفف ساخته‌شده از زبان‌های Julia، پایتون و R است؛ زبان‌هایی که برای تجزیه‌وتحلیل داده‌ها بسیار محبوب هستند و هدف اول کرنل‌های Notebook به شمار می‌روند؛ اما امروزه، کرنل‌های Jupyter حدود ۸۰ زبان را پشتیبانی می‌کنند.

در حال رشد: تحلیل و ذخیره‌سازی بر روی کلاد
کاربران ذی‌نفع: متخصصان حوزه BI، تحلیلگران کسب‌وکار و دانشمندان داده
یکی از شعارهای مربوط به تجزیه‌وتحلیل کارامد بدین شکل است: «رایانش باید در محلی انجام گیرد که داده‌ها در آن وجود دارند». در صورت عدم‌پیروی از این قانون و جابجایی داده‌ها در درون شبکه‌های محلی، تحلیل‌ها احتمالاً با تأخیرهای طولانی همراه خواهند بود و در صورت انتقال داده‌ها از طریق اینترنت، این تأخیر بسیار طولانی‌تر نیز خواهد گردید. شرکت مایکروسافت به همین دلیل اخیراً پشتیبانی از زبان R را به سرور SQL افزوده است.
از آنجا که مقدار داده‌های تولیدشده توسط سازمان‌ها به شکل تصاعدی در حال افزایش است، ممکن است ظرفیت مراکز داده سازمان‌ها برای پشتیبانی از این حجم از داده‌ها کافی نباشد و آن‌ها مجبور به استفاده از فضای ذخیره‌سازی کلاد خواهند گردید. پس از آن که ذخیره‌سازی داده‌ها به فضای کلاد منتقل شود، فرایند تحلیل این داده‌ها نیز باید به کلاد انتقال یابد. در نهایت، اغلب پروژه‌های جدید در فضای کلاد پیاده‌سازی خواهند شد و پروژه‌های موجود نیز به کلاد انتقال خواهند یافت؛ بدین ترتیب، سازمان‌ها از جهانی پیوندخورده با هزینه‌های سرمایه‌ای (CapEx) به جهانی بر پایه هزینه‌های عملیاتی (OpEx) قدم خواهند گذاشت.

رو به افول: گزارش‌های ماهیانه BI
کاربران ذی‌نفع: متخصصان حوزه BI، تحلیلگران کسب‌وکار و دانشمندان داده
پیش از افزایش محبوبیت BI سلف‌سرویس، BI تحت نفوذ IT قرار داشت. مدیران نظرات و خواسته‌های خود را برای کارمندان خود تشریح می‌کردند، تحلیلگران کسب‌وکار این نظرات را به دستورات و مشخصdfات مورد نیاز برای اجرا تبدیل می‌نمودند و متخصصان BI نیز با توجه به کارهای ناتمام خود، نهایتاً به تدوین گزارش‌هایی برای برآورده ساختن این دستورات می‌پرداختند. پس از تعریف یک گزارش، این گزارش به طور ماهانه و اصولاً به طور همیشگی اجرا می‌گردید و خروجی‌های تمامی گزارش‌های ممکن در ابتدای هر ماه به صندوق ورودی مدیران ارسال می‌شد تا پس از مطالعه و بحث‌وبررسی در جلسات، نهایتاً برای اقدام در خصوص آن‌ها تصمیم‌گیری شود.
گاهی این اقدام، تعریف کردن گزارشی جدید برای پاسخ دادن به سؤالی بود که در یکی از گزارش‌های موجود مطرح شده بود. در این صورت، کل این چرخه دوباره از نو آغاز می‌شد و نتایج گزارش جدید پس از یک یا دو ماه به گزارش‌های ارسالی به صندوق ورودی مدیران افزوده می‌گردید.
متأسفانه، کسب‌وکارهایی که می‌خواهند چابک باشند، نمی‌توانند با فاصله‌های چندماهه نسبت به تغییرات بازار و محیط خود واکنش نشان دهند؛ در حالی که زمان مورد نیاز برای طرح یک سؤال و دریافت پاسخ آن برای چنین کسب‌وکارهایی باید به جای چند هفته یا چند ماه،‌ چند ثانیه یا چند دقیقه باشد.

10 HOT DATA ANALYTICS TRENDS — AND 5 GOING COLD

Data analytics are fast becoming the lifeblood of IT. Big data, machine learning, deep learning, data science — the range of technologies and techniques for analyzing vast volumes of data is expanding at a rapid pace. To gain deep insights into customer behavior, systems performance, and new revenue opportunities, your data analytics strategy will benefit greatly from being on top of the latest data analytics trends.
Here is a look at the data analytics technologies, techniques and strategies that are heating up and the once-hot data analytics trends that are beginning to cool. From business analysts to data scientists, everyone who works with data is being impacted by the data analytics revolution. If your organization is looking to leverage data analytics for actionable intelligence, the following heat index of data analytics trends should be your guide.
Heating up: Self-service BI
Who: BI/BA Pros, Managers
Our new gaming site is live! Gamestar covers games, gaming gadgets and gear. Subscribe to our newsletter and we’ll email our best stuff right to your inbox. Learn more here.
With self-service BI tools, such as Tableau, Qlik Sense, Power BI, and Domo, managers can obtain current business information in graphical form on demand. While a certain amount of setup by IT may be needed at the outset and when adding a data source, most of the work in cleaning data and creating analyses can be done by business analysts, and the analyses can update automatically from the latest data any time they are opened.
Managers can then interact with the analyses graphically to identify issues that need to be addressed. In a BI-generated dashboard or “story” about sales numbers, that might mean drilling down to find underperforming stores, salespeople, and products, or discovering trends in year-over-year same-store comparisons. These discoveries might in turn guide decisions about future stocking levels, product sales and promotions, and even the building of additional stores in under-served areas.
[ Find out the hottest data and analytics trends today and the big data certifications that will pay off. | Get the latest insights by signing up for our CIO newsletter. ]
Heating up: Mobile dashboards
Who: BI/BA Pros, Managers, Developers
In a world where managers are rarely at their desks, management tools need to present mobile-friendly dashboards to be useful and timely. Most self-service BI tools already have this feature, but not every key business metric necessarily goes through a BI tool.
For example, a manufacturing plant is likely to have a dedicated QA system monitoring all production lines. All plant managers need to know whether any of the lines have drifted out of tolerance within minutes of the event; that’s easily done with an app that queries the QA database every minute, updates and displays a Shewhart control chart, and optionally sounds an alarm when a line goes out of spec.
Cooling down: Hadoop
Who: Data scientists
Hadoop once seemed like the answer to the question “How should I store and process really big data?” Now it seems more like the answer to the question “How many moving parts can you cram into a system before it becomes impossible to maintain?”
The Apache Hadoop project includes four modules: Hadoop Common (utilities), Hadoop Distributed File System (HDFS), Hadoop YARN (scheduler) and Hadoop MapReduce (parallel processing). On top of or instead of these, people often use one or more of the related projects: Ambari (cluster management), Avro (data serialization), Cassandra (multi-master database), Chukwa (data collection), HBase (distributed database), Hive (data warehouse), Mahout (ML and data mining), Pig (execution framework), Spark (compute engine), Tez (data-flow programming framework intended to replace MapReduce), and ZooKeeper (coordination service).
If that isn’t complicated enough, factor in Apache Storm (stream processing) and Kafka (message transfer). Now consider the value added by vendors: Amazon (Elastic Map Reduce), Cloudera, Hortonworks, Microsoft (HDInsight), MapR, and SAP Altiscale. Confused yet?
Heating up: R language
Who: Data scientists with strong statistics
Data scientists have a number of option to analyze data using statistical methods. One of the most convenient and powerful methods is to use the free R programming language. R is one of the best ways to create reproducible, high-quality analysis, since unlike a spreadsheet, R scripts can be audited and re-run easily. The R language and its package repositories provide a wide range of statistical techniques, data manipulation and plotting, to the point that if a technique exists, it is probably implemented in an R package. R is almost as strong in its support for machine learning, although it may not be the first choice for deep neural networks, which require higher-performance computing than R currently delivers.
R is available as free open source, and is embedded into dozens of commercial products, including Microsoft Azure Machine Learning Studio and SQL Server 2016.
Heating up: Deep neural networks
Who: Data scientists
Some of the most powerful deep learning algorithms are deep neural networks (DNNs), which are neural networks constructed from many layers (hence the term "deep") of alternating linear and nonlinear processing units, and are trained using large-scale algorithms and massive amounts of training data. A deep neural network might have 10 to 20 hidden layers, whereas a typical neural network may have only a few.
The more layers in the network, the more characteristics it can recognize. Unfortunately, the more layers in the network, the longer it will take to calculate, and the harder it will be to train. Packages for creating deep neural networks include Caffe, Microsoft Cognitive Toolkit, MXNet, Neon, TensorFlow, Theano, and Torch.
Cooling down: IoT
Who: BI/BA pros, data scientists
The Internet of Things (IoT) may be the most-hyped set of technologies, ever. It may also be the worst thing that happened to Internet security, ever.
IoT has been touted for smart homes, wearables, smart cities, smart grids, industrial internet, connected vehicles, connected health, smart retail, agriculture, and a host of other scenarios. Many of these applications would make sense if the implementation was secure, but by and large that hasn’t happened.
In fact, the manufacturers have often made fundamental design errors. In some cases, the smart devices only work if they are connected to the Internet and can reach the manufacturers’ servers. That becomes a significant point of failure when the manufacturer ends product support, as happened with the Sony Dash and the early Nest thermometer. Including a remote Internet-connected server into a control loop also introduces a significant and variable lag into the control loop which can introduce instability.
Even worse, in their rush to connect their “things” to the Internet, manufacturers have exposed vulnerabilities that have been exploited by hackers. Automobiles have been taken over remotely, home routers have been enlisted into a botnet for carrying out DDoS attacks, the public power grid has been brought down in some areas…
What will it take to make IoT devices secure? Why aren’t the manufacturers paying attention?
Until security is addressed, the data analytics promise of IoT will be more risk than reward.
Heating up: TensorFlow
Who: Data scientists
TensorFlow is Google’s open source machine learning and neural network library, and it underpins most if not all of Google’s applied machine learning services. The Translate, Maps, and Google apps all use TensorFlow-based neural networks running on our smartphones. TensorFlow models are behind the applied machine learning APIs for Google Cloud Natural Language, Speech, Translate, and Vision.
Data scientists can use TensorFlow, once they can get over the considerable barriers to learning the framework. TensorFlow boasts deep flexibility, true portability, the ability to connect research and production, auto-differentiation of variables, and the ability to maximize performance by prioritizing GPUs over CPUs. Point your data scientists toward my tutorial or have them look into the simplified Tensor2Tensor library to get started.
Heating up: MXNet
Who: Data scientists
MXNet (pronounced “mix-net”) is a deep learning framework similar to TensorFlow. It lacks the visual debugging available for TensorFlow but offers an imperative language for tensor calculations that TensorFlow lacks. The MXNet platform automatically parallelizes symbolic and imperative operations on the fly, and a graph optimization layer on top of its scheduler makes symbolic execution fast and memory efficient.
MXNet currently supports building and training models in Python, R, Scala, Julia, and C++; trained MXNet models can also be used for prediction in Matlab and JavaScript. No matter what language you use for building your model, MXNet calls an optimized C++ back-end engine.
Cooling down: Batch analysis
Who: BI/BA pros, data scientists
Running batch jobs overnight to analyze data is what we did in the 1970s, when the data lived on 9-track tapes and “the mainframe” switched to batch mode for third shift. In 2017, there is no good reason to settle for day-old data.
In some cases, one or more legacy systems (which may date back to the 1960s in some cases) can only run analyses or back up their data at night when not otherwise in use. In other cases there is no technical reason to run batch analysis, but “that’s how we’ve always done it.”
You’re better than that, and your management deserves up-to-the-minute data analysis.
Heating up: Microsoft Cognitive Toolkit 2.0
Who: Data scientists
The Microsoft Cognitive Toolkit, also known as CNTK 2.0, is a unified deep-learning toolkit that describes neural networks as a series of computational steps via a directed graph. It has many similarities to TensorFlow and MXNet, although Microsoft claims that CNTK is faster than TensorFlow especially for recurrent networks, has inference support that is easier to integrate in applications, and has efficient built-in data readers that also support distributed learning.
There are currently about 60 samples in the Model Gallery, including most of the contest-winning models of the last decade. The Cognitive Toolkit is the underlying technology for Microsoft Cortana, Skype live translation, Bing, and some Xbox features.
Heating up: Scikit-learn
Who: Data scientists
Scikits are Python-based scientific toolboxes built around SciPy, the Python library for scientific computing. Scikit-learn is an open source project focused on machine learning that is careful about avoiding scope creep and jumping on unproven algorithms. On the other hand, it has quite a nice selection of solid algorithms, and it uses Cython (the Python to C compiler) for functions that need to be fast, such as inner loops.
Among the areas Scikit-learn does not cover are deep learning, reinforcement learning, graphical models, and sequence prediction. It is defined as being in and for Python, so it doesn’t have APIs for other languages. Scikit-learn doesn’t support PyPy, the fast just-in-time compiling Python implementation, nor does it support GPU acceleration, which aside from neural networks, Scikit-learn has little need for.
Scikit-learn earns the highest marks for ease of development among all the machine learning frameworks I’ve tested. The algorithms work as advertised and documented, the APIs are consistent and well-designed, and there are few “impedance mismatches” between data structures. It’s a pleasure to work with a library in which features have been thoroughly fleshed out and bugs thoroughly flushed out.
Cooling down: Caffe
Who: Data scientists
The once-promising Caffe deep learning project, originally a strong framework for image classification, seems to be stalling. While the framework has strong convolutional networks for image recognition, good support for CUDA GPUs, and decent portability, its models often need excessively large amounts of GPU memory, the software has year-old bugs that haven’t been fixed, and its documentation is problematic at best.
Caffe finally reached its 1.0 release mark in April 2017 after more than a year of struggling through buggy release candidates. And yet, as of July 2017, it has over 500 open issues. An outsider might get the impression that the project stalled while the deep learning community moved on to TensorFlow, CNTK and MXNet.
Heating up: Jupyter Notebooks
Who: Data scientists
The Jupyter Notebook, originally called IPython Notebook, is an open-source web application that allows data scientists to create and share documents that contain live code, equations, visualizations and explanatory text. Uses include data cleaning and transformation, numerical simulation, statistical modeling, machine learning and much more.
Jupyter Notebooks have become the preferred development environment of many data scientists and ML researchers. They are standard components on Azure, Databricks, and other online services that include machine learning and big data, and you can also run them locally. “Jupyter” is a loose acronym meaning Julia, Python, and R, three of the popular languages for data analysis and the first targets for Notebook kernels, but these days there are Jupyter kernels for about 80 languages.
Heating up: Cloud storage and analysis
Who: BI/BA pros, data scientists
One of the mantras of efficient analysis is “do the computing where the data resides.” If you don’t or can’t follow this rule, your analysis is likely to have large delays if the data moves across the local network, and even larger delays if it moves over the Internet. That’s why, for example, Microsoft recently added R support to SQL Server.
As the amount of data generated by your company grows exponentially, the capacity of your data centers may not suffice, and you will have to add cloud storage. Once your data is in the cloud, your analysis should be, too. Eventually most new projects will be implemented in the cloud, and existing projects will be migrated to the cloud, moving your company from the CapEx to the OpEx world.
Cooling down: Monthly BI reports
Who: BI/BA pros, data scientists
Before self-service business intelligence became popular, BI was the province of IT. Managers described what they thought they wanted to see, business analysts turned that into specifications, and BI specialists created reports to meet the specifications — eventually, given their backlog. Once a report was defined, it was run on a monthly basis essentially forever, and printouts of all possible reports went into management’s inboxes on the first of the month, to be glanced at, discussed at meetings, and ultimately either acted on or ignored.
Sometimes the action would be to define a new report to answer a question brought up by an existing report. The whole cycle would start over, and a month or two later the new report would be added to the monthly printout.
Alas, businesses that want to be agile can’t respond to environmental and market changes in months: the time between asking a question and getting an answer should be measured in seconds or minutes, not weeks or months.

منبع: itnews.com | تاریخ خبر:۷ آگوست ۲۰۱۷ – ۱۶ مرداد ۱۳۹۶