TDM: Trajectory Data Minning

داده‌کاوی خط سیر

TDM: Trajectory Data Minning

داده‌کاوی خط سیر

داستان فراز و فرود‌های شبکه‌های عصبی

نوزاد انسان ناتوان‌ترین نوزاد در بین حیوانات است و بعد از تولد تا مدتی طولانی قادر به رفع نیاز‌های اولیه‌ی خود نیست. در بدو تولد بسیاری از مهارت‌ها و توانایی‌های بزرگ‌ترها را ندارد. مهارت‌هایی همچون راه رفتن، صحبت کردن، گرفتن و رها کردن اشیاء. نوزاد به خوبی نمی‌بیند و نمی‌شنود. حتی نسبت به خود و اندام خود آگاهی ندارد و هیچ شناختی نسبت به روز و شب ندارد. باید یاد بگیرد که هنگام خستگی بخوابد و بعد از همه‌ی این‌ها تازه با دنیایی پر از شگفتی و آموزه‌های جدید مواجه می‌شود. اما نوزاد انسان مغزی پیچیده و بسیار قدرتمند دارد که همزمان با تکامل اندام‌ها و رشد بدن تکامل می‌یابد و یاد می‌گیرد. توانایی‌ای که از انسان، آدم می‌سازد.

این موجود شگفت‌انگیز سال‌هاست که با این توانایی خود آشنا شده و از این همه پیچیدگی و عظمت شگفت‌زده است. بیش از نیم قرن است که انسان، حیران از عظمت درون خود، سعی دارد دستگاهی بسازد که بتواند گوشه‌ای از توانایی‌های مغز را تقلید کند. سیستم‌های عصبی مصنوعی امروزه به صورت گسترده در کاربردهای بسیار زیاد و متنوع مورد استفاده قرار می‌گیرند. کاربرد‌هایی مانند شناسایی دست‌خط، کمک به تشخیص‌های پزشکی، تشخیص گفتار، پردازش زبان طبیعی، بینایی ماشین، خودرو‌های خودران، پیش‌بینی بازار بورس و بسیاری دیگر.

داستان الهام گرفتن از کارکرد مغز برای ساخت شبکه‌های عصبی مصنوعی، داستانی زیبا و شگفت انگیز است. داستان نیم قرن تلاش و طی مسیری ناهموار با فراز و فرود‌های متعدد، شور و اشتیاق، دلسردی و یأس، امید و ناامیدی، برای اینکه بتوانیم به کامپیوتر‌ها یاد بدهیم که یاد بگیرند. در این نوشتار سعی بر این است که چندین دهه تلاش پژوهشگران و فراز و فرود‌ها و چالش‌های مسیر پیشرفت شبکه‌های عصبی از روز تولد تا به امروز به صورت خلاصه بیان شود.   

دوره‌ی اول: جوانه‌های ابتدایی شبکه‌های عصبی (دهه‌های ۱۹۵۰ تا ۱۹۸۰)

اولین مدل برای نورون عصبی مغز در سال ۱۹۴۳ توسط Warren McCulloch و Walter Pitts ارائه شد. در شکل‌های زیر آناتومی یک نورون بیولوژیک و مدل نورون عصبی McCulloch-Pitts زیر نشان داده شده است.





مدل ارائه شده، مدلی بسیار ساده از نحوه‌ی عمل‌کرد یک نورون عصبی بیولوژیک است که هیچ‌یک از پیچیدگی‌های ساختار یک نورون واقعی در آن دیده نمی‌شود. به‌دلیل همین سادگی است که می‌توان آن را در یک کامپیوتر دیجیتال پیاده کرد.

این نورون مصنوعی، با وجود سادگی دستاورد بزرگی در روز‌های ابتدایی هوش مصنوعی به حساب می‌آمد. چون می‌توانست توابع پایه‌ی AND, OR و NOT را مدل کند. تفکر غالب در آن زمان این بود که قادر ساختن کامپیوتر‌ها به انجام استدلال‌های منطقی رسمی، منجر به ساخت یک سیستم هوشمند خواهد شد. با این وجود، مدل McCulloch-Pitts فاقد مکانیزم یادگیری بود که البته برای هوش مصنوعی ضروری است. این نقصان در پرسپترون برطرف شد.

در سال ۱۹۵۷ Frank Rosenblatt پرسپترون را ارائه کرد که شباهت زیادی به رگرسیون خطی داشت. این اولین ایده‌ای بود که به طور خاص به عنوان روشی برای یادگیری ماشین ارائه شد. Rosenblatt یک روان‌شناس بود و پرسپترون را به عنوان یک مدل ریاضی ساده برای تشریح نحوه‌ی کار سلول‌های عصبی در مغز انسان ارائه نمود. او از کار بنیادی Donald Hebbو در زمینه‌ی فرایند یادگیری در مغز الهام گرفت و راهی برای یادگیری نورون‌های عصبی پیشنهاد کرد. معماری پرسپترون در شکل نشان داده شده است.


اگر خروجی پرسپترون با خروجی مورد انتظار برابر نباشد وزن‌های ورودی اصلاح می‌شوند و به این ترتیب پرسپترون یاد می‌گیرد که خروجی مورد نظر را تولید کند. Rosenblatt این ایده را روی یک سخت‌افزار پیاده‌سازی کرد و نشان داد که می‌توان از آن برای یادگیری طبقه‌بندی اشکال ساده با ورودی‌های 20*20 پیکسل استفاده کرد. به این ترتیب یادگیری ماشین متولد شد. این در حد و اندازه‌ی یک اسباب‌بازی به نظر می‌رسید. اما بر اساس آن، خیال‌پردازی کاربرد‌های مفید، نظیر تبدیل دست نوشته‌های آشفته به متن قابل خواندن توسط ماشین، سخت نبود. برای این کار کافی است که از چند پرسپترون مطابق شکل زیر استفاده شود.


در سال ۱۹۶۰ Bernard Widrow و Tedd Hoff کارکرد وزن ورودی را مورد بررسی قرار دادند و اصلاحاتی در الگوریتم یادگیری پرسپترون اعمال نمودند. این الگوریتم اصلاح شده به قاعده‌ی دلتا یا قانون Widrow-Hoff معروف شد و نورون‌هایی که از این الگوریتم استفاده می‌کردند با نام ADALINE نامگذازی شدند.

McCulloch، Pitts و Rosenblatt، متوجه شدند که با اتصال تعداد زیادی از واحد‌های محاسباتی ساده و تشکیل شبکه‌هایی از سلول‌های عصبی مصنوعی می‌توانند در مقابله با مسائل هوش مصنوعی بسار قدرتمند‌تر عمل کنند. هیجان بسیار زیادی ایجاد شد و رویاپردازی‌هایی که اغلب از واقعیت شبکه‌های عصبی آن زمان بسیار فاصله داشتند شکل گرفت و مطالب عجیبی منتشر شد. اینکه دستگاه هوشمندی ساخته شده که می‌تواند راه برود صحبت کند ببیند بنویسد خود را تولید کند و از وجود خود آگاه باشد. گویی مغز مصنوعی با تمام قابلیت‌های مغز انسان ساخته شده باشد. این در حالی بود که شبکه‌های عصبی آن زمان هیچیک از این کارها را نمی‌توانستند انجام دهند.

البته کسانی هم بودند که با این حرف‌ها مخالف باشند. Marvin Minsky یکی از آن‌ها بود. او که بسیار پیش‌تر ازRosenblatt، در سال ۱۹۵۱، اولین شبکه‌ی عصبی مصنوعی را ساخته بود، در سال ۱۹۶۹ به همراه Seymour Papert در کتاب معروف خود با نام «پرسپترن‌ها» برای اولین بار ناتوانی پرسپترون را در حل مسائل ساده‌ای چون یای حذفی XOR (شکل زیر) برملا کردند.


انتشار این کشف پاییز شبکه عصبی مصنوعی بود. بسیاری از پژوهشگران این عرصه با عزم راسخ آن را کنار گذاشتند. پس از آن موج هیاهوی گسترده و اوج‌گیری در رؤیاهای آینده، سقوطی دهشتناک برای شبکه عصبی اتفاق افتاد.

دوره‌ی دوم: شکوفایی بهاری (دهه‌‌های ۱۹۸۰ تا ۲۰۰۰)

راه حل مسائل غیر خطی با شبکه‌های عصبی مصنوعی، استفاده از چند لایه به‌جای یک لایه از سلول‌های عصبی به صورت شکل زیر است. استفاده از لایه‌ی پنهان می‌تواند مسائل بسیار پیچیده‌تر را حل کند. البته توجه به این نکته مهم است که تحلیل Minsky و Papert از پرسپترون‌ها فقط مربوط به محاسبه‌ی XOR با یک پرسپترون نبود؛ بلکه به صورت خاص تحلیل مذکور استدلال می‌کند که این کار باید با چندین لایه از پرسپترون‌ها انجام شود؛ همان چیزی که شبکه‌های عصبی چندلایه می‌نامیم. مشکل اصلی این بود که الگوریتم یادگیری Rosenblatt برای چندین لایه کار نمی‌کند. همین مسأله باعث شد که شبکه‌های عصبی با زمستانی بیست ساله مواجه شوند.


پژوهش در زمینه‌ی شبکه‌های عصبی در طول مدت زمستان بیست ساله، اگرچه تمام برگ‌هایش را از دست داده بود، اما هنوز خشک نشده بود. این فقط یک خواب زمستانی بود. و بودند پژوهشگرانی که همچنان در این زمینه کار می‌کردند.

اما Paul Werbos اولین کسی بود که پس از یک تحلیل عمیق در رساله‌ی دکتری خود در سال ۱۹۷۴ پیشنهاد کرد که از روشی با نام پس‌انتشار برای شبکه‌های عصبی استفاده شود. با این وجود، Werbos تا سال ۱۹۸۲ کاربرد پس‌انتشار بر روی شبکه‌های عصبی را منتشر نکرد. در‌واقع او معتقد بود که این روش برای حل مشکلات ذکر شده در پرسپترون منطقی است اما جامعه‌ی علمی آن زمان آمادگی پذیرش آن را نداشتند. به نظر می‌رسد که همین بدبینی و عدم علاقه‌ی جامعه‌ی آکادمیک نسبت به شبکه‌ عصبی باعث شد که بیش از یک دهه بعد از پیشنهاد استفاده از پس‌انتشار برای شبکه‌های عصبی از آن در یک کاربرد استفاده شود. David Rumelhart، Geoffery Hinton و Ronald Williams در سال ۱۹۸۶ رویکرد پس‌انتشار را در یادگیری بازنمایی (learning representation) مورد استفاده قرار دادند. و از آنجا بود که پس‌انتشار مورد پسند عموم قرار گرفت. با وجود کارهای زیادی که قبل از آن انجام شده بود، کار اخیر از نظر بیان مختصر و واضح این ایده بسیار برجسته است. در سال۱۹۸۹ یافته‌ی اصلی دیگری که اکنون در کتابها و سخنرانیها با نام «قابلیت تقریب جهانی» (universal approximation) شناخته می‌شود منتشر شد که بر اساس آن استفاده از چندین لایه در شبکه‌های عصبی باعث می‌شود که شبکه بتواند از نظر تئوری هر تابعی را پیاده‌سازی کند. البته، نیازمند قدرت محاسباتی بی‌پایان و بدون محدودیت بود.

به این ترتیب شبکه عصبی مورد توجه قرار گرفته و با بیشتر شدن استفاده از آن در کاربردهای گوناگون، اصلاحاتی در معماری و الگوریتم‌های یادگیری شبکه‌های عصبی اعمال شد. این توسعه، هم در یادگیری با ناظر، هم در یادگیری بدون نظارت و هم در یادگیری تقویتی اتفاق افتاد. نمونه‌هایی از این فعالیت‌ها بدین شرح است.

در سال ۱۹۸۹،Yann LeCun و همکاران مقاله‌ای در زمینه‌ی تشخیص دست‌خط با شبکه‌های عصبی ارائه کردند که در آن از ایده‌ای با نام «اشتراک وزن» یا «weight sharing» استفاده شده که امروزه آن را با نام کانولوشن می‌شناسیم. این اولین کاری بود که نیاز به دستکاری‌های کلیدی شبکه‌های عصبی، ماورای پس‌انتشار، و حرکت به سمت یادگیری عمیق مدرن را آشکار کرد.

در کنار آن می‌توان به این فعالیت‌ها نیز اشاره کرد: معرفی نقشه‌های خود سازمانده در سال ۱۹۸۲ توسط Kohonen، ارائه‌ی نظریه‌ی تشدید انطباقی در سال ۱۹۸۸ توسط Grossberg، حل مسأله‌ی آونگ واژگون در سال ۱۹۸۹ توسط Anderson و همچنین اولین نمونه‌ی اصلی استفاده از شبکه عصبی برای روباتیک در سال ۱۹۸۹ در آزمایشگاه ناوبری دانشگاه Carnegie Mellon توسط Pomerleau.

در سال ۱۹۹۵ یک شبکه عصبی با نام TD-Gammon توانست یاد بگیرد که یک بازیکن تخته‌نرد در کلاس جهانی باشد (Tesauro, 1995) . این شبکه با استفاده از الگوریتم یادگیری تقویتی استاندارد آموزش داده شد و یکی از اولین نمایش‌های یادگیری تقویتی بود که می‌توانست در انجام کارهای نسبتاً پیچیده از انسان پیشی بگیرد. در همان سال TD-Gammon توسط Sebastian Thrun برای یادگیری بازی شطرنج مورد بررسی قرار گرفت. اما نتایج خوب نبود. این امر در مورد مسأله‌ی بازی Go هم صدق می‌کرد (Schraudolph et al., 1994). مشکل این است که بازی‌هایی مانند شطرنج و Go تعداد حالت‌های زیادی دارند که ماشین باید با توجه به آن‌ها و پیش‌بینی حرکت‌های بعدی و حالت‌های آینده تصمیم‌گیری کند. تعداد زیاد این حالت‌ها برای هوش مصنوعی یک چالش است. علاو ه بر این اگر هم الگوریتم، هوشمندانه‌تر بود سخت‌افزار موجود در آن سال‌ها در حدی نبود که بتواند کار مورد نظر را انجام دهد.

همزمان با تحقیقات فوق، پژوهش در زمینه‌ی تشخیص گفتار انسان نیز در جریان بود. مانند خواندن دست‌خط‌ها، درک گفتار نیز به دلیل تنوع تقریباً نامحدود نحوه‌ی بیان یک کلمه و تنوع لحجه‌ها بسیار دشوار است. اما چالش دیگری هم وجود دارد که همان دنباله‌ای طولانی از ورودی‌هاست. جدا کردن کاراکتر‌ها و کلمات از گفتار می‌تواند چالش برانگیز و حتی غیر ممکن باشد. در اینجا باید ورودی به صورت یک جریان دنباله‌دار پردازش شود و برای این منظور لازم بود که شبکه‌های عصبی به حافظه مجهز شوند. یک رویکرد برای این مسأله در سال ۱۹۸۹ توسط Alexander Waibekl،وHinton و سایر همکارانشان معرفی شد که به نام شبکه عصبی تأخیر زمانی (time-delay neural networks – TDNN) شناخته می‌شود. رویکرد دیگر برای این منظورشبکه‌ عصبی بازگشتی (RNN) بود. در RNN مشکل نداشتن حافظه با برگشت خروجی به شبکه و استفاده از آن به عنوان ورودی برطرف می‌شود. در سال ۱۹۹۳ Bengio در مقاله‌ای به شکست کلی در آموزش مؤثر RNNها اشاره کرد که مقدمه‌ای بود برای سقوط دوباره‌ی شبکه‌های عصبی.

با تمام تلاش‌هایی که در این زمینه‌ها انجام می‌شد، شبکه‌های عصبی در دهه‌ی ۹۰ با یک مشکل بزرگ مواجه بودند. الگوریتم پس‌انتشار، که شبکه‌های عصبی را از قعر فراموشی به اوج توجه آورده بود و در سال‌های اخیر به عنوان یک پیشرفت بزرگ از آن یاد می‌کنیم، یک اشکال بزرگ داشت. اشکالی که با نام مشکل محو شدگی گرادیان (vanishing gradient problem) شناخته می‌شود. وقتی تعداد لایه‌ها زیاد باشد همانطور که خطاها از لایهای به لایه‌ی قبل گسترش مییابند، به صورت تصاعدی کوچک میشوند. با افزایش تعداد لایهها اندازه‌ی خطایی که به لایه‌های ابتدایی می‌رسد آنقدر ناچیز است که با استفاده از آن وزن‌ها تنظیم نمی‌شوند. این مشکل در شبکه‌های feedforward با تعداد لایه‌های زیاد و همچنین شبکه‌های RNN بسیار تاثیرگذار است.

Bengio و Hochreiter، در نیمه‌ی اول دهه‌ی ۹۰، به صورت جداگانه تحلیل‌هایی در این زمینه انجام دادند. Schmidhuber در سال ۱۹۹۲ یک سلسله مراتب چند سطحی از شبکه‌ها را استفاده کرد که در آن قبل از استفاده از پس‌انتشار برای آموزش شبکه، هر لایه را با استفاده از یادگیری بدون نظارت آموزش می‌داد. Schmidhuber و Hochreiter در سال ۱۹۹۷ مفهوم بسیار مهم Long Short Term Memory – LSTM را معرفی کردند که مسأله‌ی چگونگی آموزش شبکه‌های عصبی بازگشتی را حل نمود.

البته شبکه‌های عصبی با مشکلات دیگری نیز مواجه بودند. تا حدی که از آن‌ها به عنوان یک دردسر در کار یاد می‌شد. کامپیوترهای دهه‌ی ۹۰ به اندازه‌ی کافی سریع نبودند و الگوریتم‌ها نیز به اندازه‌ی کافی هوشمند نبودند. بنابراین در حدود اواسط دهه‌ی ۹۰ زمستان جدیدی برای شبکه‌های عصبی از راه رسید و بار دیگر اعتماد‌ها از شبکه‌های عصبی سلب شد. موفقیت و محبوبیت روش‌های دیگر همچون ماشین‌های بردار پشتیبان (SVM) و جنگل‌های تصادفی (RF) نیز در سقوط دوباره‌ی شبکه‌های عصبی تاثیرگذار بودند.

علی رغم این واقعیت که CNN به طور مداوم از کارایی خوبی برخوردار بود، اشتیاق به شبکههای عصبی از بین رفت و جامعه‌ی یادگیری ماشین به طور کلی یک بار دیگر آنها را نادیده گرفت. زمستان برگشته بود تا پژوهش‌های شبکه‌ی عصبی را ساکن و منجمد کند. اگرچه خورشید از افق‌ها محو گشته بود؛ اما هنوز شفق‌های امید در آسمان می‌درخشیدند. گروه کوچکی از محققان در این شرایط به ظاهر بن‌بست تحقیقاتی استقامت ورزیدند و در نهایت توانستند یادگیری عمیق را بوجود آورند. این رکود و صعود دوباره در نمودار شکل زیر دیده می‌شود. در این شکل میزان توجه به کنفرانس‌های اصلی هوش مصنوعی در سال‌های مختلف نشان داده شده است.




دوره‌ی سوم: ظهور یادگیری عمیق (دهه‌های ۲۰۰۰ و ۲۰۱۰)

شکل بالا کاملاً گویای این حقیقت است که گرچه کار روی شبکه‌های عصبی متوقف نشد، اما آن شور و هیجان و برانگیختگی فروکش کرده بود. هنوز Hinton، Bengio و LeCun بر این باور بودند که شبکه‌های عصبی شایستگی کار پژوهشی را دارند. آن‌ها کمک‌های مالی از سوی CIFARو (the Canadian Institute for Advanced Research) دریافت کرده بودند که تحقیقات بنیادی در زمینه‌ی شبکه‌های عصبی انجام دهند. اما تأمین مالی در اواسط دهه‌ی ۹۰ پایان یافت.

Hinton برای ادامه‌ی کار روی شبکه‌های عصبی جنگید، و کمک مالی از CIFAR را حفظ کرد. کمک مالی نسبتاً کم بود، اما برای حفظ بقای یک گروه پژوهشی کوچک و ادامه‌ی کار روی موضوع کافی بود. آن‌ها با یک تغییر نام (rebrand) بجای «شبکه عصبی» از واژه‌ی «یادگیری عمیق» استفاده کردند . سپس آن‌ها در سال ۲۰۰۶ مقاله‌‌ای را منتشر کردند که جرقه‌ای بود برای برافروختن شعله‌های اشتیاق به شبکه‌های عصبی. گرچه نتایج درخشانی بدست نیامد اما مهم این بود که توانستند نشان دهند که شبکه‌های عصبی با لایه‌های زیاد واقعاً می‌توانند به خوبی آموزش ببینند؛ البته اگر وزن‌های اولیه بجای مقداردهی تصادفی، هوشمندانه مقدار دهی شوند. Yoshua Bengio و همکارانش این کار را دنبال کردند و در سال ۲۰۰۷ در مقاله‌ی خود با استدلالی محکم نشان دادند که روش‌های یادگیری عمیق ماشینی برای مسأله‌های دشوار، از روش‌های کم عمق کارآمد‌تر هستند.

محمد عبدالرحمان با الهام از یکی از سخنرانی‌های Hinton در مورد شبکه‌های عصبی عمیق، شروع به استفاده از آن در تشخیص گفتار کرد. اما شبکه‌های عصبی عمیق به قدرت محاسباتی بیش از حد کامپیوتر‌های معمولی نیاز داشتند. بنابراین Hinton و محمد عبدالرحمان Dahl را که یک دانشجو در آزمایشگاه Hinton بود، به خدمت گرفتند. Dahl از قدرت محاسباتی کارت‌های گرافیکی پیشرفته استفاده کرد. او کشف کرد که چگونه می‌تواند از همان کارت‌های گرافیکی که انجام بازی‌های کامپیوتری را امکانپذیر می‌کنند، برای آموزش کار‌آمد شبکه‌های عصبی استفاده کند. با این روش آن‌ها نتایج بهتری نسبت به روش‌های قبلی کسب کردند.

گرچه استفاده‌ی دال و محمد از GPU برای شکستن رکورد، موفقیت اولیه و نسبتاً متوسطی بود، ولی برای اینکه برای کارآموزی به Microsoft Research دعوت شوند کافی بود. در آنجا، آنها از گرایش‌های دیگری در محاسبات که تا آن زمان پدید آمده بود، یعنی Big Data بهره مند می‌شدند.داده‌های آموزشی حجیم. چیزی که یادگیری عمیق به آن نیاز داشت. این دو دانشجو در طول سه ماه کارآموزی خود به خوبی قدرت یادگیری عمیق را ثابت کردند و از آن زمان Microsoft Research در خط مقدم تشخیص گفتار با یادگیری عمیق است. یکی دیگر از دانشجویان Hinton، در سال ۲۰۱۱ به یک کارآموزی تابستانی در Google رفت. در آنجا، وی در زمینه‌ی تشخیص گفتار Google کار کرد و نشان داد که با استفاده از یادگیری عمیق، تنظیمات موجود در آنها بسیار بهتر میشود.

کار مایکروسافت و گوگل، و همچنین IBM و آزمایشگاه Hinton ، منجر به عنوان تأثیرگذار «شبکه های عصبی عمیق برای مدل سازی صوتی در تشخیص گفتار: دیدگاههای مشترک چهار گروه تحقیقاتی» برای مقاله‌ی Hinton در سال ۲۰۱۲ شد. چهار گروه تحقیقاتی شامل سه شرکت بزرگ و پیشرو در تکنولوژی و یک گروه پژوهشی از دانشگاه با یکدیگر همکاری کرده و نتایج این همکاری را برای جامعه‌ی پژوهشی گسترده‌تری منتشر کردند. این همکاری آغاز تجاری سازی فناوری یادگیری عمیق بود.

اما واقعاً تغیری که باعث این پیشرفت‌ها شده بود چه بود؟ در زمان‌های دهه‌ی ۹۰ درک اغلب افرادی که در زمینه‌ی شبکه‌های عصبی کار می‌کردند اشتباه بود. به ویژه تصمیم‌ها و فرض‌های بی چون و چرا، اغلب بیاساس بودند. آن‌ها سؤالات پیچیده طرح می‌کردند و برای یافتن پاسخ‌ها راه حل‌های پیچیده‌ای را جستجو می‌کردند. در حالی‌که پرسیدن سؤالهای ساده و امتحان چیزهای ساده، قدرت بهبود زیادی در آخرین دستاورد‌های تکنولوژی دارند. دقیقاً اتفاقی که افتاده این است که از سال ۲۰۰۶ به بعد ایدهها و رویکردهای بیشتری در یادگیری عمیق بررسی و به اشتراک گذاشته شد‌ه‌اند.

همه‌ی این یافتههای تحقیقاتی که از سال ۲۰۰۶ به بعد به‌دست آمدند باعث نشدند که دید کامپیوتری‌ها و یا سایر جوامع تحقیقاتی دوباره برای شبکه‌های عصبی احترام قائل باشند. تا اینکه Hinton و همکارانش در سال ۲۰۱۲ مفاهیم قدیمی، مثل CNN، و بینش‌های جدید، مثل استفاده از GPU، را برای مسأله‌ی بینایی ماشین، با هم ترکیب کردند. آن‌ها توانستند در رقابت بینایی ماشین چالش تشخیص تصویری مقیاس بزرگ ImageNet سال ۲۰۱۲ (ImageNet Large Scale Visual Recognition Challenge (ILSVRC)-2012) با اختلاف چشمگیری از دیگر رقیبان پیشی بگیرند. این نشان می‌داد که CNN و به طور کلی یادگیری عمیق را برای بینایی ماشین باید جدی گرفت. در حال حاضر تقریباً همه‌ی شرکت کنندگان در این مسابقه از CNN استفاده می‌کنند.

این نقطه‌ی عطف شبکه‌ی عصبی و یادگیری عمیق است. موج فزاینده‌ای از هیجان در مورد پیشرفت‌های احتمالی با دستاورد‌های انکار ناپذیر، به اوج خود رسیده است که بسیار فراتر از آن است که سایر تکنیک‌های شناخته شده می‌توانند بدان دست یابند. پژوهشگران بسیاری در عرصه‌های گوناگون علمی، امروزه از این تکنولوژی بهره می‌برند و به نتایجی دست می‌یابند که چند دهه قبل تنها در کتاب‌ها وفیلم‌های تخیلی می‌شد آن‌ها را دید. دیگر از زمستان و سوز و سرمای رکود خبری نیست. تابستان است. تابستان گرم و پر شور و حرارت. شکل زیر گویای این واقعیت است که از سال ۲۰۱۲ به بعد یادگیری عمیق در هوش مصنوعی انقلابی ایجاد کرده است.




امروزه هوش مصنوعی به عنوان یک رشته‌ی بسیار عظیم مطرح بوده و هنوز هم با سرعت زیادی در حال پیشرفت و گسترش است. کاربردهای متنوعی از شبکه های عصبی و یادگیری عمیق وجود دارد. یادگیری عمیق هنوز فقط هنگامی که مجموعهای عظیم از نمونههای ورودی-خروجی برای یادگیری وجود دارد، بهترین نتیجه را بدست می‌آورد. در بساری از مسائل هوش مصنوعی این مجموعه‌ی آموزشی عظیم در دست نیست. همچنین محدودیت‌های عمده‌ی دیگری مانند تفسیرپذیری، تأییدپذیری و موارد دیگر نیز برای یادگیری عمیق مطرح است که پژوهشگران این عرصه در حال بررسی راه حل‌های مختلف برای این محدودیت‌ها و یافتن راهکارهای مؤثر برای آن‌ها هستند. این پایان داستان یادگیری عمیق و پایان تاریخچه‌ی شبکه‌های عصبی نیست و امید است که این فناوری قدرتمند همچنان شکوفا شده و در راه رفاه و پیشرفت بیشتر بشر در آینده مورد استفاده قرار گیرد.



برداشتی آزاد از

Kurenkov, A., 2020. A Brief History of Neural Nets and Deep Learning. Skynet Today. https://www.skynettoday.com/overviews/neural-net-history

نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد