Введение в глубинное обучение. Видеоролики и лекции. Риск антропоморфизации моделей машинного обучения

И частях, это руководство предназначено для всех, кто интересуется машинным обучением, но не знает, с чего начать. Содержание статей рассчитано на широкую аудиторию и будет достаточно поверхностным. Но разве это кого-то волнует? Чем больше людей заинтересуются машинным обучением, тем лучше.

Распознавание объектов с помощью глубокого обучения

Возможно, вы уже видели этот знаменитый комикс xkcd . Шутка в том, что любой 3-летний ребенок может распознать фотографию птицы, но заставить это сделать компьютер заняло у самых лучших компьютерных специалистов более 50 лет.В последние несколько лет мы наконец-то нашли хороший подход к распознаванию объектов с использованием глубоких сверточных нейронных сетей . Это звучит как куча выдуманных слов из фантастического романа Уильяма Гибсона, но все станет понятным, когда мы разберем их по очереди.Итак, давайте же сделаем это – напишем программу, распознающую птиц!

Начнем с простого

Прежде чем научиться распознавать изображения птиц, давайте узнаем, как распознать что-то гораздо более простое – рукописную цифру «8».

Грядущая революция умных роботов предсказывалась каждые десять лет начиная с 1950-х годов. Тем не менее, она так и не произошла. Прогресс в области искусственного интеллекта происходил неуверенно, порою скучно, неся многим энтузиастам разочарование. Видимые успехи - компьютер Deep Blue, созданный в середине 1990-х IBM и обыгравший в 1997 году Гарри Каспарова в шахматы, или появление в конце 1990-х электронного переводчика - были скорее результатом «грубых» расчетов, чем переносом механизмов человеческого восприятия на процессы компьютерных вычислений.

Однако история разочарований и провалов теперь резко меняется. Всего десять лет назад алгоритмы компьютерного зрения и распознавания предметов могли идентифицировать шар или параллелепипед на простом фоне. Теперь они могут различать человеческие лица так же хорошо, как это могут делать люди, даже на сложном, естественном фоне. Полгода назад Google выпустил приложение для смартфонов, способное переводить текст с более чем 20-ти иностранных языков, считывая слова с фотографий, дорожных знаков или рукописного текста!

Все это стало возможным после того, как выяснилось, что некоторые старые идеи в области нейронных сетей , если их незначительно видоизменить, добавив «жизни», т.е. спроецировав детали человеческого и животного восприятия, могут дать ошеломляющий результат, которого никто и не ожидал. В этот раз революция искусственного разума кажется действительно реальной.

Исследования нейронных сетей в области машинного обучения в большинстве случаев были всегда посвящены поиску новых методик распознавания различных типов данных. Так, компьютер, подключенный к камере, должен, используя алгоритм распознавания изображений, суметь различить на картинке плохого качества человеческое лицо, чашку чая или собаку. Исторически, однако, использование нейронных сетей для этих целей сопровождалось существенными трудностями. Даже незначительный успех требовал человеческого вмешательства - люди помогали программе определить важные особенности изображения, такие как границы изображения или простые геометрические фигуры. Существующие алгоритмы не могли сами научиться делать это.

Положение дел резко изменилось благодаря созданию так называемых нейронных сетей с глубинным обучением , которые теперь могут проанализировать изображение почти так же эффективно, как человек. Такие нейронные сети используют изображение плохого качества как входные данные для «нейронов» первого уровня, который затем передает «картинку» через нелинейные связи нейронам следующего уровня. После определенной тренировки, «нейроны» более высоких уровней могут применять для распознавания более абстрактные аспекты изображения. Например, они могут использовать такие детали, как границы изображения или особенности его расположения в пространстве. Поразительно, но такие сети способны научиться оценивать наиболее важные особенности изображения без помощи человека!

Замечательным примером использования нейронных сетей с глубинным обучением является распознавание одинаковых объектов, сфотографированных под разными углами или в разных позах (если речь идет о человеке или о животном). Алгоритмы, использующие попиксельное сканирование, «думают» что перед ними два разных изображения, тогда как «умные» нейронные сети «понимают», что перед ними тот же самый объект. И наоборот - изображения двух собак разных пород, сфотографированных в одинаковой позе, прежними алгоритмами могли восприниматься как фотографии одной и той же собаки. Нейронные сети с глубинным обучением могут выявить такие детали изображений, которые помогут им различить животных.

Совмещение методик глубинного обучения, передовых знаний нейронауки и мощностей современных компьютеров открывает для искусственного интеллекта перспективы, которые мы даже не в силах пока оценить. Правда уже очевидно, что разум может иметь не только биологическую природу.

— Лаборатория молодая: в нашей команде пока только пять человек, работы — непаханое поле, но мы серьезно настроены. Основным направлением выбрали разработку и исследование диалоговых систем — онлайн-консультанты, помощники, которые компетентно отвечают на все вопросы пользователя. У многих компаний и сейчас есть такие сервисы, однако либо они плохо работают, постоянно выдавая ошибки, либо по ту сторону монитора сидит живой человек, который не может быть в сети 24/7, к тому же ему надо платить. Мы хотим разработать алгоритм, который позволит создавать роботов, способных к полноценной беседе. Такой робот сможет за считанные минуты купить вам билет на самолет или проконсультировать по любому насущному вопросу. Сейчас такого уровня систем не существует.

Нейронные сети и искусственный интеллект

Идея нейронных сетей родилась в середине XX века в США вместе с появлением первых ЭВМ. Нейрофизиологи, изучавшие теоретические аспекты работы мозга, полагали, что организация работы компьютера по образу и подобию работы человеческого мозга позволит уже в ближайшем будущем создать первый искусственный интеллект.

Отличие искусственного интеллекта от всех алгоритмов прошлого поколения заключается в том, что обученная нейронная сеть действует не по заданному пути, а самостоятельно ищет способы наиболее эффективного достижения цели. Работа одиночного компьютерного «нейрона» выглядит так: для обучения на вход программы подаются объекты, принадлежащие двум типам — А и Б — и несущие в себе какое-то числовое значение. Программа, исходя из данных в обучающей выборке, понимает, какие диапазоны этого значения соответствуют объектам А, а какие — Б, и впоследствии может отличать их самостоятельно. В реальных задачах система должна различать множество типов, у каждого из которых, в свою очередь, могут быть десятки свойств. Для их решения необходима более сложная структура из слоев нейронов, серьезные вычислительные мощности и большое количество обучающих тестов. XXI век стал началом эры, в которой эти технологии уже могут применяться для решения ежедневных задач.

Михаил Бурцев, заведующий лабораторией:

— Концепция работы нейронных сетей довольно простая: мы даем машине большой объем текста, а она запоминает, как слова сочетаются друг с другом. На основе этой информации она может подобные тексты воспроизводить — машине для этого не обязательно знать правила синтаксиса, склонения и спряжения. Уже сейчас есть нейронные сети, которые, обучившись на произведениях Пушкина, пытаются писать в его стиле. В этом еще одна особенность нейронных сетей: они учатся тому «стилю», который им дают для обучения. Если в качестве материала дать Википедию, программа будет сыпать терминами и использовать преимущественно публицистический стиль. Поскольку наша лаборатория работает над созданием вопросно-ответных систем, для обучения сети мы используем готовые диалоги. В одном из экспериментов использовали субтитры из фильмов — дали изучить нашей сети целую сагу про вампиров. Проанализировав этот массив данных, нейронная сеть уже сейчас вполне может поддержать разговор.

Диалоги сотрудников лаборатории с нейронной сетью

Команда: сегодня и завтра

Лаборатория сотрудничает с крупными исследовательскими центрами на базе НИЯУ МИФИ и Курчатовского института. В ее деятельности также принимают участие и иностранные специалисты в области машинного обучения и нейроинформатики, например Сергей Плис из The Mind Research Network. Помимо этого, регулярно проводятся мероприятия, нацеленные на популяризацию деятельности лаборатории и поиск молодых талантов. Победа в хакатоне или успешное прохождение курсов дают неплохие шансы попасть в лабораторию.

Валентин Малых, сотрудник лаборатории:

— Мой путь в лабораторию был весьма непростым. Еще года четыре назад я практически не касался темы машинного обучения. Потом занялся компьютерной лингвистикой, и понеслось... Несколько раз менял работу: попробовал себя в робототехнике, занимался разработкой программного обеспечения, связанного с компьютерным зрением, там как раз и познакомился с машинным обучением, и мне захотелось заниматься серьезными исследованиями.
За все время работы успел съездить на несколько хакатонов, которые организовывала лаборатория — пожалуй, самое интересное, что произошло со мной за тот период. После пришел к ребятам и сказал, что хочу у них работать. Меня взяли.

Философия DeepHack

Хакатоны, несмотря на свое название, никак не связаны со взломом программного обеспечения (англ. hack — взламывать). Это командные соревнования по программированию, в которых участники в течение нескольких дней, а иногда и недель, бьются над решением какой-то одной конкретной задачи. Тема хакатона объявляется заранее, обычно участвуют несколько сотен человек. Такие мероприятия организуют не только институты, но и крупные компании, которые ищут талантливых специалистов. На базе Физтеха лаборатория нейронных сетей и глубокого обучения организовала уже два хакатона — участники в течение недели слушали лекции о вопросно-ответных и диалоговых системах и писали код.

Владислав Беляев, сотрудник лаборатории:

— В этом и в прошлом году мы устраивали хакатоны по машинному обучению. Заявок было очень много, причем не только из России и СНГ, но и из Европы, из Штатов. Во время хакатона читали лекции ученые из Оксфорда и Стэнфорда, Google DeepMind и OpenAI , ну и российские коллеги, конечно. Сейчас мы готовим курс по нейронным сетям, расскажем все с самого начала и до конца: от биологической концепции и основных моделях в программировании до собственно прикладного применения и конкретной реализации.

Свободное время

В лаборатории пока мало сотрудников, поэтому на каждого приходится большой объем работы разного характера: нужно изучать алгоритмы, писать код, готовить научные публикации.

Михаил Бурцев, заведующий лабораторией:

— Работать приходится много — кажется, я уже не помню, что такое свободное время. Без шуток, времени отдохнуть практически не находится: за последние полгода мы разок смогли выбраться на шашлыки компанией. Хотя в каком-то смысле и работа может быть отдыхом. На хакатонах и семинарах появляется возможность пообщаться в менее формальной обстановке с коллегами и завести новые знакомства. Традиций совместного времяпрепровождения после работы мы пока завести не успели — слишком молоды. Летом планируем выбраться на природу всей лабораторией, снять коттедж и две недели решать самые тяжелые и интересные задачи вместе — устроим свой личный мини-хакатон. Посмотрим, насколько такой подход может быть эффективным. Возможно, это и станет нашей первой доброй традицией.

Трудоустройство

Лаборатория будет расширяться и уже сейчас ищет новых сотрудников. Самый простой способ получить место — пройти двухмесячную стажировку , на которую отбирают по итогам собеседования. Необходимым условием прохождения собеседования является выполнение части задач курса Deep Learning . Во время стажировки есть возможность поучаствовать в выполнении оплачиваемых заказных проектов. Финансирование лаборатории пока не налажено, однако, по словам сотрудников лаборатории, в ближайшее время эта проблема будет решена. «Попасть к нам сейчас — значит получить шанс стать «отцом-основателем» лаборатории в самом перспективном направлении информационных технологий», — говорит Михаил Бурцев.

Изображения и фотографии предоставила лаборатория нейронных сетей и глубокого обучения МФТИ. Фотограф: Евгений Пелевин.

С появления термина «глубокое обучение» прошло уже больше 20 лет, но широко заговорили о нем только недавно. Кратко объясняем, почему так получилось, что такое deep learning, чем оно отличается от машинного обучения и почему вам надо об этом знать.

  • Что это такое?

    Глубокое обучение - это ветвь развития машинного обучения, где используется модель, вдохновленная устройством мозга - взаимодействием нейронов.

    Сам термин появился еще в 1980-х, но до 2012 года для реализации этой технологии не хватало мощностей и на нее почти никто не обращал внимание. После серии статей известных ученых, публикаций в научных изданиях технология быстро стала популярной и получила внимание крупных медиа, - первым из мировых СМИ об этом написал The New York Times. Одним из поводов для материала стала научная работа специалистов из университетов Торонто Алекса Крижевского, Ильи Сатскевера и Джеффа Хинтона. Они описали и проанализировали результаты конкурса распознавания изображений ImageNet, где с большим отрывом победила их нейросеть, обученная с помощью deep learning, - система определила 85% объектов. С тех пор в конкурсе побеждала только глубокая нейросеть

  • Погодите, а что такое машинное обучение?

    Это подобласть искусственного интеллекта и термин - им описывают методы построения алгоритмов, которые учатся на своем опыте, без написания специальной программы. То есть человеку в этом случае не надо объяснять машине, как решить задачу, она находит ответ сама, из данных, которые ей предоставлены. К примеру, если мы хотим, чтобы алгоритм определял лица, мы должны показать ему десять тысяч разных лиц, отметить, где именно находится лицо, и тогда программа научится определять его самостоятельно.

    Обучаться машина может как с помощью учителя, когда он помечает для машины правильные ответы, так и без него. Но результаты лучше при обучении с учителем. Каждый раз, когда происходит обработка данных, система становится точнее.

  • А глубокое обучение как работает?

    Оно имитирует абстрактное мышление человека и умеет обобщать. Например, нейросеть, обученная машинным способом, плохо распознает рукописные буквы - и чтобы она не путалась в различных вариантах написания, все они должны быть в нее загружены.

    Глубокое обучение же используется в случае работы с многослойными искусственными нейронными сетями и сможет справиться с этой задачей.

    «Есть три термина, которые в последнее время часто используют почти взаимозаменяемо: искусственный интеллект, машинное обучение и глубокое обучение. Однако на самом деле это „вложенные“ термины: искусственный интеллект - это всё что угодно, что может помочь компьютеру выполнять человеческие задачи; машинное обучение - это раздел ИИ, в котором программы не просто решают задачи, а обучаются на основе имеющегося у них опыта, а глубокое обучение - это раздел машинного обучения, изучающий глубокие нейронные сети.

    Проще говоря: 1. если вы написали программу, играющую в шахматы, - это искусственный интеллект; 2. если она при этом обучается на базе партий гроссмейстеров или играя против самой себя - это машинное обучение; 3. а если обучается у неё при этом не что-нибудь, а глубокая нейронная сеть, - это глубокое обучение» .

  • Как работает глубокое обучение?

    Возьмем простой пример - мы покажем нейросети фотографии, на которых изображены мальчик и девочка. На первом слое нейроны реагируют на простые визуальные образы - например перепады яркости. На втором - более сложные: углы, окружности. К третьему слою нейроны способны реагировать на надписи и человеческие лица. К каждому следующему слою определяемые образы будут сложнее. Нейронная сеть сама определяет, какие визуальные элементы ей интересны для решения этой задачи, и ранжирует их по степени важности, чтобы в дальнейшем лучше понимать, что изображено на фотографии.

  • И что с помощью него уже разработали?

    Больше всего проектов с глубоким обучением применяется в распознавании фотографии или аудио, диагностике заболеваний. Например, оно уже используется в переводах Google с изображения: технология Deep Learning позволяет определить, есть ли на картинке буквы, а затем переводит их. Другой проект, который работает с фото, - система распознавания лиц под названием DeepFace. Она умеет распознавать человеческие лица с точностью 97,25% - примерно с той же точностью, что и человек.

    В 2016 году Google выпустил WaveNet - систему, которая может имитировать человеческую речь. Для этого компания загрузила в систему миллионы минут записанных голосовых запросов, которые использовались в проекте OK Google, и после изучения, нейросеть смогла сама составить предложения с правильными ударениями, акцентом и без нелогичных пауз.

    При этом глубокое обучение может семантически сегментировать изображение или видео - то есть не просто обозначать, что на картинке есть объект, но и идеально выделить его контуры. Эта технология используется в беспилотных автомобилях, которые определяют, есть ли помехи на дороге, разметку и считывают информацию с дорожных знаков, чтобы избежать аварий. Нейросеть также используют в медицине - чтобы определять диабетическую ретинопатию по фотографиям глаз пациентов например. Министерство здравоохранения США уже разрешило использовать эту технологию в государственных клиниках.

  • А почему глубинное обучение не начали внедрять раньше?

    Раньше это было затратно, сложно и долго - нужны были мощные графические процессоры, видеокарты и объемы памяти. Бум глубинного обучения как раз связан с широким распространением графических процессоров, которые ускоряют и удешевляют вычисления, практически неограниченные возможности хранения данных и развитие технологии «больших данных».

  • Это прорывная технология, она все поменяет?

    Об этом сложно сказать точно, мнения разнятся. С одной стороны, Google, Facebook и другие крупные компании уже вложили миллиарды долларов и настроены оптимистично. По их мнению, нейросети с глубинным обучением способны поменять технологическое устройство мира. Один из главных специалистов по машинному обучению - Эндрю Ынг - говорит: «Если человек может выполнить задачу в уме за секунду, скорее всего, в ближайшее время эта задача будет автоматизирована». Ынг называет машинное обучение «новым электричеством» - это техническая революция, и компании, которые ее проигнорируют, очень быстро обнаружат себя безнадежно отставшими от конкурентов.

    С другой стороны, есть и скептики: они считают, что глубокое обучение - это модное слово или ребрендинг нейронных сетей. К примеру, старший преподаватель факультета компьютерных наук ВШЭ Сергей Бартунов считает, что этот алгоритм - лишь один из вариантов (и при этом не лучший) обучения нейросети, который быстро подхватили массовые издания и о которых теперь знают все.

    Сергей Николенко, соавтор книги «Глубокое обучение»: «История искусственного интеллекта уже знала две „зимы“, когда за волной хайпа и завышенных ожиданий следовало разочарование. Оба раза, кстати, это было связано с нейронными сетями. Сначала в конце 1950-х решили, что перцептрон Розенблатта тут же приведёт к машинному переводу и осознающим себя компьютерам; но, конечно, не получилось из-за ограниченности железа, данных и отсутствия подходящих моделей.

    А в конце 1980-х ту же ошибку совершили, когда разобрались, как обучать любые архитектуры нейронных сетей. Показалось, что вот он, золотой ключик, открывающий любые двери. Это уже был не такой уж наивный вывод: действительно, если взять нейронную сеть из конца 1980-х, механически сделать её больше (увеличить число нейронов) и обучить на современных наборах данных и современном „железе“, она будет очень даже неплохо работать! Но ни данных, ни „железа“ в то время не хватало, и революцию глубокого обучения пришлось отложить до конца нулевых годов.

    Сейчас мы живём на третьей волне хайпа искусственного интеллекта. Закончится ли она третьей „зимой“ или созданием сильного ИИ - покажет только время».