banner

Новости

Apr 24, 2023

Исследователи идентифицируют машины, способные учиться больше, чем люди

Представьте себе, что вы сидите на скамейке в парке и наблюдаете, как кто-то проходит мимо. Хотя сцена может постоянно меняться по мере ходьбы человека, человеческий мозг со временем может преобразовать эту динамическую визуальную информацию в более стабильное представление. Эта способность, известная как перцептивное выпрямление, помогает нам предсказывать траекторию идущего человека. В отличие от людей, модели компьютерного зрения обычно не демонстрируют перцептивную прямолинейность, поэтому они учатся представлять визуальную информацию весьма непредсказуемым образом. Но если бы модели машинного обучения обладали такой способностью, это могло бы позволить им лучше оценивать, как будут двигаться объекты или люди. Исследователи Массачусетского технологического института обнаружили, что определенный метод обучения может помочь моделям компьютерного зрения усвоить более прямолинейные представления, как это делают люди. Обучение включает в себя показ модели машинного обучения на миллионах примеров, чтобы она могла изучить задачу. Исследователи обнаружили, что обучение моделей компьютерного зрения с использованием метода, называемого состязательным обучением, который делает их менее реагирующими на крошечные ошибки, добавленные в изображения, улучшает восприятие моделей. прямолинейность. Команда также обнаружила, что на прямолинейность восприятия влияет задача, которую обучает модель выполнять. Модели, обученные выполнять абстрактные задачи, такие как классификация изображений, усваивают более понятные представления, чем модели, обученные выполнять более детальные задачи, такие как отнесение каждого пикселя изображения к категории. Например, узлы в модели имеют внутренние активации, обозначающие «собаку», которые позволяют модели обнаруживать собаку, когда она видит любое изображение собаки. Перцептивно прямые изображения сохраняют более стабильное представление «собаки», когда в изображении происходят небольшие изменения. Это делает их более надежными. Лучше понимая прямолинейность восприятия в компьютерном зрении, исследователи надеются получить информацию, которая поможет им разработать модели, позволяющие делать более точные прогнозы. Например, это свойство может повысить безопасность автономных транспортных средств, которые используют модели компьютерного зрения для прогнозирования траекторий пешеходов, велосипедистов и других транспортных средств». видение, может дать вам представление о том, почему определенные вещи работают именно так, а также вдохновить на идеи по улучшению нейронных сетей», — говорит Ваша ДюТелл, постдок Массачусетского технологического института и соавтор статьи, исследующей прямолинейность восприятия в компьютерном зрении. в статье представлены ведущий автор Энн Харрингтон, аспирантка факультета электротехники и информатики (EECS); Аюш Тевари, постдок; Марк Гамильтон, аспирант; Саймон Стент, менеджер по исследованиям Woven Planet; Рут Розенхольц, главный научный сотрудник Департамента мозговых и когнитивных наук и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); и старший автор Уильям Т. Фриман, профессор электротехники и информатики Томаса и Герда Перкинсов и член CSAIL. Исследование представлено на Международной конференции по изучению представлений. Изучение выпрямления. Прочитав в 2019 году статью группы исследователей Нью-Йоркского университета о прямолинейности восприятия у людей, ДьюТелл, Харрингтон и их коллеги задались вопросом, может ли это свойство быть полезным в компьютерном зрении. Модели тоже. Они решили определить, улучшают ли различные типы моделей компьютерного зрения визуальные представления, которые они изучают. Они передали каждой модели кадры видео, а затем исследовали представление на разных этапах процесса обучения. Если представление модели меняется предсказуемым образом в кадрах видео, эта модель выпрямляется. В конце концов, ее выходное представление должно быть более стабильным, чем входное представление. «Вы можете думать о представлении как о линии, которая начинается очень изогнутой. Модель, которая выпрямляет, может взять эту изогнутую линию из видео и выпрямить ее до конца. этапы обработки», — объясняет Дютелл. Большинство протестированных ими моделей не выпрямлялись. Из немногих, кто это сделал, те, кто выпрямился наиболее эффективно, были обучены задачам классификации с использованием метода, известного как состязательное обучение. Состязательное обучение включает в себя тонкую модификацию изображений путем небольшого изменения каждого пикселя. Хотя человек не заметит разницы, эти незначительные изменения могут обмануть машину, и она неправильно классифицирует изображение. Состязательное обучение делает модель более надежной, поэтому ее не подведут эти манипуляции. Поскольку состязательное обучение учит модель менее реагировать на небольшие изменения в изображениях, это помогает ей выучить представление, которое становится более предсказуемым с течением времени, объясняет Харрингтон. «У людей уже возникла идея, что состязательное обучение может помочь вам сделать вашу модель более похожей на человека, и было интересно увидеть, как это переносится на другое свойство, которое люди раньше не проверяли», — говорит она. Исследователи обнаружили, что модели, обученные состязательному подходу, учатся выпрямляться только тогда, когда их обучают выполнять более широкие задачи, например, классифицировать целые изображения по категориям. Модели, которым было поручено сегментировать — маркировать каждый пиксель изображения как определенный класс — не выпрямлялись, даже когда они были обучены состязательно. Последовательная классификация Исследователи протестировали эти модели классификации изображений, показав им видео. Они обнаружили, что модели, которые обучались более прямым с точки зрения восприятия представлениям, имели тенденцию более последовательно правильно классифицировать объекты на видео». , все еще демонстрируют некоторое выпрямление», — говорит Дютелл. Исследователи не знают точно, что именно в процессе состязательного обучения позволяет модели компьютерного зрения выпрямляться, но их результаты показывают, что более сильные схемы обучения заставляют модели выпрямляться сильнее, объясняет она. Опираясь на эту работу, исследователи хотят использовать полученные знания для создания новых схем обучения, которые явным образом придали бы модели это свойство. Они также хотят углубиться в состязательное обучение, чтобы понять, почему этот процесс помогает модели выпрямиться. «С биологической точки зрения состязательное обучение не обязательно имеет смысл. Люди не так понимают мир. почему этот процесс обучения помогает моделям вести себя больше как люди», — говорит Харрингтон. «Понимание представлений, полученных глубокими нейронными сетями, имеет решающее значение для улучшения таких свойств, как надежность и обобщение», — говорит Билл Лоттер, доцент онкологического центра Дана-Фарбера. Института и Гарвардской медицинской школы, которые не участвовали в этом исследовании. «Харрингтон и др. провели обширную оценку того, как представления моделей компьютерного зрения меняются со временем при обработке естественного видео, показав, что кривизна этих траекторий широко варьируется в зависимости от архитектуры модели, свойств обучения и задачи. Эти результаты могут дать информацию для разработка улучшенных моделей, а также предложить понимание биологической обработки изображений». «В документе подтверждается, что выпрямление естественного видео — это довольно уникальное свойство, проявляемое зрительной системой человека. человеческое восприятие: его устойчивость к различным преобразованиям изображения, как естественным, так и искусственным», — говорит Оливье Энафф, научный сотрудник DeepMind, который не участвовал в этом исследовании. «То, что даже состязательно обученные модели сегментации сцен не выпрямляют свои входные данные, поднимает важные вопросы для будущей работы: анализируют ли люди естественные сцены так же, как модели компьютерного зрения? Как представлять и прогнозировать траектории движущихся объектов, оставаясь чувствительными к их Связывая гипотезу выпрямления с другими аспектами зрительного поведения, статья закладывает основу для более унифицированных теорий восприятия». Научный фонд, Исследовательская лаборатория ВВС США и Ускоритель искусственного интеллекта ВВС США.

ДЕЛИТЬСЯ