Выпрямление искусственного интеллекта: как исследователи Массачусетского технологического института преодолевают разрыв между человеческим и машинным зрением

Адам Зеве, Массачусетский технологический институт, 9 мая 2023 г.

Исследователи Массачусетского технологического института обнаружили, что обучение моделей компьютерного зрения с использованием состязательного обучения может улучшить их прямолинейность восприятия, делая их более похожими на обработку изображений человека. Перцептивная прямолинейность позволяет моделям лучше прогнозировать движения объектов, потенциально повышая безопасность автономных транспортных средств. Модели, обученные состязательно, более надежны и сохраняют стабильное представление объектов, несмотря на небольшие изменения в изображениях. Исследователи стремятся использовать свои результаты для создания новых схем обучения и дальнейшего изучения того, почему состязательное обучение помогает моделям имитировать человеческое восприятие.

Исследователи выявили свойство, которое помогает моделям компьютерного зрения научиться представлять визуальный мир более стабильным и предсказуемым образом.

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Исследователи Массачусетского технологического института обнаружили, что состязательное обучение улучшает прямолинейность восприятия в моделях компьютерного зрения, делая их более похожими на визуальную обработку человека и позволяя лучше прогнозировать движения объектов.

Представьте себе, что вы сидите на скамейке в парке и наблюдаете, как кто-то проходит мимо. Хотя сцена может постоянно меняться по мере ходьбы человека, человеческий мозг со временем может преобразовать эту динамическую визуальную информацию в более стабильное представление. Эта способность, известная как выпрямление восприятия, помогает нам предсказывать траекторию идущего человека.

В отличие от людей, модели компьютерного зрения обычно не демонстрируют прямолинейности восприятия, поэтому они учатся представлять визуальную информацию весьма непредсказуемым образом. Но если бы модели машинного обучения обладали такой способностью, это могло бы позволить им лучше оценивать, как будут двигаться объекты или люди.

Исследователи Массачусетского технологического института обнаружили, что определенный метод обучения может помочь моделям компьютерного зрения освоить более понятные представления, как это делают люди. Обучение включает в себя демонстрацию модели машинного обучения на миллионах примеров, чтобы она могла изучить задачу.

Исследователи обнаружили, что обучение моделей компьютерного зрения с использованием метода, называемого состязательным обучением, который делает их менее чувствительными к крошечным ошибкам, добавляемым в изображения, улучшает прямолинейность восприятия моделей.

Исследователи Массачусетского технологического института обнаружили, что определенная методика обучения может позволить определенным типам моделей компьютерного зрения обучаться более стабильным и предсказуемым визуальным представлениям, которые больше похожи на те, которые люди изучают, используя биологическое свойство, известное как выпрямление восприятия. Фото: Новости Массачусетского технологического института и iStock

Команда также обнаружила, что на прямолинейность восприятия влияет задача, которую обучает модель выполнять. Модели, обученные выполнять абстрактные задачи, такие как классификация изображений, усваивают более понятные представления, чем модели, обученные выполнять более детальные задачи, такие как отнесение каждого пикселя изображения к категории.

Например, узлы в модели имеют внутренние активации, обозначающие «собаку», которые позволяют модели обнаруживать собаку, когда она видит любое изображение собаки. Перцептивно прямые изображения сохраняют более стабильное представление «собаки», когда в изображении происходят небольшие изменения. Это делает их более прочными.

Улучшив понимание прямолинейности восприятия в компьютерном зрении, исследователи надеются получить информацию, которая поможет им разработать модели, позволяющие делать более точные прогнозы. Например, это свойство может повысить безопасность автономных транспортных средств, которые используют модели компьютерного зрения для прогнозирования траекторий пешеходов, велосипедистов и других транспортных средств.

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"New York University researchers about perceptual straightness in humans, DuTell, Harrington, and their colleagues wondered if that property might be useful in computer vision models, too./p>

Блог