AI 교정: MIT 연구원들이 인간과 머신 비전 사이의 격차를 해소하는 방법

작성자: Adam Zewe, Massachusetts Institute of Technology 2023년 5월 9일

MIT 연구원들은 적대적 훈련을 사용하여 컴퓨터 비전 모델을 훈련하면 지각의 직선성을 향상시켜 인간의 시각적 처리와 더 유사하게 만들 수 있음을 발견했습니다. 지각적 직진성은 모델이 물체의 움직임을 더 잘 예측할 수 있게 하여 잠재적으로 자율주행차의 안전성을 향상시킵니다. 적대적으로 훈련된 모델은 이미지의 약간의 변화에도 불구하고 객체를 안정적으로 표현하므로 더욱 강력해졌습니다. 연구원들은 자신의 연구 결과를 사용하여 새로운 훈련 계획을 만들고, 적대적 훈련이 모델이 인간의 인식을 모방하는 데 도움이 되는 이유를 추가로 조사하는 것을 목표로 합니다.

연구원들은 컴퓨터 비전 모델이 보다 안정적이고 예측 가능한 방식으로 시각적 세계를 표현하는 방법을 배우는 데 도움이 되는 속성을 식별합니다.

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">MIT 연구원들은 적대적 훈련이 컴퓨터 비전 모델의 지각 직선성을 향상시켜 인간의 시각적 처리와 더 유사하게 만들고 물체 움직임을 더 잘 예측할 수 있다는 것을 발견했습니다.

공원 벤치에 앉아 누군가가 지나가는 모습을 지켜본다고 상상해 보세요. 사람이 걸을 때 장면이 끊임없이 바뀔 수 있지만, 인간의 두뇌는 시간이 지남에 따라 역동적인 시각적 정보를 보다 안정적인 표현으로 변환할 수 있습니다. 지각 교정으로 알려진 이 능력은 걷는 사람의 궤적을 예측하는 데 도움이 됩니다.

인간과 달리 컴퓨터 비전 모델은 일반적으로 지각적 직선성을 나타내지 않으므로 매우 예측할 수 없는 방식으로 시각적 정보를 표현하는 방법을 배웁니다. 그러나 머신러닝 모델에 이러한 기능이 있다면 물체나 사람이 어떻게 움직일지 더 잘 예측할 수 있을 것입니다.

MIT 연구원들은 특정 훈련 방법이 컴퓨터 비전 모델이 인간처럼 보다 지각적으로 직선적인 표현을 학습하는 데 도움이 될 수 있음을 발견했습니다. 훈련에는 기계 학습 모델이 작업을 학습할 수 있도록 수백만 개의 예제를 보여주는 것이 포함됩니다.

연구진은 이미지에 추가된 작은 오류에 덜 반응하게 만드는 적대적 훈련이라는 기술을 사용하여 컴퓨터 비전 모델을 훈련하면 모델의 지각 직진성이 향상된다는 사실을 발견했습니다.

MIT 연구원들은 특정 훈련 기술을 통해 특정 유형의 컴퓨터 비전 모델이 보다 안정적이고 예측 가능한 시각적 표현을 학습할 수 있다는 사실을 발견했습니다. 이는 인간이 지각 교정이라는 생물학적 특성을 사용하여 학습하는 것과 더 유사합니다. 출처: iStock의 MIT 뉴스

또한 팀은 모델이 수행하도록 훈련하는 작업이 지각적 직선성에 영향을 미친다는 사실도 발견했습니다. 이미지 분류와 같은 추상적인 작업을 수행하도록 훈련된 모델은 이미지의 모든 픽셀을 카테고리에 할당하는 것과 같은 보다 세분화된 작업을 수행하도록 훈련된 모델보다 더 지각적으로 직선적인 표현을 학습합니다.

예를 들어, 모델 내의 노드에는 "개"를 나타내는 내부 활성화가 있어 모델이 개의 이미지를 볼 때 개를 감지할 수 있습니다. 지각적으로 직선 표현은 이미지에 작은 변화가 있을 때 보다 안정적인 "개" 표현을 유지합니다. 이로 인해 더욱 견고해졌습니다.

연구자들은 컴퓨터 비전의 지각적 직선성에 대한 더 나은 이해를 통해 보다 정확한 예측을 하는 모델을 개발하는 데 도움이 될 수 있는 통찰력을 발견할 수 있기를 희망합니다. 예를 들어, 이 속성은 컴퓨터 비전 모델을 사용하여 보행자, 자전거 타는 사람 및 기타 차량의 궤적을 예측하는 자율 주행 차량의 안전성을 향상시킬 수 있습니다.

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]"New York University researchers about perceptual straightness in humans, DuTell, Harrington, and their colleagues wondered if that property might be useful in computer vision models, too./p>

블로그

AI 교정: MIT 연구원들이 인간과 머신 비전 사이의 격차를 해소하는 방법