YOLOv9: Новые улучшения для повышения точности и скорости обнаружения объектов

Усовершенствования YOLOv9: повышение точности и скорости объекта

Введение

YOLOv9 - это последняя версия популярного алгоритма обнаружения объектов, разработанного Аленом Белсоном и его командой. По сравнению со своими предшественниками, YOLOv9 предлагает значительные улучшения как по точности, так и по скорости. В этой статье мы рассмотрим ключевые усовершенствования, внесенные в YOLOv9, и то, как они способствуют его превосходной производительности.

Улучшения точности

Усовершенствованный распознаватель признаков: YOLOv9 использует усовершенствованный распознаватель признаков, основанный на сети ConvNext, которая обеспечивает более богатые и дискриминативные признаки. Это приводит к повышению точности распознавания объектов, особенно в сложных сценах с перекрывающимися или затененными объектами.

Декомпозиционный кросс-аттенционный модуль: Этот модуль помогает модели уделять больше внимания наиболее релевантным частям изображения во время обнаружения объекта. Он разбивает входные функции на локальные и глобальные ветви, что позволяет модели сосредотачиваться как на деталях объекта, так и на его общем контексте.

Подавление ложных срабатываний: YOLOv9 внедряет подход к подавлению ложных срабатываний, который снижает количество ложных срабатываний во время распознавания объектов. Этот подход использует дополнительный небольшой детектор для выявления потенциальных ложных срабатываний и подавления их до вывода окончательных результатов.

Улучшения скорости

Уменьшение операций: YOLOv9 разработан с меньшим количеством операций, чем его предшественники, что приводит к увеличению скорости без ущерба для точности. Это достигается за счет использования более эффективной архитектуры сети и снижения количества параметров в модели.

Конвейерная обработка изображений: YOLOv9 использует конвейерную обработку изображений, которая позволяет перекрывать операции по предподготовке изображений и выводу объектов. Это значительно увеличивает пропускную способность, позволяя модели обрабатывать больше кадров в секунду.

Слияние CBL: YOLOv9 использует новый модуль слияния CBL (последовательность свертки-пакетного нормирования-утечки), который объединяет три операции в одну. Это не только упрощает архитектуру сети, но и повышает ее эффективность за счет снижения вычислительных затрат.

Результаты

Эксперименты показали, что YOLOv9 превосходит своих предшественников как по точности, так и по скорости. На наборе данных COCO YOLOv9 достигает среднего значения средней точности (AP) 56,8%, что на 3,1% выше, чем у YOLOv8. Кроме того, YOLOv9 обрабатывает 160 кадров в секунду на NVIDIA RTX 3090, что на 20% быстрее, чем YOLOv8.

Заключение

YOLOv9 представляет собой значительный шаг вперед в области обнаружения объектов, предлагая существенные улучшения как по точности, так и по скорости. Усовершенствованный распознаватель признаков, декомпозиционный кросс-аттенционный модуль и подавление ложных срабатываний повышают точность обнаружения объектов. Уменьшение операций, конвейерная обработка изображений и слияние CBL ускоряют обработку изображений без ущерба для точности. Эти усовершенствования делают YOLOv9 идеальным алгоритмом обнаружения объектов для различных приложений, требующих высокой точности и скорости.