Внедрение свёрточных нейронных сетей (CNN) в Gestotalk: анализ преимуществ и план модернизации системы распознавания жестов

Голяс, А. С.; Мищенко, И. И.; Golyas, A. S.; Mishchenko, I. I.

Главная
→
Труды сотрудников
→
Статьи в сборниках материалов конференций
→
Статьи в сборниках материалов конференций
→
Просмотр элемента

Внедрение свёрточных нейронных сетей (CNN) в Gestotalk: анализ преимуществ и план модернизации системы распознавания жестов

Голяс, А. С.; Мищенко, И. И.; Golyas, A. S.; Mishchenko, I. I.

URI: http://e.biblio.bru.by/handle/1212121212/48189

Дата: 2025

Аннотации:

В статье рассматривается комплексный анализ модернизации системы для распознавания жестового языка Gestotalk, в которой традиционные методы машинного обучения (SVM с точностью 82%) дополняются современными архитектурами сверточных нейронных сетей (CNN с ожидаемой точностью 90-95%). Исследование выявило ключевые ограничения текущей реализации, включая снижение точности распознавания схожих жестов и ухудшение производительности при изменении условий освещения. Особое внимание уделено архитектурным решениям на базе CNN, которые обеспечивают автоматическое выделение значимых признаков, повышают устойчивость к вариациям условий съемки и сохраняют производительность на CPU среднего уровня. Проведенное сравнение с аналогами показывает преимущества предложенного подхода для русского жестового языка. Особое внимание уделено перспективам развития системы, включая распознавание динамических жестов и поддержку мультиязычных жестовых алфавитов. The article presents a comprehensive analysis of the modernization of the Gestotalk sign language recognition system, in which traditional machine learning methods (SVM with 82% accuracy) are complemented by modern convolutional neural network architectures (CNN with an expected accuracy of 90- 95%). The study revealed key limitations of the current implementation, including reduced accuracy in recognizing similar gestures and degraded performance under changing lighting conditions. Particular attention is paid to CNN-based architectural solutions that provide automatic extraction of significant features, increase resistance to variations in shooting conditions, and maintain performance on mid-range CPUs. A comparison with analogues shows the advantages of the proposed approach for Russian sign language. Particular attention is paid to the prospects for the development of the system, including the recognition of dynamic gestures and support for multilingual sign alphabets.

Показать полную информацию