Аннотации:
В статье рассматривается комплексный анализ
модернизации системы для распознавания жестового языка Gestotalk, в которой
традиционные методы машинного обучения (SVM с точностью 82%)
дополняются современными архитектурами сверточных нейронных сетей (CNN
с ожидаемой точностью 90-95%). Исследование выявило ключевые
ограничения текущей реализации, включая снижение точности распознавания
схожих жестов и ухудшение производительности при изменении условий
освещения. Особое внимание уделено архитектурным решениям на базе CNN,
которые обеспечивают автоматическое выделение значимых признаков,
повышают устойчивость к вариациям условий съемки и сохраняют
производительность на CPU среднего уровня. Проведенное сравнение с
аналогами показывает преимущества предложенного подхода для русского
жестового языка. Особое внимание уделено перспективам развития системы,
включая распознавание динамических жестов и поддержку мультиязычных
жестовых алфавитов.
The article presents a comprehensive analysis of the modernization
of the Gestotalk sign language recognition system, in which traditional machine
learning methods (SVM with 82% accuracy) are complemented by modern
convolutional neural network architectures (CNN with an expected accuracy of 90-
95%). The study revealed key limitations of the current implementation, including
reduced accuracy in recognizing similar gestures and degraded performance under
changing lighting conditions. Particular attention is paid to CNN-based architectural
solutions that provide automatic extraction of significant features, increase resistance
to variations in shooting conditions, and maintain performance on mid-range CPUs.
A comparison with analogues shows the advantages of the proposed approach for
Russian sign language. Particular attention is paid to the prospects for the
development of the system, including the recognition of dynamic gestures and
support for multilingual sign alphabets.