Comparação de técnicas de aprendizado de máquina para a classificação de gestos para um sistema de interface homem-máquina sem contato
Visualizar/abrir
Data
2022Autor
Orientador
Nível acadêmico
Graduação
Assunto
Resumo
O reconhecimento de gestos de mão é um aspecto importante na comunicação interpessoal e com avanços tecnológicos na área de interação homem-máquina, tornou-se possível utilizar esses gestos como uma maneira do usuário interagir e controlar dispositivos. Nos últimos anos, diversos ramos da indústria veem desenvolvendo aplicações que utilizam o reconhecimento de gestos, como o ramo automotivo, ramo de robótica e ramo de realidade virtual, por exemplo. Levando em consideração estes últimos avanços ...
O reconhecimento de gestos de mão é um aspecto importante na comunicação interpessoal e com avanços tecnológicos na área de interação homem-máquina, tornou-se possível utilizar esses gestos como uma maneira do usuário interagir e controlar dispositivos. Nos últimos anos, diversos ramos da indústria veem desenvolvendo aplicações que utilizam o reconhecimento de gestos, como o ramo automotivo, ramo de robótica e ramo de realidade virtual, por exemplo. Levando em consideração estes últimos avanços importantes, esse trabalho explora a coleta de bases de dados, a análise dos dados coletados, o treinamento de diversos modelos de aprendizado de máquina sobre os dados até o desenvolvimento de uma aplicação simples utilizando um sistema de interface homem-máquina controlada por gestos. Para isso, duas bases de dados foram coletadas onde cada amostra representa o esqueleto da mão do voluntário, obtido utilizando a ferramenta MediaPipe, formado por 21 pontos. Além disso, para ambas as bases de dados, foram realizadas coletadas de amostras a uma distância de 50 cm, 75 cm e 100 cm da webcam. Uma base de dados segue um projeto de experimento com aleatorização na coleta de dados tendo a participação de 5 voluntários para coletar um total de 450 amostras para cada um dos 10 gestos propostos. A outra não seguiu um projeto com aleatorização na coleta e contou com a participação de um único voluntário para coletar 4.500 amostras por gesto. Sobre essas bases de dados, foram criados modelos inteligentes capazes de classificar os gestos utilizando oito técnicas de aprendizado de máquina, sendo elas regressão logística, classificador Bayes ingênuo, máquina de suporte de vetor, árvore de decisão, floresta aleatória, XGBoost, rede neural simples e uma MLP. Sobre cada técnica foi realiza um processo de otimização de hiper parâmetros. Dessa forma, a técnica que resultou nos modelos com o melhor desempenho foi a técnica XGBoost. O modelo XGBoost treinado sobre a base de dados aleatorizada obteve uma taxa de acerto de 99,425 ± 0,135% e um valor F1-score de 99,375 ± 0,175%, e o modelo treinado sobre os dados não aleatorizado obteve 99,400 ± 0,069% e 99,355 ± 0,075% respectivamente como taxa de acerto e F1-score. Por fim, foi desenvolvido uma simples aplicação que utilize esse modelo onde o usuário consegue realizar comandos de controle em um computador. ...
Abstract
Hand gestures recognition is an important aspect in interpersonal communication and with technological advances in the area of human-machine interaction, it has become possible to use these gestures as a way for the user to interact and control devices. In recent years, several branches of the industry have been developing applications that use gesture recognition, such as the automotive branch, robotics and virtual reality branch, for example. Considering these last important advances, this wo ...
Hand gestures recognition is an important aspect in interpersonal communication and with technological advances in the area of human-machine interaction, it has become possible to use these gestures as a way for the user to interact and control devices. In recent years, several branches of the industry have been developing applications that use gesture recognition, such as the automotive branch, robotics and virtual reality branch, for example. Considering these last important advances, this work explores the collection of databases, the analysis of the collected data, the training of different machine learning models on the data until the development of a simple application using a gesture-controlled human-machine interface system. For this, two databases were collected where each sample represents the skeleton of the volunteer's hand, obtained using the MediaPipe tool, formed by 21 points. In addition, for both databases, samples were collected at a distance of 50 cm, 75 cm and 100 cm from the webcam. A database follows an experiment design with randomization in data collection with the participation of 5 volunteers to collect a total of 450 samples for each of the 10 proposed gestures. The other did not follow a project with randomization in the collection and had the participation of a single volunteer to collect 4,500 samples per gesture. On these databases, intelligent models were created capable of classifying gestures using eight machine learning techniques, namely logistic regression, naive Bayes classifier, support vector machine, decision tree, random forest, XGBoost, simple neural network and a MLP. A hyperparameter optimization process was performed on each technique. Thus, the technique that resulted in the models with the best performance was the XGBoost technique. The XGBoost model trained on the randomized database obtained a hit rate of 99.425 ± 0.135% and an F1-score of 99.375 ± 0.175%, and the model trained on the non-randomized data obtained 99.400 ± 0.069% and 99.355 ± 0.075 % respectively as hit rate and F1-score. Finally, a simple application was developed that uses this model where the user can perform control commands on a computer. ...
Instituição
Universidade Federal do Rio Grande do Sul. Escola de Engenharia. Curso de Engenharia Elétrica.
Coleções
-
TCC Engenharias (5856)
Este item está licenciado na Creative Commons License