El conjunto de datos HA4M: Multi

Noticias

HogarHogar / Noticias / El conjunto de datos HA4M: Multi

May 16, 2023

El conjunto de datos HA4M: Multi

Datos científicos volumen 9, número de artículo: 745 (2022) Cite este artículo 2558 Accesos 1 Detalles de Altmetric Metrics Este artículo presenta el monitoreo multimodal de la acción humana en la fabricación (HA4M)

Datos científicos volumen 9, número de artículo: 745 (2022) Citar este artículo

2558 Accesos

1 altmétrica

Detalles de métricas

Este artículo presenta el conjunto de datos de Monitoreo multimodal de la acción humana en la fabricación (HA4M), una colección de datos multimodales relativos a acciones realizadas por diferentes sujetos que construyen un tren de engranajes epicicloidales (EGT). En particular, 41 sujetos realizaron varias pruebas de la tarea de montaje, que consta de 12 acciones. Los datos se recopilaron en un escenario de laboratorio utilizando Microsoft® Azure Kinect que integra una cámara de profundidad, una cámara RGB y emisores de infrarrojos (IR). Hasta donde saben los autores, el conjunto de datos HA4M es el primer conjunto de datos multimodal sobre una tarea de ensamblaje que contiene seis tipos de datos: imágenes RGB, mapas de profundidad, imágenes IR, imágenes alineadas RGB a profundidad, nubes de puntos y esqueleto. datos. Estos datos representan una buena base para desarrollar y probar sistemas avanzados de reconocimiento de acciones en varios campos, incluidos la visión por computadora y el aprendizaje automático, y dominios de aplicaciones como la fabricación inteligente y la colaboración entre humanos y robots.

Mediciones)

acciones humanas en el contexto de la fabricación

Tipo(s) de tecnología

Cámara Microsoft Azure Kinect

El reconocimiento de la acción humana es un tema activo de investigación en visión por computadora1,2 y aprendizaje automático3,4 y en la última década se ha llevado a cabo un gran trabajo de investigación, como se ve en la literatura existente5. Además, la reciente proliferación de sistemas de cámaras de vídeo de bajo coste, incluidas las cámaras de profundidad6, ha reforzado el desarrollo de sistemas de observación en una variedad de ámbitos de aplicación, como la videovigilancia, la seguridad y la seguridad en el hogar inteligente, la vida asistida por el ambiente y la salud. -cuidado y así sucesivamente. Sin embargo, se ha trabajado poco en el reconocimiento de la acción humana para el ensamblaje de fabricación7,8,9 y la escasa disponibilidad de conjuntos de datos públicos limita el estudio, el desarrollo y la comparación de nuevos métodos. Esto se debe principalmente a cuestiones desafiantes como la similitud entre acciones, la complejidad de las acciones, la manipulación de herramientas y piezas, la presencia de movimientos finos y operaciones complejas.

El reconocimiento de las acciones humanas en el contexto de la fabricación inteligente es de gran importancia para diversos fines: mejorar la eficiencia operativa8; promover la cooperación entre humanos y robots10; ayudar a los operadores11; apoyar la formación de los empleados9,12; aumentar la productividad y la seguridad13; o para promover la buena salud mental de los trabajadores14. En este artículo, presentamos el conjunto de datos de Monitoreo multimodal de la acción humana en la fabricación (HA4M), que es un conjunto de datos multimodal adquirido por una cámara RGB-D durante el ensamblaje de un tren de engranajes epicicloidal (EGT) (ver Fig. 1). .

Componentes que intervienen en el montaje del Tren de Engranajes Epicíclicos. El modelo CAD de los componentes está disponible públicamente en44.

El conjunto de datos HA4M proporciona una buena base para desarrollar, validar y probar técnicas y metodologías para reconocer acciones de ensamblaje. La literatura es rica en conjuntos de datos RGB-D para el reconocimiento de acciones humanas15,16,17 adquiridos predominantemente en entornos interiores y exteriores sin restricciones. Están principalmente relacionados con acciones diarias (como caminar, saltar, saludar, agacharse, etc.), condiciones médicas (como dolor de cabeza, dolor de espalda, tambalearse, etc.), interacciones entre dos personas (como abrazarse, tomar una foto). , señalar con el dedo, dar un objeto, etc.) o acciones de juego (como golpear hacia adelante, sacar en tenis, balancear el golf, etc.). La Tabla 1 presenta algunos de los conjuntos de datos RGB-D más famosos y comúnmente utilizados sobre el reconocimiento de acciones humanas y describe sus principales peculiaridades.

Hasta donde saben los autores, existen pocos conjuntos de datos basados ​​en visión en el contexto del ensamblaje de objetos. Los investigadores suelen crear sus propios conjuntos de datos a partir de datos de vídeo privados7,18. La Tabla 2 compara el conjunto de datos HA4M propuesto con conjuntos de datos existentes sobre reconocimiento de acciones de ensamblaje. Como se muestra en la Tabla 2, el HA4M propuesto presenta varias contribuciones principales:

Variedad de datos: el conjunto de datos HA4M proporciona una variedad considerable de datos multimodales en comparación con los conjuntos de datos existentes. Se suministran seis tipos de datos simultáneos: cuadros RGB, mapas de profundidad, cuadros IR, cuadros alineados RGB a profundidad, nubes de puntos y datos de esqueleto. Estos datos permiten a la comunidad científica hacer comparaciones consistentes entre enfoques de procesamiento o enfoques de aprendizaje automático mediante el uso de una o más modalidades de datos.

Variedad de acciones: El conjunto de datos HA4M presenta una amplia variedad en la ejecución de acciones considerando la gran cantidad de sujetos (41) que realizan la tarea, la gran cantidad de acciones (12), el diferente orden seguido por los sujetos para realizar las acciones y el uso indistinto de ambas manos.

Acciones detalladas: las acciones presentan una alta granularidad ya que existe una distinción sutil entre las partes que se ensamblarán y entre acciones que parecen visualmente similares.

Cuestiones desafiantes: Los componentes que se ensamblarán y las acciones son muy similares y simétricos. Entonces, la tarea de reconocimiento de acciones requiere un alto nivel de comprensión del contexto y una importante capacidad de seguimiento de objetos. El escenario medioambiental del conjunto de datos es realista y no cambia con el tiempo, como suele ocurrir en contextos de montaje industrial. Por lo tanto, reconocer diferentes acciones es un gran desafío ya que depende únicamente del seguimiento de los movimientos de los brazos del operador. Además, el conjunto de datos comprende vídeos sin recortar que contienen acciones realizadas consecutivamente en diferentes órdenes. La segmentación de acciones temporales es crucial para la comprensión de videos de alto nivel. Por lo tanto, el conjunto de datos propuesto se puede utilizar para probar la segmentación de acciones y las tareas de reconocimiento de acciones.

En el conjunto de datos propuesto, una cámara Microsoft Azure Kinect19,20 adquiere videos durante la ejecución de la tarea de ensamblaje. La cámara Azure Kinect ofrece una precisión mejorada que otros sensores RGB-D asequibles que implementan principios de tiempo de vuelo (ToF)21, lo que convierte a Azure Kinect en una de las mejores soluciones para el seguimiento del cuerpo humano en interiores en escenarios de fabricación22,23,24.

El montaje de un EGT consta de tres fases (Fig. 1): primero, el montaje del Bloque 1 y del Bloque 2 por separado y luego la construcción final de ambos bloques. El EGT se compone de un total de 13 componentes: ocho componentes para construir el Bloque 1, cuatro componentes para construir el Bloque 2 y una tapa para ensamblar el Bloque 1 y el Bloque 2. Finalmente, dos tornillos fijan los dos bloques con una llave Allen, obteniendo así el EGT. En la Fig. 1 también se muestran los dos soportes utilizados para facilitar el montaje de cada bloque. La Tabla 3 enumera los componentes individuales y las acciones necesarias para ensamblar el Bloque 1, el Bloque 2 y todo el EGT, respectivamente. El número total de actuaciones es de 12, divididas de la siguiente manera: cuatro actuaciones para el edificio Bloque 1; cuatro actuaciones para la construcción del Bloque 2; y cuatro acciones para ensamblar los dos bloques y completar el EGT. Como se puede observar en la Tabla 3, algunas acciones se realizan más veces cuanto más componentes del mismo tipo hay que ensamblar: las acciones 2 y 3 se ejecutan tres veces, mientras que la acción 11 se repite dos veces. Finalmente, se ha agregado una acción "no importa" (ID = 0) para incluir transiciones o eventos inesperados como la pérdida de un componente durante el ensamblaje.

Los experimentos se llevaron a cabo en dos laboratorios (uno en Italia y otro en España). La configuración de adquisición se muestra en la Fig. 2. Se colocó un Microsoft Azure Kinect® en un trípode frente al operador a una altura h = 1,54 m sobre el suelo y una distancia horizontal d = 1,78 m desde el borde más alejado de la mesa. . La cámara está inclinada hacia abajo en un ángulo α = 17 (ver Fig. 2b). Como se muestra en la Fig. 2a, los componentes individuales a ensamblar se extienden sobre una mesa frente al operador y se colocan según el orden de montaje. El operador puede recoger un componente a la vez para realizar la tarea de montaje de pie frente a la mesa.

Croquis del montaje de adquisición: (a) se coloca un Microsoft® Azure Kinect frente al operador y la mesa donde se distribuyen los componentes; (b) especificaciones de configuración.

En la Fig. 3 se muestran dos fotogramas RGB típicos capturados por la cámara en cada laboratorio. La mesa de trabajo está cubierta por un mantel uniforme, mientras que los componentes están dispuestos en cajas o distribuidos sobre la mesa. En la Fig. 3, los dos soportes, fijados sobre la mesa para facilitar el montaje del Bloque 1 y del Bloque 2, están identificados por flechas. Los componentes del bloque pueden ser blancos sobre un mantel negro o negros sobre un mantel blanco. En ambos casos, los elementos quedan bien visibles sobre la mesa.

Fotogramas de vídeo típicos adquiridos por la cámara RGB-D en el (a) “Laboratorio de Visión e Imágenes” de STIIMA-CNR en Bari (Italia) y en el (b) “Departamento de Matemáticas e Informática”, Universidad de La Rioja, Logroño (España).

El conjunto de datos HA4M contiene 217 vídeos de la tarea de montaje realizada por 41 sujetos (15 mujeres y 26 hombres). Sus edades oscilaban entre los 23 y los 60 años. Todos los sujetos participaron voluntariamente y se les proporcionó una descripción escrita del experimento. Además, leyeron y firmaron un formulario de consentimiento informado, conservado en el “Instituto de Sistemas y Tecnologías Industriales Inteligentes para la Fabricación Avanzada” (STIIMA), del “Consejo Nacional de Investigación” (CNR) de Italia. El estudio y los experimentos fueron aprobados por el Comité de Ética institucional del CNR con Notificación n. 0013464-2022. Primero se instruyó a los sujetos sobre la secuencia de acciones a realizar para construir el EGT. Sin embargo, cuando fue posible, se permitieron diferencias en el orden de montaje. Como ejemplo, las acciones 2 y 3 se pueden realizar tres veces en secuencia (es decir, 2, 2, 2, 3, 3, 3) o alternativamente (es decir, 2, 3, 2, 3, 2, 3). Además, se pidió a cada sujeto que ejecutara la tarea varias veces y que realizara las acciones como prefería (por ejemplo, con ambas manos), independientemente de su mano dominante.

La anotación de datos se refiere al etiquetado de las diferentes acciones en secuencias de vídeo. La anotación de las acciones se ha realizado manualmente observando los vídeos RGB fotograma a fotograma, y ​​contrastado por dos investigadores con diferentes formaciones, ya sea en ingeniería o en informática. El cuadro inicial de cada acción se identifica cuando el sujeto comienza a mover el brazo hacia el componente que va a agarrar. El cuadro final, en cambio, se graba cuando el sujeto suelta el componente, de modo que el siguiente cuadro se convierte en el comienzo de la acción posterior. El número total de acciones anotadas en este estudio es 4124, considerando que las acciones 2 y 3 se realizan tres veces en cada video, mientras que la acción 11 se realiza 2 veces (ver Tabla 3). Además, la acción “no me importa” ha sido comentada 435 veces en todos los vídeos.

Una vez completada la anotación manual, se analizaron las articulaciones de las muñecas de ambas manos para comprobar más a fondo el etiquetado manual. Con referencia a la Fig. 4, que muestra el movimiento de la muñeca derecha durante los primeros 1000 fotogramas de un vídeo de muestra, los puntos locales de variación de curvatura de las coordenadas x y z de las articulaciones de la muñeca pueden considerarse como puntos de cambio de acción. Estos puntos coinciden con el cuadro de inicio de cada acción (líneas verticales en la Fig. 4) obtenido mediante anotación de video manual. Vale la pena señalar que la coordenada y no proporciona información para la verificación de anotaciones, ya que representa la altura de la junta, generalmente constante y cercana a la altura de la mesa durante todas las acciones.

Comprobación del procedimiento de anotación. La gráfica informa las trayectorias de las coordenadas (x, y, z) de la muñeca derecha de un sujeto diestro en los primeros 1000 fotogramas de un vídeo adquirido. Las líneas verticales identifican el fotograma inicial de las acciones anotadas manualmente. También se muestran algunos cuadros RGB relativos. Los fotogramas se han recortado con fines de visualización.

El conjunto de datos está disponible públicamente en “https://baltig.cnr.it/ISP/ha4m” y en el repositorio del Science Data Bank25. El tamaño de todo el conjunto de datos es de aproximadamente 4,1 TB. y está organizado como se muestra en la Fig. 5. Los datos relativos a cada sujeto y cada video se almacenan en una carpeta denominada “IDUnVm”, donde los índices n y m se refieren al número de identificación del sujeto (n = 1,…,41) y el número de identificación del vídeo, respectivamente. Esta carpeta contiene el archivo de anotaciones (“Labels.txt”) y 6 subcarpetas llamadas respectivamente: “Color”, “Color_Aligned”, “Depth”, “Infrared”, “Point_Clouds_DepthGeometry” y “Skeletons”. Las subcarpetas contienen los fotogramas RGB, los fotogramas alineados en profundidad RGB (RGB-A), los fotogramas de profundidad, los fotogramas IR, las nubes de puntos y los datos de esqueleto, respectivamente. Antes de acceder a los datos, existe un segundo nivel de subcarpetas, nombradas con el número de serie de la cámara Azure Kinect. En aras de la claridad, este nivel se omitirá en las siguientes líneas ya que cada video es adquirido por una sola cámara y, por lo tanto, el conocimiento de su número de serie no agregará información a la descripción del conjunto de datos.

Estructura del conjunto de datos para cada tema y cada vídeo. El nombre de la carpeta “IDUnVm” contiene el número de identificación del sujeto n y el número de identificación del video m. Esta carpeta contiene el archivo de anotaciones (“Labels.txt”) y 6 subcarpetas que contienen los cuadros RGB, los cuadros RGB alineados en profundidad (RGB-A), los cuadros de profundidad, los cuadros IR, las nubes de puntos y los datos del esqueleto, respectivamente.

El nombre de los archivos contenidos en cada subcarpeta es "FrameIDiDeviceTimeStampjus", donde i y j se refieren al número de fotograma y la marca de tiempo, respectivamente, mientras que "nosotros" es la unidad de tiempo (microsegundos). Tenga en cuenta que la marca de tiempo se estima en relación con el dispositivo de adquisición específico. En el caso de las subcarpetas “Color” y “Color_Aligned”, la marca de tiempo es relativa al sensor RGB de Azure Kinect. Por el contrario, en el caso de las subcarpetas “Profundidad”, “Infrarrojos”, “Point_Clouds_DepthGeometry” y “Skeletons”, la marca de tiempo en los nombres de archivos es relativa al sensor de infrarrojos. El ligero retraso entre las cámaras RGB y de profundidad es insignificante, ya que, en promedio, es mucho menor que la inversa de la velocidad de fotogramas de la cámara.

La Tabla 4 brinda algunos detalles sobre los datos, como tipo, dimensión y formato de archivo. Todos los archivos de imagen (RGB, RGB-A, Profundidad, IR) están en formato de archivo PNG. Los fotogramas RGB tienen una resolución de 2048 × 1536 y tres canales de 8 bits cada uno. Los fotogramas de profundidad son imágenes en escala de grises con resolución de 640 × 576 y profundidad de canal de 16 bits. Cada valor de píxel distinto de 0 representa la distancia de profundidad expresada en mm. Los fotogramas IR tienen las mismas características que los fotogramas de profundidad, donde cada valor de píxel distinto de 0 aquí representa el valor IR detectado. Los fotogramas RGB-A son fotogramas RGB proyectados sobre el sensor IR mediante transformación geométrica interna. Los fotogramas resultantes tienen, por tanto, una resolución de 640 × 576, igual a la de las imágenes IR y de profundidad. Por el contrario, las imágenes se almacenan con cuatro canales: tres canales de 8 bits para los valores RGB y un canal α adicional de 8 bits. Los valores de α pueden ser iguales a 255 o 0 dependiendo de si la información de profundidad está disponible. Finalmente, los archivos de nube de puntos se almacenan en el formato de archivo PLY. Estos son archivos binarios little-endian que pueden tener como máximo 640 × 576 = 368640 puntos, dependiendo de la presencia de información de profundidad. Los archivos están en el sistema de referencia del sensor IR. Las coordenadas 3D de los vértices están en metros y la información de color RGB está en tres entradas uchar de 8 bits.

Los archivos que contienen los datos del esqueleto en cada cuadro están en formato TXT. Estos archivos existen sólo si se detecta un ser humano en la escena. Los archivos contienen 14 columnas con los siguientes elementos:

ID de esqueleto: el SDK de seguimiento corporal de Azure Kinect puede rastrear varios cuerpos humanos en la escena. En nuestro caso, solo hay una persona en la escena, por lo que el ID del esqueleto suele ser 1.

ID de articulación: el modelo de esqueleto incluye 32 articulaciones en el rango de 0 a 31. La jerarquía articular fluye desde el centro del cuerpo hasta las extremidades, como se ilustra en la Fig. 6.

Ubicaciones y conexiones de articulaciones relativas al esqueleto humano extraídas utilizando el SDK de seguimiento corporal de Microsoft Azure Kinect v1.1.219. El esqueleto incluye 32 articulaciones, numeradas del 0 al 31, y la jerarquía articular fluye desde el centro del cuerpo hasta las extremidades.

Nivel de confianza de la articulación: el nivel de confianza puede tener valores iguales a 0 si la articulación está fuera del rango de profundidad o del campo de visión; 0,33 si la articulación está ocluida pero se predice su posición; 0,67 si las juntas son visibles y correctamente identificadas. Este último valor es el nivel máximo de confianza en la pose conjunta devuelto por el SDK de seguimiento corporal de Azure Kinect (versión 1.1.2).

Posición 3D de la articulación: (X, Y, Z) posición de la articulación en unidades milimétricas. La posición y orientación de las articulaciones se estiman en el sistema de referencia del sensor IR de la cámara Azure Kinect.

Orientación 3D conjunta: la orientación (Qw, Qx, Qy, Qz) se expresa como un cuaternión normalizado.

Espacio de color 2D y espacio de profundidad conjuntos: tanto las cámaras de profundidad como las de RGB están asociadas con un sistema de coordenadas 2D independiente. Entonces, cada articulación tiene coordenadas de posición 2D en imágenes de color (x2DColor, y2DColor) y de profundidad (x2DDepth, y2DDepth), respectivamente. Si la articulación no tiene color ni imagen de profundidad, las coordenadas relativas asumen un valor de 0.

La Figura 7 muestra un cuadro de muestra para cada tipo de imágenes: RGB, Profundidad, IR y RGB-A. Para completar, también se muestra una representación de la nube de puntos relativa.

Cuadros de muestra: RGB, profundidad, IR, RGB-A y nube de puntos. Las imágenes han sido manipuladas con fines de visualización.

Cada carpeta de vídeo tiene el archivo “Labels.txt”, que contiene la anotación manual correspondiente. Este archivo está formado por tres columnas: la primera contiene el número de fotograma; el segundo contiene el número de identificación de la acción (en el rango de 0 a 12); el tercero tiene un índice entero que hace referencia a la repetición de la acción actual. Este índice puede ser 0, 1 o 2, lo que indica que la ejecución de la acción actual es la primera, segunda o tercera, respectivamente. Se permiten números de repetición distintos de 0 en el caso de las acciones 2, 3 y 11 (ver Tabla 3).

Esta sección proporciona una evaluación estadística de los datos adquiridos y una visión de algunas cuestiones científicas que se pueden explorar utilizando el conjunto de datos HA4M.

Este párrafo presenta un análisis espacio-temporal de las acciones. Como primera caracterización de los datos, primero se evalúa la varianza de la duración de la acción. Luego, también se explora un análisis espacial de la posición 3D de las articulaciones de la muñeca para caracterizar mejor los datos. Nótese que la acción “no me importa” no se considera en este estudio de evaluación ya que no contribuye al armado del EGT.

Los vídeos fueron grabados por la cámara Azure Kinect a 30 fotogramas por segundo (fps). Las Figuras 8a,b muestran el número medio de fotogramas con la desviación estándar relativa para cada acción en todos los vídeos grabados. Para completar, las Tablas 5 y 6 enumeran numéricamente las estadísticas de tiempo para cada acción y los videos, respectivamente, en términos de número de fotogramas y tiempo de ejecución.

(a) Número medio de fotogramas y (b) desviación estándar relativa para cada acción, estimada en todo el conjunto de datos.

Como se puede observar, las acciones que requieren más tiempo tienen una variación alta en los tiempos de ejecución. Estas acciones pueden ser más complejas como la acción 9 (montaje de los Bloques 1 y 2), o pueden implicar una actividad más larga como la acción 12 (apriete de tornillos). Además, los sujetos realizan la tarea a su cómoda velocidad autoseleccionada, por lo que se puede notar una gran variación de tiempo entre los diferentes sujetos. La Figura 9 compara el número medio de fotogramas para cada acción evaluada en los vídeos de dos sujetos diferentes (el número 2 y el número 27) y el conjunto de datos total. Como se puede observar, el sujeto 2 ejecuta las acciones a menor velocidad que el sujeto 27, que por el contrario es muy rápido en la ejecución de las tareas, incluso con respecto a la media total. Esto se debe principalmente a las diferentes habilidades de los sujetos en el montaje del EGT o por eventos accidentales, como la pérdida y recuperación de algún componente.

Análisis comparativo del desempeño de dos sujetos. Los histogramas muestran el número medio de fotogramas para cada acción ejecutada por el sujeto 2 y el sujeto 27 en comparación con el número medio de fotogramas evaluados en todo el conjunto de datos.

El análisis del movimiento espacial de ambas muñecas de todos los sujetos es útil para obtener información sobre la dirección principal y el desplazamiento espacial de cada acción. Las Figuras 10a,b muestran la desviación estándar de las coordenadas (X, Y, Z) de la articulación de la muñeca derecha y la articulación de la muñeca izquierda de todos los sujetos y para cada acción, respectivamente. Como puede observarse, se pueden identificar diferentes categorías de acciones según las propiedades espaciales: por ejemplo, las acciones 1 a 7 evolucionan principalmente en la dirección Z, mientras que las acciones 8 y 10 evolucionan principalmente en la dirección X. Finalmente, las acciones 9, 11 y 12 presentan movimientos comparables a lo largo de las tres direcciones ya que estas acciones requieren más manipulaciones espaciales del EGT. Vale la pena señalar que este análisis espacial puede estar sesgado por la forma en que los sujetos realizaron las tareas, ya que no se impusieron reglas precisas para tener la mayor variabilidad del conjunto de datos. En consecuencia, algunos sujetos utilizaron su mano dominante mientras que otros utilizaron ambas manos indistintamente.

Desviación estándar de las coordenadas (X, Y, Z) de (a) articulación de la muñeca derecha y (b) articulación de la muñeca izquierda de todos los sujetos y para cada acción.

Esta sección analiza algunos problemas que se pueden explorar utilizando el conjunto de datos HA4M propuesto en varios contextos de aplicación.

En los últimos años, el foco de la fabricación inteligente se ha centrado principalmente en la transformación de los sistemas de fabricación en nuevos modelos con propiedades operativas mejoradas y nuevas tecnologías. Más recientemente, el enfoque ha cambiado hacia una nueva perspectiva que coloca a los trabajadores en el centro de la transformación digital, donde la tecnología debe facilitar o mejorar las capacidades físicas o cognitivas humanas en lugar de reemplazarlas26. Como consecuencia, la comunidad científica es muy activa en este ámbito estudiando y desarrollando sistemas inteligentes para monitorear a los trabajadores y determinar cómo trabajan, sus puntos débiles y los desafíos que enfrentan. Así, observar los movimientos de los operadores humanos en el escenario real de una tarea de montaje es muy importante para reconocer sus capacidades/competencias, especialmente en tareas colaborativas con robots. Además, uno de los puntos principales de las soluciones de fábricas inteligentes es la inclusión de personas con discapacidad o con diferentes habilidades manuales en los procesos de producción. El conjunto de datos HA4M representa un banco de pruebas para analizar las condiciones operativas de diferentes sujetos con diferentes niveles de habilidad. En el conjunto de datos, personas con distintas edades y habilidades ejecutan acciones complejas de maneras muy diferentes. Una tarea desafiante es el desarrollo de metodologías de reconocimiento de acciones invariantes en el tiempo capaces de reconocer ejecuciones muy diferentes de las mismas acciones. El análisis espacial y temporal de las acciones presentado en la sección anterior demuestra la alta variabilidad de la ejecución de las acciones, que se correlaciona no sólo con la velocidad de ejecución sino también con la capacidad de los sujetos en el manejo de las partes del EGT.

Durante años, la literatura sobre reconocimiento de acciones humanas ha estado dominada por enfoques basados ​​en la visión que utilizan vídeos RGB monoculares, lo que dificulta las representaciones de acciones en el espacio 3D. Además, para lograr reconocimientos sólidos, se deben abordar problemas desafiantes que aparecen comúnmente en la escena, como variaciones de iluminación, desorden, oclusiones y diversidad de fondo. El desarrollo de tecnologías de bajo costo ha puesto a disposición más modalidades sensoriales para superar algunos de los desafíos mencionados anteriormente27. El conjunto de datos HA4M proporciona varios tipos de datos, como profundidad, infrarrojos o nube de puntos, extraídos mediante el sensor Azure Kinect. Por tanto, el conjunto de datos permite que la investigación en integración de datos multimodal aproveche la peculiaridad de cada sensor (RGB e IR) y supere sus limitaciones intrínsecas.

La literatura es rica en trabajos sobre metodologías de reconocimiento de acciones aplicadas con éxito al análisis de vídeos cortos. En los últimos años, la atención se ha centrado en la segmentación temporal de acciones en vídeos largos sin recortar28. En el dominio de la Industria 4.0, donde humanos y robots realizan tareas colaborativas en condiciones muy variables, es imperativo reconocer el comienzo y el final exactos de una acción. El conjunto de datos HA4M contiene vídeos largos con múltiples instancias de acciones realizadas de diferentes maneras y en diferentes órdenes. Por tanto, el análisis de estos vídeos requiere del reconocimiento de secuencias de acción. Aquí, el problema de la segmentación temporal de la acción apunta a capturar y clasificar cada segmento de acción en una categoría de acción.

El análisis de vídeos de interacciones humano-objeto implica comprender los movimientos humanos, reconocer y localizar objetos y observar los efectos de los movimientos humanos sobre esos objetos29. Los enfoques tradicionales para la clasificación de objetos y la comprensión de acciones se basaban en características de forma y análisis de movimiento. En el contexto de las tareas de montaje, las relaciones entre los movimientos y los objetos manipulados pueden ayudar con el reconocimiento de acciones. Las secuencias de acciones que manipulan objetos similares (como insertar el engranaje planetario en el cojinete del engranaje planetario) se pueden agregar para crear un nivel superior de acciones semánticas. La presencia de imágenes RGB y nubes de puntos en el conjunto de datos HA4M podría permitir el reconocimiento de herramientas y piezas con enfoques de reconocimiento de patrones y su manipulación relativa para mejorar la clasificación del objetivo de acción.

El conjunto de datos ha sido adquirido mediante el software GUI Multiple Azure Kinect, cuyo código fuente y el correspondiente instalador están disponibles en “https://gitlab.com/roberto.marani/multiple-azure-kinect-gui”. Este software se basa en el SDK de Azure Kinect Sensor v1.4.1 y el SDK de Azure Kinect Body Tracking v1.1.219. En particular, el SDK de Azure Kinect proporciona una API para registrar datos del dispositivo en un archivo Matroska (.mkv) que contiene pistas de vídeo, muestras de IMU y calibración del dispositivo. En este trabajo no se consideran muestras de IMU. El software GUI Multiple Azure Kinect procesa el archivo Matroska y devuelve los diferentes tipos de datos: imágenes RGB, imágenes RGB alineadas en profundidad (RGB-A), imágenes de profundidad, imágenes IR y nube de puntos. Al mismo tiempo, al explotar el SDK de seguimiento corporal de Azure Kinect, los datos esqueléticos se almacenan en los archivos TXT correspondientes.

Junto con el conjunto de datos, también se proporciona un código de demostración de Matlab (archivo .m) para trazar los esqueletos en las imágenes RGB correspondientes.

Özyer, T., Ak, DS y Alhajj, R. Enfoques de reconocimiento de acciones humanas con conjuntos de datos de vídeo: una encuesta. Sistemas basados ​​en el conocimiento 222, 1–36 (2021).

Artículo de Google Scholar

Mahbub, U. & Ahad, MAR Avances en la acción, actividad y reconocimiento de gestos humanos. Cartas de reconocimiento de patrones 155, 186–190 (2022).

Artículo de Google Scholar

Zhang, HB y cols. Un estudio completo de los métodos de reconocimiento de la acción humana basados ​​en la visión. Sensores 19, 1-20 (2019).

Google Académico

Wang, J., Chen, Y., Hao, S., Peng, X. y Hu, L. Aprendizaje profundo para el reconocimiento de actividad basado en sensores: una encuesta. Cartas de reconocimiento de patrones 119, 3–11 (2019).

Artículo de Google Scholar

Jegham, I., Khalifa, AB, Alouani, I. y Mahjoub, MA Reconocimiento de la acción humana basado en la visión: una descripción general y desafíos del mundo real. Forensic Science International: Investigación digital 32, 1–17 (2020).

Google Académico

Sarkar, A., Banerjee, A., Singh, P. y Sarkar, R. Reconocimiento de acción humana en 3D: a través de los ojos de investigadores. Sistemas expertos con aplicaciones 193, 116424 (2022).

Artículo de Google Scholar

Al-Amin, M. et al. Un sistema individualizado de clasificadores CNN basados ​​en datos esqueléticos para el reconocimiento de acciones en el ensamblaje de fabricación. Revista de Fabricación Inteligente de julio, https://doi.org/10.1007/s10845-021-01815-x (2021).

Chen, C., Wang, T., Li, D. y Hong, J. Reconocimiento de acciones de ensamblaje repetitivas basado en la detección de objetos y estimación de pose. Revista de sistemas de fabricación 55, 325–333 (2020).

Artículo de Google Scholar

Zamora-Hernandez, MA, Castro-Vergas, JA, Azorín-Lopez, J. & García-Rodríguez, J. Asistente de control visual basado en aprendizaje profundo para ensamblaje en la industria 4.0. Computadoras en la industria 131, 1–15 (2021).

Artículo de Google Scholar

Wang, L. y col. Ensamblaje colaborativo simbiótico humano-robot. Anales CIRP: tecnología de fabricación 68, 701–726 (2019).

Artículo de Google Scholar

Tao, W. y col. Reconocimiento de operaciones de ensamblaje en tiempo real con computación de niebla y aprendizaje por transferencia para fabricación inteligente centrada en el ser humano. Procedia Manufacturing 48, 926–931 (2020).

Artículo de Google Scholar

Patalas-Maliszewska, J., Halikowski, D. y Damaševičius, R. Un reconocimiento automatizado de la actividad laboral en la fabricación industrial utilizando redes neuronales convolucionales. Electrónica 10, 1–17 (2021).

Artículo de Google Scholar

Kobayashi, T., Aoki, Y., Shimizu, S., Kusano, K. y Okumura, S. Reconocimiento de acción detallado en escenas de trabajo de ensamblaje llamando la atención sobre las manos. En la XV Conferencia Internacional sobre Tecnología de Señales e Imagen y Sistemas Basados ​​en Internet (SITIS), 440–446 https://doi.org/10.1109/SITIS.2019.00077 (2019).

Nicora, ML et al. Una arquitectura de control impulsada por humanos para promover una buena salud mental en escenarios de robots colaborativos. En 2021, 30.a Conferencia Internacional IEEE sobre Comunicación Interactiva Humana y Robots (RO-MAN), 285–291 https://doi.org/10.1109/RO-MAN50785.2021.9515315 (2021).

Zhang, J., Li, W., Ogunbona, PO, Wang, P. & Tang, C. Conjuntos de datos de reconocimiento de acciones basados ​​en RGB-D: una encuesta. Reconocimiento de patrones 60, 86–105 (2016).

Artículo de Google Scholar

Wang, P., Li, W., Ogunbona, P., Wan, J. & Escalera, S. Reconocimiento de movimiento humano basado en RGB-D con aprendizaje profundo: una encuesta. Visión por computadora y comprensión de imágenes 171, 118-139 (2018).

Artículo CAS Google Scholar

Lopes, A., Souza, R. & Pedrini, H. Una encuesta sobre conjuntos de datos RGB-D. Visión por computadora y comprensión de imágenes 222, 103489 (2022).

Zhang, J., Wang, P. & Gao, RX Aprendizaje automático híbrido para el reconocimiento y predicción de la acción humana en ensamblaje. Robótica y fabricación integrada por computadora 72, 102184 (2021).

Artículo de Google Scholar

Microsoft. Documentación de Azure Kinect DK. https://docs.microsoft.com/en-us/azure/kinect-dk/, consultado en marzo de 2022 (2021).

Romeo, L., Marani, R., Malosio, M., Perri, AG y D'Orazio, T. Análisis de rendimiento del seguimiento corporal con Microsoft Azure Kinect. En 2021, 29.ª Conferencia Mediterránea sobre Control y Automatización (MED), 572–577 https://doi.org/10.1109/MED51440.2021.9480177 (2021).

Albert, JA, Owolabi, V., Gebel, A., Granacher, U. y Arnrich, B. Evaluación del rendimiento del seguimiento de posturas de Azure Kinect y Kinect v2 para el análisis de la marcha en comparación con un estándar de oro: un estudio piloto. Sensores 20, (2020).

Antico, M. y col. Evaluación del control postural mediante microsoft azure kinect dk: un estudio de evaluación. Métodos y programas informáticos en biomedicina 209, 104324 (2021).

Artículo de Google Scholar

Tölgyessy, M., Dekan, M., Chovanec, L. & Hubinský, P. Evaluación del kinect azul y su comparación con kinect v1 y kinect v2. Sensores 413, (2021).

Kurillo, G., Hemingway, E., Cheng, M. y Cheng, L. Evaluación de la precisión de Azure Kinect y Kinect v2. Sensores 22(7) (2021).

Cicirelli, G. y col. El conjunto de datos HA4M: Monitoreo multimodal de una tarea de ensamblaje para el reconocimiento de acciones humanas en la fabricación. Banco de datos científicos https://doi.org/10.57760/sciencedb.01872 (2022).

Longo, F., Nicoletti, L. & A, P. Nuevas perspectivas y resultados para los operadores inteligentes en la industria 4.0: un enfoque centrado en el ser humano. Computación e Ingeniería Industrial 163, 107824 (2022).

Artículo de Google Scholar

Yadav, SK, Tiwari, K., Pandey, HM y AliAkbar, S. Una revisión del reconocimiento de la actividad humana multimodal con especial énfasis en la clasificación, las aplicaciones, los desafíos y las direcciones futuras. Sistemas basados ​​en el conocimiento 223, 106970 (2021).

Artículo de Google Scholar

Li, Y. et al. Redes eficientes de dos pasos para la segmentación de acciones temporales. Neurocomputación 454, 373–381 (2021).

Artículo de Google Scholar

Moutik, O., Tigani, S., Saadane, R. y Chehri, A. Modelos híbridos basados ​​en la visión de aprendizaje profundo para la detección de la interacción entre objetos humanos mediante destilación del conocimiento. Procedia Ciencias de la Computación 192, 5093–5103 (2021).

Artículo de Google Scholar

Shahroudy, A., Liu, J., Ng, TT y Wang, G. NTU RGB + D: un conjunto de datos a gran escala para análisis de actividad humana en 3D. En la Conferencia de la IEEE Computer Society: Reconocimiento de patrones de visión por computadora (CVPR), 1010–1019 (Los Alamitos, CA, EE. UU., 2016).

Liu, J. y col. NTU RGB + D 120: un punto de referencia a gran escala para la comprensión de la actividad humana en 3D. Transacciones IEEE sobre análisis de patrones e inteligencia artificial (TPAMI) 42, 2684–2701 (2020).

Artículo de Google Scholar

Hu, JF, Zheng, WS, Lai, J. y Zhang, J. Aprendizaje conjunto de características heterogéneas para el reconocimiento de actividad RGB-D. Transacciones IEEE sobre análisis de patrones e inteligencia artificial (TPAMI) 39, 2186–2200 (2017).

Artículo de Google Scholar

Martín, M. et al. Drive&act: un conjunto de datos multimodal para el reconocimiento detallado del comportamiento del conductor en vehículos autónomos. En la Conferencia Internacional IEEE sobre Visión por Computadora (ICCV), 2801–2810 https://doi.org/10.1109/ICCV.2019.00289 (2019).

Youssef, AB, Clavel, C., Essid, S., Bilac, M. & Chamoux, M. UE-HRI: un nuevo conjunto de datos para el estudio de la participación del usuario en interacciones espontáneas entre humanos y robots. En Conferencia internacional ACM sobre interacción multimodal, 464–472 https://doi.org/10.1145/3136755.3136814 (2017).

Nicora, E. y col. El conjunto de datos MoCA, flujos visuales cinemáticos y de múltiples vistas de acciones de cocina detalladas. Datos científicos 7 https://doi.org/10.1038/s41597-020-0077 6-9 (2020).

Saudabayev, A., Rysbek, Z., Khassenova1, R. & Varol, HA Base de datos de agarre humano para actividades de la vida diaria con flujos de datos cinemáticos, de profundidad y color. Datos científicos 5, https://doi.org/10.1038/sdata.2018.101 (2018).

Li, W., Zhang, Z. & Liu, Z. Reconocimiento de acciones basado en una bolsa de puntos 3D. En Conferencia de la IEEE Computer Society sobre visión por computadora y reconocimiento de patrones: talleres, 9–14 (San Francisco, CA, EE. UU., 2010).

Wang, J., Liu, Z., Wu, Y. y Yuan, J. Conjunto de actionlets mineros para el reconocimiento de acciones con cámaras de profundidad. En la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) (Providence, RI, EE. UU., 2012).

Xia, L., Chen, CC y Aggarwal, J. Ver el reconocimiento invariante de acciones humanas utilizando histogramas de articulaciones 3D. En la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones (CVPR) (Providence, RI, EE. UU., 2012).

Ni, B., Wang, G. & Moulin, P. RGBD-HuDaAct: una base de datos de vídeo con profundidad de color para el reconocimiento de la actividad humana diaria. En IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops, 1147–1153 https://doi.org/10.1109/ICCVW.2011.6130379 (Barcelona, ​​España, 2011).

Sener, F. et al. Assembly101: un conjunto de datos de vídeo de vistas múltiples a gran escala para comprender las actividades procesales. Preimpresión en https://arxiv.org/pdf/2203.14712.pdf URL https://assembly-101.github.io (2022).

Ragusa, F., Furnari, A., Livatino, S. y Farinella, GM El conjunto de datos MECCANO: comprensión de las interacciones entre humanos y objetos a partir de vídeos egocéntricos en un dominio de tipo industrial. En la Conferencia de invierno de IEEE/CVF sobre aplicaciones de visión por computadora (WACV), 1569–1578 https://doi.org/10.1109/WACV48630.2021.00161 (2021).

Ben-Shabat, Y. et al. El conjunto de datos IKEA ASM: Comprender a las personas que ensamblan muebles a través de acciones, objetos y poses. En Conferencia de invierno de IEEE/CVF sobre aplicaciones de visión por computadora (WACV), 847–859 https://doi.org/10.48550/arXiv.2007.00394 (2021).

Redaelli, DF, Storm, FA y Fioretta, G. Caja de cambios planetaria MindBot. Zenodo https://doi.org/10.5281/zenodo.5675810 (2021).

Descargar referencias

Los autores desean agradecer a todos los sujetos que participaron en los experimentos de recopilación de datos, al Sr. Michele Attolico por su valioso apoyo técnico y a Giorgio Bartoccioni y Marco Perugini (oficina de TIC del CNR) por la gestión de datos.

Instituto de Tecnologías y Sistemas Industriales Inteligentes para la Fabricación Avanzada, Consejo Nacional de Investigación de Italia, Bari, Italia

Grazia Cicirelli, Roberto Marani, Laura Romeo y Tiziana D'Orazio

Departamento de Matemáticas e Informática, Universidad de La Rioja, Logroño, España

Manuel García Domínguez & Jónathan Heras

Departamento de Ingeniería Eléctrica y de la Información, Universidad Politécnica de Bari, Bari, Italia

Anna G.Perri

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

RM creó el protocolo experimental, escribió el código para la adquisición, manipulación y visualización de datos y fue responsable del almacenamiento de datos. LR creó la configuración experimental, realizó los experimentos, reclutó a los sujetos y escribió el código para la anotación de datos. GC escribió el artículo, verificó las anotaciones de datos y escribió el código para el análisis de datos estadísticos. TD planificó y supervisó el proyecto, promovió la aprobación ética y revisó el artículo. MGD realizó los experimentos, reclutó a los sujetos y realizó la anotación de datos. JH verificó los datos y revisó el artículo. AGP supervisó la conceptualización y revisó el documento.

Correspondencia a Grazia Cicirelli.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Cicirelli, G., Marani, R., Romeo, L. et al. El conjunto de datos HA4M: Monitoreo multimodal de una tarea de ensamblaje para el reconocimiento de acciones humanas en la fabricación. Datos de ciencia 9, 745 (2022). https://doi.org/10.1038/s41597-022-01843-z

Descargar cita

Recibido: 18 de julio de 2022

Aceptado: 11 de noviembre de 2022

Publicado: 02 de diciembre de 2022

DOI: https://doi.org/10.1038/s41597-022-01843-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt