1. Casos de Éxito
  2. Proyecto de Reconocimiento Facial

Historia de Éxito

 

Proyecto de Reconocimiento Facial

Un integrador comenzó su experiencia en aplicaciones de reconocimiento facial con una demostración del software para una estación del metro. El cliente deseaba comenzar por poder identificar y hacer una base de datos de los carteristas y vendedores ambulantes, para irlos eliminado dentro del metro.

El integrador sabía que debía usar cámaras tipo box y conseguir lentes varifocales de 50mm. Usó el lente Tamron modelo M118VG1250IR. Tenía que cubrir los torniquetes de salida y las de entrada. Por recomendación del fabricante del software cerraba las tomas a 2 metros de ancho para conseguir la densidad de pixeles necesarios. Colocó las cámaras, pero el software no funcionaba. El error fue que colocó las cámaras con ángulos de 45 grados, sin saber que el manual del software limitaba que el analítico no funcionaría si el ángulo fuera mayor a 30 grados. 

 

Depende del manual de cada fabricante de software, pero básicamente las tomas deben hacerse de frente. Desde esta toma ideal de 0 grados, en promedio las desviaciones en los ángulos pueden ser a lo horizontal máximo hasta 30 grados y a lo vertical máximo de 15 grados. En la imagen del rostro, los ojos de los individuos deben verse completamente y la iluminación debe de ser homogénea.   

El integrador pidió apoyo al fabricante de software y este le recomendó recolocar las cámaras. De un ángulo horizontal de 45 grados a dejarlas a 0 grados. La idea es hacer las tomas lo más de frente posible. Con el lente de 50 mm, M118VG1250IR, podría colocar las cámaras hasta una lejanía de 16 metros de distancia. Pero sin necesidad de irse tan atrás, para los torniquetes de la salida colocó una extensión del brazos para hacer las tomas exactamente de frente desde la misma distancia a la que había instalado las cámaras originalmente.

Para los torniquetes de la entrada reubico las cámaras hacia el centro como se muestra en la foto de abajo. Esta fue su primera lección sobre la correcta colocación de las tomas.  La regla de colocación de la cámara es hacer tomas con anchos de 2 metros, trazar una línea imaginaria desde la mitad y hacer las tomas desde el frene.

En su siguiente demo, le tocó un supermercado. El cliente deseaba hacer un estudio de mercado y el software le permitiría distinguir entre sexo, edad y raza. Utilizó un lente de 1/3” del fabricante “F”. Cubrió la toma de la entrada correctamente, pero esta vez se topó con un nuevo obstáculo. Desde las 10 de la mañana hasta la 1 de la tarde, entraba mucha resolana.

Esto ocasionaba contraluz en la imagen. Así que para su segundo intento, consiguió una cámara box de 3 mega pixeles, 1/3”, con función de WDR, wide dynamic range, el cual permitiría aminorar la contraluz.

Sin embargo, las tomas continuaban obscuras. Las personas se veían como sombras. A las pruebas del integrador, un compañero que le había acompañado, por ser mitad asiático y mitad mexicano, por mera curiosidad quería saber si el software le atinaba a su raza mitad oriental, pero al verse tan oscura la toma, él al pasar por el área de la toma, el software lo identificaba como africano, de raza negra. Esto se debía a que las tomas estaban muy oscuras y sólo se veían siluetas negras.

El integrador quería corregir las tomas oscuras colocando iluminación de luz blanca desde frente y así contrarrestar la contraluz, pero sabía que con la luz de frente iba a molestar la vista de los clientes que entraban. Para mejorar la luminosidad, a esta cámara con sensor de imagen de 1/3” y con el lente de 1/3” del fabricante “F”, se le ocurrió colocar un lente de 1/2” que es de mayor diámetro en comparación a la de 1/3”. Por recomendación de su proveedor de software usó el Tamron modelo M118VG1250IR, y vio que entró mucha claridad a la toma. El lente no sustituía la función del WDR, pero sí podía complementarlo. 

 

Una vez terminado la demo con éxito, el integrador tenía curiosidad de saber porque hacer las tomas con anchos de 2 metros. Su punto de partida era la densidad de pixeles. En el caso de reconocimiento facial dependiendo del fabricante de software se pide que el rostro a identificar tenga una densidad de entre 150 pixeles a 224 pixeles a lo ancho de la cara de oreja a oreja. Otras expresiones que se hacen de densidad de pixeles requeridos es la de 80 pixeles entre los ojos de pupila a pupila, el integrador se midió esta medida en su rostro y le dio que tenía 8 centímetros, así que serían 10 pixeles por centímetro o de 1,000 pixeles por metro. Otros manuales piden tener 14 pixeles por centímetro y dicen que un rostro en promedio tiene 16 cm de ancho, de ahí que 224 pixeles, 14 pixeles multiplicado por 16 centímetros.

A este integrador le convencía la de 224 pixeles por rostro, pero para saber si en una toma el rostro tiene 224 pixeles a lo horizontal a simple vista es difícil de saber sólo con mirar la imagen. Como una herramienta útil, hay cámaras como las del fabricante sueco “Axis” que tienen la función de conteo de pixeles dentro de la toma y puedes recuadrar dentro de la imagen el rostro que vas a identificar y te cuenta los pixeles que tiene la toma a lo horizontal.

Al saber de la existencia de este tipo de cámaras, el integrador consiguió una cámara Axis e hizo un ejercicio con esta cámara y su lente que viene de fabrica con distancia focal de 2.8mm a 8mm. El objetivo era saber a qué distancia podía conseguir una densidad de 224 pixeles en un rostro. Cerró la toma dando al zoom óptico a lo máximo que daba el lente a f=8mm.

Coloco a alguien a 4 metros de distancia y vio que su rostro según el conteo de pixeles le daba 85 pixeles contra los 224 pixeles que necesitaba, y vio que a 4 metros estaba muy alejado como para hacer reconocimiento facial.

 

Luego pidió a la misma persona que se acercara a la cámara un metro más con el fin de concentrar la densidad de pixeles y a 3 metros de distancia le dio el resultado de los 224 pixeles que se requería para que el software hiciera reconocimiento facial.

 

Con este ejercicio le sirvió saber que si algún otro integrador escogiera una cámara que no tenga esta función de conteo de pixeles le sería difícil de saber que tan amplificada se tendría que ver el rostro dentro de la toma para tener los 224 pixeles. También concluyó que con un lente de distancia focal de 8 mm sólo le permitiría hacer tomas máximo a una distancia de 3 metros, el cual no es práctico en escenarios reales, ya que en promedio podría ser a 7 metros, o entre unos 4 metros hasta 16 metros de distancia. Para eso se requiere un lente con distancia focal que va a f=50 mm.


Un integrador de sistemas diferente había llegado a una conclusión empírica después de tres años de experiencia instalando sistemas de reconocimiento facial de que las tomas las tenía que cerrar a 2 metros de ancho usando lentes varifocales de 50mm. Que con una cámara de 2 a 3 mega pixeles le sería suficiente. Por ejemplo, si un escenario tenía un ancho de 4 metros en la entrada, hacía la solución con dos cámaras a tomas de 2 metros cada una. En vez de usar cámaras de 5 mega pixeles, 8 mega pixeles o 16 mega pixeles e intentando realizarla a una sola toma de 4 metros de ancho. Ya que por experiencia se dio cuenta que al software le costaba trabajo hacer lecturas rápidamente cuando las tomas eran muy anchas, pero a 2 metros de ancho las lecturas dentro del software ocurrían rápidamente. Esta fórmula empírica de hacer las tomas siempre a 2 metros de ancho le funcionaba bien mientras los escenarios a tomar tuvieran una distancia al rostros de 1 metro hasta 16 metros. Hasta que un día le toco un proyecto de hacer reconocimiento facial para un estadio de futbol que tenía que hacer a tomas de 140 metros de distancia. 

El lente M118VG1250IR sirve para reconocimiento facial en tomas a ancho de 2 metros, en donde se ven dos personas a lo ancho, desde una distancia de 1 metro hasta 16 metros. Para lectura de placas vehiculares desde 1 metro hasta 24 metros con anchos de 3 metros, un coche por carril.

En el estadio de futbol, el cliente deseaba poder hacer reconocimiento facial de los aficionados en las gradas y estas tomas vincularlas con las cámaras de reconocimiento facial colocados en las entradas. El cliente deseaba identificar a los espectadores violentos para no permitirles la entrada al estadio la siguiente vez. El integrador utilizó el lente zoom motorizado de Tamron modelo M12ZG34X15IRPF, un lente que tiene una distancia focal de 15mm a 510mm y con este zoom motorizado óptico logró hacer el reconocimiento facial dentro del estadio. La cámara se colocaba desde las gradas mirando hacia el otro extremo de las gradas a lo ancho de la cancha de futbol.

En el mercado existen lentes zoom motorizados que van desde 60mm, 80mm pasando por 775mm hasta llegar a las de 1,600mm. Solo que rebasando los 500mm, los lentes se vuelven voluminosos y muy costosos, además de que se deben de comprar carcasas gigantes PTZ y se vuelven difícil su integración. Un rango de zoom motorizado de 300mm a 500mm es de fácil manipulación. En estadios de futbol se recomienda el lente TAMRON, M12ZG34X15IRPF.

En otros escenarios, con este lente zoom motorizado a 510mm, el M12ZG34X15IRPF, colocado desde una torre de observación se puede vigilar unos 6 Km a la redonda para hacer detección de personas. Podría usarse para detectar incendios forestales en parques nacionales y proteger los bosques. En una mina de cielo abierto donde a veces los derrumbes matan a los trabajadores sería muy útil vigilar el estado de los caminos.

En los aeropuertos podría ayudar a leer las matriculares de los aviones usando un software de lectura como la de placas vehiculares o simplemente vigilar que no haya obstáculos en las pistas de aterrizaje.

En prisiones para vigilar las actividades de los reos en los patios. Se sabe que los reos fabrican sus propios cuchillos y se apuñalan cuando se encuentran en los patios. Con las cámaras normales, por mucho que intentes hacer zoom digital ya no logras ver más allá de 5 metros y en tomas desde una torre de vigilancia a 300 metros, únicamente con un lente como el M12ZG34X15IRPF podrías identificar a los reos.

En puertos marítimos para vigilar la actividad del crimen organizado en alta mar. A veces los barcos antes de arribar a los puertos marítimos, hacen alto total en alta mar a unos 4 Km de la costa para esperar la llegada de lanchas rápidas del crimen organizado para bajar a los trabajadores asiáticos ilegales o para desembarcar envíos de droga. A las administradoras portuarias integrales les preocupa esta situación y un lente de largo alcance les es de mucha ayuda para vigilar. 

Para hacer uso del lente M12ZG34X15IRPF se requiere de una carcasa especial para convertirla en una PTZ. La carcasa hace el paneo y tilteo, el lente hace el zoom óptico.