LES CÀMERES DE VÍDEO DEL FUTUR
Les càmeres actuals de vídeo són hereves directes de la fotografia. Ara fa dos segles, Nicéphore Niépce
va aconseguir les primeres fotografies tot experimentant amb l’efecte
de la llum sobre les sals de plata. La fotografia més antiga que es
conserva és de 1826, i la va captar el mateix Niépce des de la seva
finestra. Després, al llarg del segle XIX es van anar succeint els
experiments i els invents estrambòtics que mostraven els efectes de la persistència retiniana:
el taumàtrop, el fenantiscopi, el zoòtrop, el praxinoscopi i molts
d’altres. Tot plegat va cristal·litzar al segle XX en el cinema i
desprès en el vídeo digital. El principi sempre és el mateix. Quan ens
mostren una seqüència de fotogrames, el que veiem és un moviment suau i
continu (sempre que la freqüència sigui superior a setze o vint imatges
per segon). El cine, la televisió i els vídeos digitals es basen en
aquest “defecte” perceptiu dels humans: quan els fotogrames canvien molt
ràpidament, no som capaços de percebre el pas ràpid de diapositives,
sinó que el nostre cervell omple els temps intermedis de manera que
acabem percebent animacions que són tan plausibles com les del món real.
Però captar molts fotogrames, vint-i-quatre, trenta o més per segon,
no és pas la millor manera possible de captar el moviment. Acabem tenint
moltíssimes dades que són molt redundants. Si ho estem fent així no és
més que per inèrcia històrica, perquè hem seguit amb els principis que
van inspirar el naixement del cinema. Fixeu-vos en la foto del joc de
tennis de dalt. Si miréssiu el vídeo fotograma a fotograma, veuríeu que
tots són quasi iguals. Però en canvi no podem captar bé la posició de la
pilota perquè va massa ràpida. Entre dos fotogrames consecutius,
pràcticament només canvia la posició de la pilota i la de la jugadora.
En cada moment hi ha molta informació que ja la sabíem d’abans i que no
caldria tornar a captar. De fet, aquesta és la raó per la qual els
vídeos digitals sense comprimir són tan grans, i la raó per la qual els
algorismes de compressió de vídeos poden arribar a ser tan eficients.
El nostre sistema perceptiu no funciona pas així. Imagineu que esteu
asseguts tranquil·lament a la vostra butaca, tot llegint un llibre. Si
algú entra sense fer soroll, immediatament us n’adonareu i el veureu, de
reüll. L’evolució ens ha preparat per reaccionar als canvis visuals i
ens ha dotat de visió perifèrica per poder veure de reüll. Els nostres
avantpassats havien de ser molt eficaços per no caure en mans dels
depredadors. El nostre sistema perceptiu no està pas analitzant tot el
que veiem (si ho fes, no ens podríem concentrar en res més). Detectem
els canvis més que les imatges fixes. És una bona manera d’estalviar
energia: es molt més eficient i econòmic concentrar-se en percebre els
canvis que no pas voler percebre tot el que capten els nostres ulls al
llarg del temps.
Doncs bé, els projectes actuals que ben segur inspiraran les càmeres
de vídeo del futur es basen més en els principis funcionals de la retina
i del nostre sistema perceptiu que en la captura d’una mera successió
de fotogrames. Comencem a veure sistemes que utilitzen càmeres DVS de sensors dinàmics de visió. A la seva tesi doctoral, en Patrick Lichtsteiner va establir els principis de les anomenades retines de silici. El treball el va realitzar amb el seu grup a Zurich i va ser finançat pel programa Open FET de la Comunitat Europea. És una història amb èxit de la recerca que s’està fent a Europa.
Penseu en una càmera de vídeo de vigilància i seguretat. Captura
milions de fotogrames, quasi tots idèntics. Genera quantitats ingents
d’informació irrellevant. Enlloc de necessitar algorismes informàtics de
tractament de la informació que separin el gra de la palla i acabin
filtrant els pocs segons significatius, no és millor que el sistema de
captació (la càmera de vídeo) ens proporcioni ja directament aquests
pocs moments que poden ser rellevants? Que la càmera, enlloc de
captar-ho tot, capturi els instants on es produeixen els canvis?
Les noves càmeres amb sensors DVS no generen fotogrames. Cada píxel
del sensor és independent, és com una cèl·lula de la retina. Cada un
d’aquests píxels adapta el seu temps d’exposició a la llum que rep. Els
píxels de les zones fosques treballen automàticament amb un temps
d’exposició més gran que els de les zones clares, i no es perden detalls.
Si enfoquem la càmera a un paisatge, obtindrem una primera imatge i res
més. Si l’entorn no canvia, la càmera DVS no enviarà res a l’ordinador.
Si en algun moment alguna cosa canvia en alguna zona de l’escena, els
píxels d’aquesta zona detectaran el canvi de color i cada un d’ells
enviarà un missatge a l’ordinador. Cada missatge inclou informació sobre
quin és el píxel (i,j) que l’envia, quin és el canvi de color i en quin
instant de temps ha passat tot això (els píxels utilitzen un rellotge
amb precisió de microsegons). No és massa diferent al funcionament del
nostre sistema perceptiu, en el que cada cèl·lula de la retina envia
senyals al cervell. Els vídeos de les càmeres DVS contenen missatges, no
fotogrames (per sort, disposem d’un software lliure que ens permet processar tota
aquesta informació i convertir-la a vídeos digitals en format
estàndard). Però, com que disposem de tota la informació, podem
reconstruir infinitat de vídeos diferents. Podem veure tot el joc de
tennis, o bé podem generar un vídeo a càmera molt lenta que ens mostri
el moviment de la pilota amb màxima precisió i nitidesa. El fitxer de
missatges (events, en terminologia informàtica) que ens proporciona la
càmera DVS és un metavídeo, més que un vídeo digital. És informació per a
la generació i creació posterior de vídeos.
No hay comentarios:
Publicar un comentario