Rilevamento delle persone a distanza tramite wifi domestico
DensePose da segnali WiFi: un nuovo paradigma nella percezione umana attraverso l’intelligenza artificiale
Il presente studio esplora un paradigma emergente nella stima della posa umana densa attraverso l’utilizzo esclusivo di segnali WiFi, proponendo un sistema che trasforma dati di stato del canale (Channel State Information, CSI) in mappe UV dettagliate del corpo umano, senza alcuna acquisizione visiva. Superando le limitazioni intrinseche delle tecnologie convenzionali come telecamere RGB, LiDAR e radar – quali occlusione, scarsa illuminazione, alti costi e problematiche di privacy – il metodo presentato si fonda su una pipeline neurale profonda capace di convertire sequenze di segnali radio in rappresentazioni spaziali bidimensionali analoghe a immagini. Tali rappresentazioni vengono poi elaborate da una rete DensePose-RCNN adattata al dominio non visivo, con supervisione simultanea su mappa UV e punti articolari. L’addestramento sfrutta tecniche avanzate di transfer learning da modelli basati su immagini, accelerando la convergenza e migliorando la coerenza semantica. I risultati sperimentali, ottenuti su un dataset multi-layout con annotazioni automatiche, dimostrano che il modello WiFi raggiunge un AP@50 di 87.2, mantenendo copertura stabile e prestazioni competitive anche in scenari complessi, pur senza eguagliare la risoluzione fine delle tecnologie ottiche. L’analisi di ablation conferma il contributo essenziale della sanificazione della fase, della supervisione sui keypoint e della distillazione delle feature. Il sistema si propone come soluzione etica, economica e scalabile per il monitoraggio corporeo in ambienti domestici, clinici e sensibili, aprendo la strada a una nuova forma di intelligenza ambientale capace di percepire la presenza umana senza violarne l’intimità.
Premessa
Nel contesto contemporaneo, la crescente complessità delle minacce alla sicurezza, sia in ambito civile che istituzionale, ha reso indispensabile lo sviluppo di sistemi di monitoraggio avanzati capaci di garantire controllo interno continuo, discreto ed efficace. Tuttavia, le soluzioni attualmente adottate – basate su videocamere, sensori a infrarossi o radar volumetrici – presentano limiti rilevanti: l’elevato costo delle infrastrutture, la necessità di supervisione attiva, l’invasività nella raccolta dei dati e i vincoli normativi legati alla tutela della privacy. In scenari sensibili come edifici governativi, commissariati, caserme, aule giudiziarie, stazioni di polizia e strutture ad alta sorveglianza, tali criticità si amplificano, rendendo urgente l’adozione di soluzioni alternative che siano al tempo stesso efficaci, silenziose, rispettose dei diritti e facili da integrare in contesti già operativi.
Questa analisi nasce come risposta a tale esigenza. Lo studio che segue documenta la validità e la maturità tecnica di un sistema di ricostruzione della posa umana densa basato unicamente su segnali WiFi, utilizzabili anche con apparecchiature già presenti nella rete infrastrutturale delle strutture. La tecnologia qui esaminata permette di monitorare, in tempo reale e senza alcun ausilio di videocamere o microfoni, la presenza, i movimenti e la postura di individui all’interno di uno spazio, interpretando le variazioni del campo radio come manifestazioni dinamiche dell’interazione tra corpo umano e ambiente.
L’approccio si fonda sull’elaborazione dei dati CSI (Channel State Information), ovvero le informazioni che descrivono lo stato del canale radio tra trasmettitori e ricevitori, per mezzo di reti neurali profonde in grado di “tradurre” tali segnali in rappresentazioni compatibili con i modelli di visione artificiale. Il risultato è un sistema che può essere implementato senza alcun sensore visivo o acustico, preservando la totale discrezione operativa, garantendo la privacy degli operatori e dei soggetti monitorati, ed eliminando completamente il rischio di acquisizione di immagini sensibili.
Per le forze dell’ordine, i corpi militari e i servizi di sicurezza interna, questo tipo di tecnologia rappresenta un salto di paradigma: è possibile sorvegliare stanze, corridoi, zone riservate o celle di sicurezza rilevando automaticamente la presenza umana, cadute, comportamenti sospetti o tentativi di intrusione, anche in condizioni di buio totale o in presenza di ostacoli visivi. Inoltre, essendo basato su infrastrutture WiFi standard, il sistema si presta a integrazioni rapide con l’esistente, senza necessità di interventi edilizi o installazioni appariscenti.
In definitiva, ciò che viene presentato in questo documento non è solo un’innovazione tecnica, ma una nuova visione della sicurezza ambientale passiva, in cui è possibile vedere senza guardare, intervenire senza esporre, e soprattutto prevenire senza invadere. Una tecnologia strategica per l’intelligence territoriale, la sicurezza istituzionale e la gestione intelligente degli spazi ad accesso controllato, destinata a ridefinire il concetto stesso di controllo interno.
Un nuovo paradigma nella percezione umana attraverso l’intelligenza artificiale
Negli ultimi anni, l’intelligenza artificiale e le tecnologie di visione artificiale hanno compiuto passi da gigante nella capacità di comprendere e ricostruire la figura umana nello spazio tridimensionale. Al centro di questi progressi si colloca la stima della posa del corpo umano, ovvero la possibilità di determinare in modo accurato la posizione e l’orientamento delle articolazioni e delle superfici corporee attraverso sensori visivi o sensori di profondità. Tuttavia, nonostante i risultati ottenuti con tecnologie come le telecamere RGB, i sensori LiDAR e radar, persistono importanti ostacoli: l’occlusione visiva, la variabilità delle condizioni di illuminazione, i costi elevati dell’hardware specializzato e, non da ultimo, le problematiche legate alla privacy.
Nasce da queste premesse l’intuizione di impiegare i segnali WiFi, già pervasivi negli ambienti domestici e pubblici, come sorgente alternativa e non invasiva per stimare la posa umana in maniera densa e precisa. Questa intuizione si fonda sull’osservazione che ogni segnale elettromagnetico, nel suo propagarsi da un punto all’altro di uno spazio, interagisce con gli oggetti e i corpi che incontra, subendo riflessioni, rifrazioni, diffrazioni e attenuazioni. In particolare, il segnale WiFi attraversa l’ambiente domestico e viene modulato dal corpo umano in movimento, lasciando una sorta di “impronta” temporale e spaziale nelle sue componenti di fase e ampiezza. L’idea, che a prima vista può apparire innovativa e controintuitiva, è che l’informazione contenuta nei cosiddetti dati CSI (Channel State Information) – ovvero le descrizioni dettagliate dello stato del canale di comunicazione tra trasmettitore e ricevitore – sia sufficientemente ricca, se opportunamente elaborata, da consentire la ricostruzione tridimensionale di corpi umani in movimento.
ogni segnale elettromagnetico, nel suo propagarsi da un punto all’altro di uno spazio, interagisce con gli oggetti e i corpi che incontra, subendo riflessioni, rifrazioni, diffrazioni e attenuazioni.
Questo approccio si discosta radicalmente dalla visione convenzionale che assegna ai segnali WiFi un ruolo esclusivamente funzionale alla connettività. Qui, al contrario, il segnale WiFi diventa un sensore passivo, capace di percepire e codificare la struttura corporea e la postura degli individui presenti nella scena. Tale interpretazione è resa possibile dall’impiego di tecniche avanzate di deep learning, che trasformano la sfida di mappare segnali 1D, privi di correlazione spaziale diretta, in un compito di inferenza strutturata nel dominio visivo.
La forza dell’approccio risiede non solo nella sua originalità teorica, ma anche nella sua concreta applicabilità: la maggior parte delle abitazioni nei paesi industrializzati è già dotata di router WiFi, il che rende questa tecnologia immediatamente scalabile e democratica. Inoltre, l’assenza di immagini visive consente di superare le problematiche legate alla privacy, aprendo scenari in cui il monitoraggio della salute, della sicurezza e del comportamento umano può avvenire in modo silente, discreto e rispettoso della dignità dell’individuo. In sintesi, ciò che emerge è una concezione radicalmente nuova del WiFi: non più solo vettore di dati, ma mezzo per “vedere” senza guardare, per “comprendere” la presenza umana senza violarne l’intimità visiva.
Il vantaggio di questo approccio risiede nella sua natura intrinsecamente non intrusiva, accessibile e rispettosa della privacy, nonché nel suo profilo tecnologico decisamente low-cost. A differenza delle telecamere tradizionali, che implicano la cattura di immagini e dunque una rappresentazione visiva diretta delle persone, i segnali WiFi non generano alcuna immagine né registrano dati biometrici o identificativi. Essi operano, invece, come un’eco ambientale invisibile: attraversano lo spazio, interagiscono con i corpi presenti e ritornano modificati in modo quantificabile, offrendo un modo del tutto nuovo per percepire l’essere umano senza mai vederlo.
Rispetto ai sensori LiDAR e radar, che richiedono hardware complesso, ingombrante e spesso molto costoso – basti pensare ai sistemi LiDAR utilizzati nei veicoli autonomi, che possono arrivare a costare migliaia di euro – la soluzione WiFi si basa su dispositivi comuni, economici e già presenti nella quasi totalità delle abitazioni, come semplici router a tripla antenna da poche decine di euro. Inoltre, questi sensori radio non necessitano di interventi strutturali o impianti speciali per essere installati: basta collocarli nei punti strategici dell’ambiente per disporre di una copertura sufficiente all’analisi della scena.
A livello tecnico, l’insensibilità del segnale WiFi alle variazioni di luminosità rappresenta un ulteriore punto di forza. Laddove le telecamere falliscono in condizioni di buio, abbagliamento o scarsa visibilità, il WiFi mantiene la sua efficacia con costanza, permettendo un monitoraggio continuo sia di giorno che di notte, anche in ambienti scarsamente illuminati o con luci spente. Inoltre, a differenza della luce visibile o delle onde a frequenze millimetriche, i segnali WiFi a 2,4 GHz o 5 GHz riescono a penetrare ostacoli leggeri come pareti sottili, tessuti, mobilio e altri elementi comuni in ambienti chiusi, garantendo la percezione anche in presenza di parziali occlusioni fisiche.
Questa robustezza lo rende particolarmente adatto a scenari indoor complessi e sensibili, come le abitazioni private, le camere da letto, i bagni, le strutture sanitarie e assistenziali. In tali contesti, l’utilizzo di telecamere o sensori visivi risulta spesso inaccettabile, se non addirittura vietato, per motivi etici e legali. L’impiego del WiFi, invece, consente di mantenere un’alta qualità del monitoraggio salvaguardando al contempo la riservatezza e l’intimità delle persone. In ambiti quali la sorveglianza domestica, la teleassistenza agli anziani fragili, il monitoraggio clinico per la prevenzione delle cadute o l’analisi del comportamento nei disturbi cognitivi, questo approccio rappresenta un punto di svolta: consente di passare da una sorveglianza visiva a una percezione ambientale intelligente, non invasiva e profondamente umana.
Il fulcro tecnico del sistema si basa sull’impiego di una configurazione hardware estremamente semplice ma ingegnosamente efficace: due comuni router WiFi, ciascuno dotato di tre antenne omnidirezionali, vengono posizionati strategicamente per delimitare un volume spaziale all’interno del quale transitano o stazionano uno o più soggetti umani. La disposizione geometrica delle antenne è tale da creare una rete di traiettorie lungo cui si propagano i segnali radio, le cui interazioni con il corpo umano – attraverso riflessione, diffrazione e assorbimento – sono catturate sotto forma di modificazioni nel segnale ricevuto. Ogni trasmissione genera così un insieme di informazioni note come CSI (Channel State Information), che costituiscono la base computazionale per l’intero sistema.
Questi CSI sono rappresentati come tensori tridimensionali che contengono, per ciascuna coppia trasmettitore-ricevitore, misurazioni dell’ampiezza e della fase del segnale, campionate su 30 sottofrequenze uniformemente distribuite nella banda dei 2,4 GHz, con una frequenza temporale di 100 Hz. In altre parole, ogni istante di acquisizione produce una mappa complessa di come l’ambiente abbia modulato il segnale radio, fornendo una sorta di “impronta elettromagnetica” dell’interazione tra onde e corpi presenti nello spazio.
Tuttavia, l’utilizzo diretto di questi dati grezzi è ostacolato da diversi problemi di natura tecnica. Le misurazioni di fase, in particolare, sono soggette a fenomeni di phase wrapping, ovvero discontinuità numeriche dovute alla rappresentazione ciclica della fase angolare, e a jittering temporali casuali, che introducono rumore e instabilità nelle sequenze di campioni. Queste anomalie, se non trattate, impediscono qualsiasi forma di apprendimento coerente da parte delle reti neurali e compromettono la qualità della ricostruzione.
Per superare tali ostacoli, si adotta un sofisticato processo di sanificazione del segnale CSI, articolato in più fasi: inizialmente, vengono applicate trasformazioni matematiche per “srotolare” le fasi (unwrapping), eliminando le discontinuità artificiali create dalla limitazione degli angoli entro l’intervallo [??,?][-?, ?][??,?]. Successivamente, si impiegano filtri mediani e uniformi sia nel dominio del tempo che della frequenza, al fine di rimuovere spike anomali e fluttuazioni irregolari. Infine, si applicano tecniche di raccordo lineare per ripristinare la coerenza temporale tra sequenze consecutive di campioni, ottenendo così curve di fase stabili, continue e significative.
Il risultato di questo processo è un tensore di dati pulito, normalizzato e strutturato, che conserva tutta la ricchezza informativa dell’interazione tra segnale WiFi e corpo umano, ma la esprime in una forma matematicamente trattabile e ottimizzata per l’elaborazione attraverso reti neurali profonde. Questa trasformazione, seppur invisibile all’utente finale, rappresenta uno degli aspetti più critici e innovativi dell’intera architettura, poiché consente di convertire un flusso disordinato di segnali elettromagnetici in una rappresentazione latente coerente con il dominio della percezione corporea.
Una volta completata la sanificazione del segnale CSI e ottenuti dati puliti e privi di rumore spurio, si procede a un passaggio cruciale: la trasformazione della rappresentazione 1D, propria dei segnali radio, in una mappa bidimensionale strutturata, simile a quella di un’immagine. Questa fase è fondamentale poiché rende i dati compatibili con le architetture convoluzionali utilizzate nel campo della visione artificiale, aprendo la strada all’interpretazione spaziale dell’informazione tramite reti neurali profonde.
La trasformazione è realizzata attraverso una sofisticata rete di traduzione del dominio, progettata in due rami distinti: il primo dedicato all’ampiezza del segnale, il secondo alla sua fase. Ogni ramo è costituito da una sequenza di multilayer perceptron (MLP), reti neurali dense che apprendono una rappresentazione astratta delle caratteristiche contenute nei segnali grezzi. Questi MLP non si limitano a ristrutturare i dati, ma svolgono una vera e propria funzione di embedding semantico, traducendo l’informazione numerica del segnale in una rappresentazione latente che conserva le relazioni strutturali tra le variabili.
Una volta che i due flussi – ampiezza e fase – sono stati codificati nei rispettivi spazi latenti, essi vengono fusi in un unico vettore di caratteristiche, che rappresenta una sintesi congiunta e intermodale dell’informazione disponibile. Questa rappresentazione fusa viene quindi sottoposta a una rete encoder-decoder composta da strati convoluzionali e deconvoluzionali. Gli strati convoluzionali agiscono da compressori semantici: distillano l’informazione rilevante e ne identificano i pattern ricorrenti, analogamente a quanto avviene nell’analisi delle immagini. Gli strati deconvoluzionali, invece, eseguono un’operazione di “upsampling strutturato”, riportando le caratteristiche apprese a una risoluzione spaziale elevata.
Il risultato finale di questo processo è la generazione di una mappa bidimensionale tridimensionale, con una struttura 3×720×1280: tre canali (che corrispondono alle coordinate spaziali o a pseudo-canali simili all’RGB), e una risoluzione che ricalca quella delle immagini visive ad alta definizione. In sostanza, il sistema riesce a costruire un’immagine sintetica, non derivata da una camera, ma generata esclusivamente dalla lettura interpretativa del segnale WiFi, come se il router avesse “visto” la scena attraverso la sua interazione elettromagnetica.
Questo output è perfettamente compatibile con le reti convoluzionali già impiegate nella stima della posa, in particolare con l’architettura DensePose-RCNN, che si aspetta in input una mappa visiva strutturata. Ciò rappresenta una conquista straordinaria: la possibilità di convertire un flusso continuo di dati radio non visivi in una rappresentazione spaziale semanticamente interpretabile, aprendosi a un nuovo paradigma di percezione artificiale, dove il segnale radio diventa immagine, e l’ambiente viene compreso senza essere osservato.
A questo punto del processo, una volta ottenuta una rappresentazione spaziale strutturata del segnale WiFi, entra in gioco l’architettura adattata di DensePose-RCNN, originariamente concepita per operare su immagini RGB e ora ingegnosamente ricalibrata per lavorare con input generati interamente da segnali radio. Questa scelta architetturale rappresenta una delle più eleganti sintesi tra i mondi della visione artificiale tradizionale e della percezione attraverso segnali non visivi. DensePose-RCNN, acronimo per Region-based Convolutional Neural Network con estensione alla stima densa della posa, è un modello di riferimento nell’ambito della ricostruzione corpo-immagine, grazie alla sua capacità di associare ogni pixel a un punto ben definito della superficie 3D del corpo umano standardizzato.
Nel contesto WiFi, l’architettura si conserva nella sua tripartizione strutturale: al vertice si colloca la backbone ResNet-FPN (Feature Pyramid Network), una rete convoluzionale profonda che ha il compito di estrarre mappe di caratteristiche multiscala dall’immagine sintetica generata dai dati CSI. L’adozione di FPN garantisce una rappresentazione robusta sia per dettagli fini sia per strutture globali, facilitando la comprensione delle articolazioni minute così come delle masse corporee.
Segue la Region Proposal Network (RPN), incaricata di generare proposte regionali plausibili – ovvero, aree dell’immagine in cui con maggiore probabilità si trovano corpi umani. Questa componente è essenziale in scenari multi-soggetto, poiché consente al sistema di isolare più individui nella scena, anche in presenza di parziale sovrapposizione o posture non convenzionali.
Infine, la struttura si biforca in due teste specializzate, che lavorano in parallelo e sinergia. La prima testa, detta DensePose Head, si occupa della stima delle coordinate UV, una codifica bidimensionale che associa ogni pixel del corpo umano osservato a una corrispondenza precisa sulla superficie parametrica di un modello 3D standardizzato. Questa mappa UV è ciò che consente la cosiddetta “stima densa”, ovvero la possibilità di ricostruire la superficie dell’intero corpo – non solo le articolazioni – con precisione millimetrica. La seconda testa, la Keypoint Head, individua i 17 punti chiave articolari, come spalle, gomiti, anche, ginocchia, caviglie, polsi, testa e torace, conformemente alla convenzione utilizzata in dataset come MS-COCO e MPII.
La sinergia tra questi due rami è particolarmente significativa: mentre la stima UV fornisce una copertura continua della superficie corporea, la localizzazione dei keypoint agisce come una forma di ancoraggio anatomico, imponendo vincoli strutturali e coerenze geometriche che guidano la rete nell’associare correttamente le porzioni del corpo, anche in presenza di deformazioni o movimenti non standard. In altre parole, i keypoint non solo migliorano la precisione della segmentazione, ma fungono da priors anatomici per la rete, potenziandone la capacità di generalizzazione e l’adattabilità a pose non canoniche.
Ciò che rende eccezionale questa architettura è la sua capacità di trattare un segnale invisibile come se fosse un’immagine reale, estraendo da esso strutture, forme e posture con un livello di dettaglio e coerenza impensabili fino a pochi anni fa. L’adattamento di DensePose-RCNN al dominio WiFi non è quindi un semplice “riciclo” di una rete esistente, ma un’operazione di reingegneria semantica, che conferma la versatilità del deep learning nel riconfigurare i propri strumenti per adattarsi a domini dati totalmente differenti da quello originario.
Il training del modello, cuore pulsante dell’intero sistema, si articola in due fasi principali che si pongono l’obiettivo di colmare il divario tra un dominio visivo ben consolidato e il nuovo e complesso dominio rappresentato dai segnali WiFi. La strategia adottata è tanto pragmatica quanto raffinata: si fa leva sulle potenzialità del transfer learning, sfruttando il sapere già acquisito da modelli robusti basati su immagini RGB per istruire il nuovo modello WiFi, che parte invece da dati privi di struttura spaziale diretta.
Nella prima fase, si procede all’addestramento di un modello DensePose classico, alimentato da immagini RGB annotate provenienti da dataset ampi e validati come MS-COCO o DensePose-COCO. Questo modello visivo, già ampiamente ottimizzato per mappare le immagini sui corrispettivi modelli tridimensionali del corpo umano, funge da “insegnante”. Esso apprende le relazioni tra pattern visivi e strutture anatomiche, stabilendo corrispondenze dense (mappa UV) e individuando articolazioni chiave, con performance elevate grazie a milioni di esempi preesistenti.
A questo punto, entra in gioco la seconda fase, in cui il modello WiFi viene addestrato non da zero, ma beneficiando dell’esperienza acquisita dal modello visivo. La chiave di questa transizione è una raffinata tecnica di transfer learning a livello di feature: anziché trasferire semplicemente pesi o strutture di rete, si opera un allineamento tra le attivazioni intermedie dei due modelli, ovvero le mappe di risposta generate dai layer convoluzionali interni durante il processamento dei rispettivi input.
Per rendere possibile questo allineamento, è essenziale che i dati WiFi e le immagini siano perfettamente sincronizzatinel tempo. A tal fine, il dataset include sequenze simultanee di immagini RGB e segnali CSI raccolti in modo sincrono. In ogni istante temporale, il sistema dispone dunque di due rappresentazioni parallele dello stesso evento corporeo: una visiva e una radio. Le reti vengono allora addestrate in parallelo, e il modello WiFi viene incoraggiato a produrre feature map che imitino quelle generate dal modello RGB.
Il vantaggio di questa strategia è duplice. Da un lato, il modello WiFi acquisisce in modo guidato la capacità di rappresentare strutture corporee, bypassando il processo lento e incerto di apprendimento da zero. Dall’altro lato, il numero complessivo di iterazioni necessarie per raggiungere una buona convergenza viene drasticamente ridotto, ottimizzando il tempo di addestramento e riducendo la richiesta computazionale.
Questo tipo di distillazione di conoscenza – a metà tra l’apprendimento supervisionato e quello imitativo – segna una tappa fondamentale nella costruzione di sistemi multimodali, in cui domini apparentemente incompatibili (come la visione ottica e la ricezione elettromagnetica) vengono messi in dialogo mediante l’intelligenza artificiale. Il risultato non è solo un risparmio in termini computazionali, ma l’apertura a una nuova epistemologia dell’apprendimento automatico: non più solo addestrare macchine sui dati, ma farle insegnare l’una all’altra in un processo circolare di conoscenza condivisa.
Il dataset utilizzato per addestrare e validare il modello WiFi rappresenta una componente chiave dell’intera architettura sperimentale, ed è stato progettato con grande cura per garantire un’adeguata varietà spaziale, semantica e dinamica. Esso comprende 16 differenti layout ambientali, che spaziano da uffici moderni a classi scolastiche, simulando così contesti reali e fortemente eterogenei in termini di disposizione di oggetti, geometria architettonica, superfici riflettenti e livelli di occlusione. Questo aspetto è fondamentale perché il comportamento del segnale WiFi è fortemente influenzato dall’ambiente circostante: ogni disposizione strutturale agisce come un “filtro” elettromagnetico unico, che può alterare significativamente la propagazione e la riflessione del segnale.
All’interno di questi ambienti, i soggetti umani eseguono movimenti quotidiani, naturali e non coreografati, come camminare, sedersi, raccogliere oggetti, piegarsi o ruotare. Ciò garantisce che il modello venga esposto a una ricca varietà posturale, contribuendo ad aumentare la sua capacità di generalizzare a comportamenti nuovi, non visti in fase di training.
Le annotazioni associate al dataset, cruciali per il training supervisionato, sono ottenute in modo automatico tramite modelli visivi pre-addestrati su dataset consolidati come MS-COCO. Tali annotazioni includono:
- Bounding box, che delimitano la posizione del corpo nella scena;
- Maschere di segmentazione, che definiscono l’area occupata da ciascun individuo a livello di pixel;
- Mappe UV dense, che rappresentano la corrispondenza tra ogni pixel e la superficie parametrica di un corpo umano 3D.
L’utilizzo di annotazioni automatiche, pur comportando un lieve margine di errore, ha permesso di generare un numero elevato di esempi etichettati senza ricorrere a lunghi e costosi processi di labeling manuale, rendendo l’intero progetto più scalabile ed economicamente sostenibile.
Per valutare le prestazioni del modello, vengono adottate metriche di accuratezza tra le più rigorose e consolidate nel campo della visione artificiale. In particolare, si utilizza l’Average Precision (AP), calcolata su diversi livelli di soglia (AP@50, AP@75, ecc.), per quantificare la precisione del rilevamento dei corpi e la coerenza delle previsioni rispetto alle ground truth. Ma è soprattutto l’adozione di metriche dense e strutturali che permette di valutare appieno la qualità del modello WiFi.
Due indici fondamentali in questo contesto sono il dpAP-GPS (DensePose Average Precision – Geodesic Point Similarity) e il dpAP-GPSm, entrambi basati sul concetto di similarità geodetica. A differenza della distanza euclidea, la distanza geodetica tiene conto della struttura della superficie corporea, misurando lo scarto tra la posizione prevista e quella reale lungo la superficie tridimensionale del corpo, come se si trattasse di percorsi sulla pelle. Il secondo indice, GPSm, aggiunge un ulteriore livello di controllo penalizzando severamente le previsioni spurie, cioè quei punti che vengono assegnati in modo scorretto a porzioni del corpo non corrispondenti, e integrando l’accuratezza nella segmentazione del corpo stesso.
L’adozione di queste metriche riflette l’intenzione di valutare non solo la capacità del sistema di “vedere” il corpo umano, ma anche di comprenderlo strutturalmente, riconoscendone la geometria, l’anatomia e la continuità spaziale. In questo senso, il dataset e il framework di validazione non costituiscono solo strumenti tecnici, ma veri e propri dispositivi epistemologici attraverso cui il modello impara a interpretare la presenza umana come forma dinamica e topologicamente coerente.
I risultati ottenuti dal modello sono da considerarsi estremamente promettenti, specie alla luce dell’audace presupposto di utilizzare esclusivamente segnali WiFi – privi di informazioni visive dirette – per ricostruire in maniera dettagliata la postura e la morfologia dei corpi umani. L’analisi quantitativa delle prestazioni, effettuata secondo metriche rigorose come l’Average Precision (AP), mostra che il modello WiFi è in grado di raggiungere un valore di AP@50 pari a 87.2. Questo significa che, con una tolleranza spaziale del 50%, il sistema riesce a identificare con grande affidabilità la presenza e la posizione generale dei corpi nella scena.
Un valore di questo livello indica una sorprendente capacità del sistema di delimitare accuratamente il corpo umano, anche in ambienti complessi e con layout differenti. Il segnale WiFi, pur non “vedendo” nel senso classico del termine, riesce a “percepire” abbastanza dettagli strutturali da collocare il corpo nella scena con precisione. Ciò ha implicazioni importanti per applicazioni pratiche in ambiti dove l’identificazione tempestiva di una figura umana è più rilevante del dettaglio anatomico fine: ad esempio, nel monitoraggio di cadute, nella sorveglianza passiva, o nella gestione di spazi condivisi in modo rispettoso della privacy.
Tuttavia, come atteso, le prestazioni calano quando si aumenta il rigore della valutazione. L’AP@75, che impone un margine di errore molto più ristretto, scende a 44.6, evidenziando le difficoltà del modello nella stima fine delle articolazioni e delle estremità corporee, come mani, piedi o angoli del viso. Questo risultato segnala che il sistema tende a essere meno preciso nei dettagli sottili, specialmente nelle porzioni periferiche del corpo, dove le variazioni del segnale CSI sono più difficili da interpretare e dove l’effetto di rumore o riflessione può essere amplificato.
Tale limitazione, però, va letta nel giusto contesto. I modelli basati su immagini RGB, operanti con dati visivi ad alta risoluzione, godono naturalmente di una superiorità nella cattura dei contorni fini, potendo fare affidamento su pattern cromatici, texture e gradienti. Il sistema WiFi, al contrario, lavora su una rappresentazione indiretta e altamente compressa della realtà, eppure riesce a fornire prestazioni comparabili su larga scala, il che costituisce un risultato scientificamente rilevante e sorprendente.
In definitiva, l’evidenza empirica mostra che, pur non raggiungendo ancora la fedeltà visiva dei sistemi RGB nelle ricostruzioni ad alta precisione, il modello WiFi dimostra una solidità notevole nella localizzazione globale dei corpi e un promettente potenziale di raffinamento per la stima di pose complesse. La sua performance, unita al vantaggio competitivo in termini di costi, installazione, riservatezza e resilienza, lo rende una valida alternativa e un complemento alle tecnologie esistenti, soprattutto in quei contesti dove la visione artificiale tradizionale è ostacolata o inadatta.
L’analisi di ablation, metodologia sperimentale volta a isolare l’impatto delle singole componenti di un sistema complesso, rivela in modo chiaro che ogni elemento architetturale o metodologico inserito nel modello contribuisce significativamente, seppur in misura diversa, al miglioramento complessivo delle prestazioni. Questa forma di scomposizione analitica non solo consente di ottimizzare il design della rete, ma permette anche di comprendere quali parti dell’architettura siano veramente determinanti per il successo del sistema, e quali invece costituiscano supporti marginali o ridondanti.
In primo luogo, l’inclusione della fase del segnale CSI, opportunamente sanificata, apporta un miglioramento tangibile rispetto all’uso della sola ampiezza. Sebbene l’effetto possa apparire contenuto in termini numerici, è importante notare che la fase contiene informazioni sottili legate al percorso del segnale e alla sua interazione con la geometria ambientale, offrendo indizi preziosi sulla posizione e l’inclinazione delle superfici corporee. La sua presenza contribuisce, quindi, a raffinare la stima posizionale e ad aumentare la robustezza della rete nei confronti delle ambiguità.
In secondo luogo, l’aggiunta di una supervisione esplicita sui keypoint articolari – i 17 punti chiave del corpo umano – si dimostra particolarmente utile per rafforzare la coerenza anatomica delle previsioni. Questa componente agisce come un vincolo strutturale interno alla rete, costringendola a rispettare una topologia plausibile del corpo umano e a evitare configurazioni non fisiologiche. I keypoint funzionano, in questo senso, come una sorta di impalcatura semantica che guida l’apprendimento della mappatura densa, impedendo derive erratiche della rete nei casi di pose ambigue.
Infine, l’inserimento del transfer learning con distillazione delle feature provenienti da un modello visivo pre-addestrato si rivela estremamente vantaggioso sotto il profilo computazionale: riduce drasticamente i tempi di training e consente al modello WiFi di convergere più rapidamente verso una rappresentazione stabile e performante. È interessante osservare che, nonostante il contributo alla precisione finale sia marginale in termini assoluti, questa componente rappresenta una vera svolta in termini di efficienza e scalabilità, rendendo il modello più adatto a essere utilizzato in ambienti reali dove la disponibilità di risorse e tempo per l’addestramento può essere limitata.
Nonostante queste evidenze positive, l’analisi evidenzia anche alcuni limiti strutturali del modello, che meritano attenzione per lo sviluppo futuro. In particolare, si osservano difficoltà marcate nel riconoscimento e nella stima accurata di pose rare o poco rappresentate nel dataset di addestramento, come posizioni insolite del corpo, interazioni non canoniche con l’ambiente o azioni che comportano contorsioni atipiche. Questo fenomeno è una diretta conseguenza della distribuzione non bilanciata dei dati: come in molti problemi di apprendimento supervisionato, il modello tende a performare meglio su pose frequenti e a generalizzare meno su configurazioni eccezionali.
In aggiunta, il sistema mostra criticità nella gestione di scenari multi-soggetto, in particolare quando sono presenti tre o più individui all’interno dello stesso volume di osservazione. In tali casi, la complessità del segnale CSI aumenta esponenzialmente: le traiettorie del segnale si moltiplicano, le riflessioni diventano più intricate, e la separabilità spaziale tra le entità diventa meno netta. Questo porta a fenomeni di interferenza o di confusione tra corpi, con previsioni che possono sovrapporsi o “fondersi” parzialmente.
Queste problematiche non derivano da una carenza intrinseca dell’approccio, ma piuttosto dalla limitata disponibilità di dati di addestramento rappresentativi di tali configurazioni complesse. Pertanto, la strada più promettente per superare questi ostacoli è quella dell’espansione del dataset, sia in termini quantitativi che qualitativi, includendo scene più affollate, una maggiore varietà posturale e layout spaziali più diversificati. Solo così sarà possibile conferire al modello una vera capacità di generalizzazione, elevandolo da prototipo sperimentale a strumento pienamente operativo e affidabile in ambienti reali e dinamici.
Un confronto diretto con DensePose basato su immagini RGB evidenzia in modo chiaro la superiorità della visione artificiale tradizionale in termini di accuratezza assoluta, risoluzione dei dettagli e localizzazione fine delle superfici corporee. I modelli che operano su immagini catturate da telecamere ad alta definizione godono infatti di vantaggi significativi: possono sfruttare pattern cromatici, texture superficiali, contorni netti e gradienti luminosi che facilitano la segmentazione e la proiezione tridimensionale della figura umana con estrema precisione. Questo rende la visione RGB, almeno nel contesto controllato del laboratorio o della videosorveglianza, una tecnologia ancora di riferimento.
Tuttavia, al di là dei numeri puri, emerge un elemento di grande rilevanza: il modello WiFi riesce a offrire una soluzione competitiva, sostenibile ed efficace soprattutto in scenari dove l’impiego delle immagini è eticamente o tecnicamente problematico. Ambiti come la tutela della privacy in ambienti domestici, l’assistenza in bagni o camere da letto, oppure l’utilizzo in contesti clinici o religiosi, pongono vincoli severi all’uso di sensori ottici, e qui l’approccio WiFi si rivela non solo utile, ma addirittura preferibile. La capacità del modello di inferire pose umane con un buon livello di fedeltà, senza mai registrare l’aspetto esteriore delle persone, lo rende uno strumento rispettoso della dignità umana e potenzialmente decisivo per una nuova generazione di tecnologie eticamente compatibili.
Un altro aspetto sorprendente riguarda la copertura spaziale garantita dal segnale WiFi. A differenza delle telecamere, che soffrono fortemente l’allontanamento del soggetto dalla lente – con perdita di dettaglio, distorsione prospettica o addirittura totale esclusione dal campo visivo – i segnali WiFi mantengono una copertura omogenea su tutto il volume ambientale, indipendentemente dalla posizione del soggetto rispetto al router. Questa caratteristica è dovuta alla natura diffusa e riflettente delle onde radio, che tendono a permeare l’intero spazio e a trasportare informazioni anche in presenza di ostacoli parziali o superfici opache. Il risultato è che il corpo umano, anche quando non perfettamente esposto in linea diretta, continua a influenzare il segnale in modo sufficiente per essere “percepito” dalla rete neurale.
Questa uniformità percettiva, unita alla possibilità di disporre di router multipli distribuiti nell’ambiente, suggerisce che il sistema WiFi possa addirittura superare la visione artificiale in termini di copertura ambientale, offrendo uno strumento di monitoraggio continuo e discreto, senza necessità di linee di vista dirette. In contesti reali – dove le persone si muovono liberamente, entrano ed escono da stanze, interagiscono con mobili, pareti, tende o altri soggetti – tale robustezza rappresenta un vantaggio sostanziale, potenzialmente decisivo per applicazioni in ambienti non supervisionati o con mobilità complessa.
In conclusione, il confronto tra i due approcci non va interpretato come una competizione tra visione e radiofrequenza, ma come una complementarietà tecnologica, in cui ciascuna soluzione trova la propria ottimizzazione in base al contesto. L’innovazione più profonda del sistema WiFi non risiede nel tentativo di sostituire la vista, ma nel dimostrare che si può “vedere” attraverso un altro senso, costruendo una percezione ambientale alternativa che non ha bisogno di luce, colori o dettagli ottici, ma che è comunque in grado di restituire la presenza umana nella sua struttura, nel suo movimento, nella sua essenza spaziale.
Guardando al futuro, le direzioni di sviluppo tecnologico e scientifico per il sistema DensePose da WiFi sono tanto promettenti quanto sfidanti. Una delle priorità più immediate riguarda l’ampliamento dei dataset, sia in termini di varietà spaziale che di diversità posturale e comportamentale. È essenziale includere ambienti con architetture irregolari, materiali diversi, arredi mobili, condizioni di affollamento, soggetti con differenti corporature, indumenti voluminosi o dispositivi medici, per garantire che il modello acquisisca una capacità di generalizzazione robusta e non resti vincolato agli schemi delle configurazioni viste in fase di addestramento.
Parallelamente, si apre la possibilità di estendere il sistema alla ricostruzione tridimensionale del corpo umano in tempo reale, un traguardo che segnerebbe una svolta decisiva nelle applicazioni in medicina, realtà immersiva, telepresenza e interazione uomo-macchina. Il passaggio dalla mappa UV bidimensionale alla mesh 3D dinamica richiederà l’adozione di modelli neurali avanzati, come i mesh-based neural renderers o le tecniche di body fitting ottimizzate, possibilmente integrate con dati temporali per una rappresentazione coerente nel tempo.
L’integrazione con sistemi domotici intelligenti, assistenti vocali, dispositivi medici indossabili e infrastrutture ospedaliere potrebbe trasformare il WiFi in una rete sensoriale diffusa, capace di rilevare eventi anomali, monitorare condizioni cliniche croniche, valutare rischi di caduta negli anziani, analizzare la postura nei lavoratori esposti a rischio ergonomico o semplicemente adattare l’ambiente al comportamento degli occupanti in tempo reale. In ambito clinico, la sinergia tra segnale WiFi, algoritmi di ricostruzione corporea e intelligenza artificiale sanitaria può portare a sistemi di telemedicina passiva, capaci di osservare, comprendere e intervenire senza mai esporre il paziente all’occhio visivo della camera.
Sul piano metodologico, l’integrazione con modelli generativi, come le Variational Autoencoders (VAE) o le Generative Adversarial Networks (GAN), potrebbe permettere al sistema di “immaginare” pose plausibili a partire da segnali rumorosi o incompleti, migliorando la resilienza del modello in scenari degradati o con soggetti parzialmente oscurati. Inoltre, l’adozione di architetture Transformer, ormai pilastro nell’elaborazione sequenziale e nella modellazione di relazioni a lungo raggio, potrebbe rivoluzionare la capacità del sistema di analizzare sequenze temporali complesse, apprendendo dinamiche posturali e comportamentali che sfuggono alle tradizionali reti convoluzionali.
In sintesi, DensePose da WiFi non deve essere interpretato solo come una brillante dimostrazione di fattibilità ingegneristica, ma come un manifesto etico, concettuale e tecnologico di una nuova modalità di percepire l’ambiente e la presenza umana. In un’epoca in cui l’onnipresenza dei sensori rischia di trasformarsi in sorveglianza pervasiva, questo sistema propone un’alternativa: una percezione discreta, rispettosa, silenziosa, che non osserva ma interpreta, che non registra ma ricostruisce, che non invade ma protegge. È una visione che capovolge l’idea tradizionale di intelligenza artificiale applicata alla sorveglianza, sostituendo il controllo visivo con un senso diffuso dello spazio, capace di cogliere la presenza umana come una firma dinamica ed eterea, senza mai ridurla a un’immagine.
Si tratta, a tutti gli effetti, di un passo deciso verso il concetto di intelligenza ambientale, dove l’ambiente stesso diventa un sistema cognitivo distribuito, in grado di leggere, comprendere e rispondere alla presenza dell’essere umano con tatto, discrezione e consapevolezza. Un’intelligenza che sa “vedere senza guardare”, e che per questo può essere finalmente umana.