Work Packages Long time horizon control

ResNet stabilization in MNIST dataset

Authors: - 29 October 2020

Download Code

MNIST dataset

Consideramos el problema de clasificación MNIST. Este problema tiene datos de entrada tal que $x \in \mathcal{M}_{28 \times 28}(\mathbb{R})$ y datos de salida tal que $y \in \mathbb{R}^{10}$. Los elementos de la base canónica de $\mathbb{R}^{10}$, $ \{e_1,e_2,\dots,e_{10}\} $, representa el conjunto de dígitos $ \{0,1,2,\dots,8,9 \}$ en ese orden.

Figura 1. Distintos datos de entrada $x \in \mathcal{M}_{28 \times 28}(\mathbb{R})$ y sus correspondientes datos de salida $y \in \mathbb{R}^{10}$ en la parte superior de cada una.

2. Modelo

Buscamos una función $f_{\Omega}: \mathcal{M}_{28 \times 28}(\mathbb{R}) \rightarrow \mathbb{R}^{10}$ que sea capaz de reproducir el comportamiento que vemos en los datos. Consideraremos el modelo $\color{red}{y} = f_\Omega (\color{green}{x})$ como:

Donde:

  1. $\{z_t\}_{t=0}^{T} \in \mathbb{R}^n \ / \ n < 28^2$.
  2. $\mathcal{P} \in \mathcal{M}_{n\times 10}$ es una matriz constante que proyecta el estado $z_t \in \mathbb{R}^n$ a $\mathbb{R}^{10}$
  3. Las variables $\Omega = \{ A_t,b_t\}_{t=0}^T$ pueden verse como variables de control del sistema (\ref{sys}).
  4. $A_0 \in \mathcal{M}_{28^2 \times n}(\mathbb{R})$ y $b_0 \in \mathbb{R}^{28^2}$; mientras que $ \{A_t\}_{t=1}^{N} \in \mathcal{M}_{n \times n}(\mathbb{R}) $ y los siguientes $b_t$ bias son $ \{b_t\}_{t=1}^N \in \mathbb{R}^n $

Figura 2. Arquitectura de la red

3. Problema de Control

Si llamamos $M$ al número total de datos de entrenamiento y considerando los datos de entrenamiento $\{ x_m,y_m\}_{m=1}^M$, podemos plantear el siguiente problema de control.

4. Resultados numéricos

Figura 3. Comportamiento de la proyección $\mathcal{P}z_t$ para un dado de entrada concreto.

Figura 4. Evolución $||\mathcal{P}z_t||_{L^2}^2$ para los distintos datos de entrada $x$