diff --git a/docs/diffusion/ddpm/unet.html b/docs/diffusion/ddpm/unet.html
index f12e1074..bd925fd1 100644
--- a/docs/diffusion/ddpm/unet.html
+++ b/docs/diffusion/ddpm/unet.html
@@ -93,7 +93,7 @@ <h1>U-Net model for <a href="index.html">Denoising Diffusion Probabilistic Model
             <div class='section-link'>
                 <a href='#section-1'>#</a>
             </div>
-            <h3>Swish actiavation function</h3>
+            <h3>Swish activation function</h3>
 <p><span ><span class="katex-display"><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:0.44445em;vertical-align:0em;"></span><span class="mord mathnormal">x</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">⋅</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mord mathnormal" style="margin-right:0.03588em;">σ</span><span class="mopen">(</span><span class="mord mathnormal">x</span><span class="mclose">)</span></span></span></span></span></span></p>
 
         </div>
diff --git a/docs/normalization/group_norm/experiment.html b/docs/normalization/group_norm/experiment.html
index 7f678b40..7bb3018f 100644
--- a/docs/normalization/group_norm/experiment.html
+++ b/docs/normalization/group_norm/experiment.html
@@ -80,7 +80,7 @@ <h1>CIFAR10 Experiment for Group Normalization</h1>
 <span class="lineno">14</span><span class="kn">from</span> <span class="nn">labml</span> <span class="kn">import</span> <span class="n">experiment</span>
 <span class="lineno">15</span><span class="kn">from</span> <span class="nn">labml.configs</span> <span class="kn">import</span> <span class="n">option</span>
 <span class="lineno">16</span><span class="kn">from</span> <span class="nn">labml_helpers.module</span> <span class="kn">import</span> <span class="n">Module</span>
-<span class="lineno">17</span><span class="kn">from</span> <span class="nn">labml_nn.experiments.cifar10</span> <span class="kn">import</span> <span class="n">CIFAR10Configs</span>
+<span class="lineno">17</span><span class="kn">from</span> <span class="nn">labml_nn.experiments.cifar10</span> <span class="kn">import</span> <span class="n">CIFAR10Configs</span><span class="p">,</span> <span class="n">CIFAR10VGGModel</span>
 <span class="lineno">18</span><span class="kn">from</span> <span class="nn">labml_nn.normalization.group_norm</span> <span class="kn">import</span> <span class="n">GroupNorm</span></pre></div>
         </div>
     </div>
@@ -90,10 +90,11 @@ <h1>CIFAR10 Experiment for Group Normalization</h1>
                 <a href='#section-1'>#</a>
             </div>
             <h3>VGG model for CIFAR-10 classification</h3>
+<p>This derives from the <a href="../../experiments/cifar10.html">generic VGG style architecture</a>.</p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">21</span><span class="k">class</span> <span class="nc">Model</span><span class="p">(</span><span class="n">Module</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">21</span><span class="k">class</span> <span class="nc">Model</span><span class="p">(</span><span class="n">CIFAR10VGGModel</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-2'>
@@ -104,9 +105,12 @@ <h3>VGG model for CIFAR-10 classification</h3>
             
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">26</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">groups</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">):</span>
-<span class="lineno">27</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">()</span>
-<span class="lineno">28</span>        <span class="n">layers</span> <span class="o">=</span> <span class="p">[]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">28</span>    <span class="k">def</span> <span class="nf">conv_block</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">in_channels</span><span class="p">,</span> <span class="n">out_channels</span><span class="p">)</span> <span class="o">-&gt;</span> <span class="n">nn</span><span class="o">.</span><span class="n">Module</span><span class="p">:</span>
+<span class="lineno">29</span>        <span class="k">return</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span>
+<span class="lineno">30</span>            <span class="n">nn</span><span class="o">.</span><span class="n">Conv2d</span><span class="p">(</span><span class="n">in_channels</span><span class="p">,</span> <span class="n">out_channels</span><span class="p">,</span> <span class="n">kernel_size</span><span class="o">=</span><span class="mi">3</span><span class="p">,</span> <span class="n">padding</span><span class="o">=</span><span class="mi">1</span><span class="p">),</span>
+<span class="lineno">31</span>            <span class="n">fnorm</span><span class="o">.</span><span class="n">GroupNorm</span><span class="p">(</span><span class="bp">self</span><span class="o">.</span><span class="n">groups</span><span class="p">,</span> <span class="n">out_channels</span><span class="p">),</span><span class="c1">#new</span>
+<span class="lineno">32</span>            <span class="n">nn</span><span class="o">.</span><span class="n">ReLU</span><span class="p">(</span><span class="n">inplace</span><span class="o">=</span><span class="kc">True</span><span class="p">),</span>
+<span class="lineno">33</span>        <span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-3'>
@@ -114,11 +118,12 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-3'>#</a>
             </div>
-            <p>RGB channels </p>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">30</span>        <span class="n">in_channels</span> <span class="o">=</span> <span class="mi">3</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">35</span>    <span class="k">def</span> <span class="fm">__init__</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">groups</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">32</span><span class="p">):</span>
+<span class="lineno">36</span>        <span class="bp">self</span><span class="o">.</span><span class="n">groups</span> <span class="o">=</span> <span class="n">groups</span><span class="c1">#input param:groups to conv_block</span>
+<span class="lineno">37</span>        <span class="nb">super</span><span class="p">()</span><span class="o">.</span><span class="fm">__init__</span><span class="p">([[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">],</span> <span class="p">[</span><span class="mi">128</span><span class="p">,</span> <span class="mi">128</span><span class="p">],</span> <span class="p">[</span><span class="mi">256</span><span class="p">,</span> <span class="mi">256</span><span class="p">,</span> <span class="mi">256</span><span class="p">],</span> <span class="p">[</span><span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">],</span> <span class="p">[</span><span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">]])</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-4'>
@@ -126,11 +131,10 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-4'>#</a>
             </div>
-            <p>Number of channels in each layer in each block </p>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">32</span>        <span class="k">for</span> <span class="n">block</span> <span class="ow">in</span> <span class="p">[[</span><span class="mi">64</span><span class="p">,</span> <span class="mi">64</span><span class="p">],</span> <span class="p">[</span><span class="mi">128</span><span class="p">,</span> <span class="mi">128</span><span class="p">],</span> <span class="p">[</span><span class="mi">256</span><span class="p">,</span> <span class="mi">256</span><span class="p">,</span> <span class="mi">256</span><span class="p">],</span> <span class="p">[</span><span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">],</span> <span class="p">[</span><span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">,</span> <span class="mi">512</span><span class="p">]]:</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">40</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">CIFAR10Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-5'>
@@ -138,27 +142,24 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-5'>#</a>
             </div>
-            <p>Convolution, Normalization and Activation layers </p>
+            <p>Number of groups </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">34</span>            <span class="k">for</span> <span class="n">channels</span> <span class="ow">in</span> <span class="n">block</span><span class="p">:</span>
-<span class="lineno">35</span>                <span class="n">layers</span> <span class="o">+=</span> <span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">Conv2d</span><span class="p">(</span><span class="n">in_channels</span><span class="p">,</span> <span class="n">channels</span><span class="p">,</span> <span class="n">kernel_size</span><span class="o">=</span><span class="mi">3</span><span class="p">,</span> <span class="n">padding</span><span class="o">=</span><span class="mi">1</span><span class="p">),</span>
-<span class="lineno">36</span>                           <span class="n">GroupNorm</span><span class="p">(</span><span class="n">groups</span><span class="p">,</span> <span class="n">channels</span><span class="p">),</span>
-<span class="lineno">37</span>                           <span class="n">nn</span><span class="o">.</span><span class="n">ReLU</span><span class="p">(</span><span class="n">inplace</span><span class="o">=</span><span class="kc">True</span><span class="p">)]</span>
-<span class="lineno">38</span>                <span class="n">in_channels</span> <span class="o">=</span> <span class="n">channels</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">42</span>    <span class="n">groups</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-6'>
-        <div class='docs'>
+        <div class='docs doc-strings'>
             <div class='section-link'>
                 <a href='#section-6'>#</a>
             </div>
-            <p>Max pooling at end of each block </p>
+            <h3>Create model</h3>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">40</span>            <span class="n">layers</span> <span class="o">+=</span> <span class="p">[</span><span class="n">nn</span><span class="o">.</span><span class="n">MaxPool2d</span><span class="p">(</span><span class="n">kernel_size</span><span class="o">=</span><span class="mi">2</span><span class="p">,</span> <span class="n">stride</span><span class="o">=</span><span class="mi">2</span><span class="p">)]</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">45</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
+<span class="lineno">46</span><span class="k">def</span> <span class="nf">model</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-7'>
@@ -166,11 +167,10 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-7'>#</a>
             </div>
-            <p>Create a sequential model with the layers </p>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">43</span>        <span class="bp">self</span><span class="o">.</span><span class="n">layers</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Sequential</span><span class="p">(</span><span class="o">*</span><span class="n">layers</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">50</span>    <span class="k">return</span> <span class="n">Model</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">groups</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-8'>
@@ -178,11 +178,10 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-8'>#</a>
             </div>
-            <p>Final logits layer </p>
-
+            
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">45</span>        <span class="bp">self</span><span class="o">.</span><span class="n">fc</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="mi">512</span><span class="p">,</span> <span class="mi">10</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">53</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-9'>
@@ -190,10 +189,11 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-9'>#</a>
             </div>
-            
+            <p>Create experiment </p>
+
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">47</span>    <span class="k">def</span> <span class="nf">forward</span><span class="p">(</span><span class="bp">self</span><span class="p">,</span> <span class="n">x</span><span class="p">):</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">55</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;cifar10&#39;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;group norm&#39;</span><span class="p">)</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-10'>
@@ -201,11 +201,11 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-10'>#</a>
             </div>
-            <p>The VGG layers </p>
+            <p>Create configurations </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">49</span>        <span class="n">x</span> <span class="o">=</span> <span class="bp">self</span><span class="o">.</span><span class="n">layers</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">57</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-11'>
@@ -213,11 +213,14 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-11'>#</a>
             </div>
-            <p>Reshape for classification layer </p>
+            <p>Load configurations </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">51</span>        <span class="n">x</span> <span class="o">=</span> <span class="n">x</span><span class="o">.</span><span class="n">view</span><span class="p">(</span><span class="n">x</span><span class="o">.</span><span class="n">shape</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="o">-</span><span class="mi">1</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">59</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span> <span class="p">{</span>
+<span class="lineno">60</span>        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Adam&#39;</span><span class="p">,</span>
+<span class="lineno">61</span>        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">2.5e-4</span><span class="p">,</span>
+<span class="lineno">62</span>    <span class="p">})</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-12'>
@@ -225,11 +228,12 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-12'>#</a>
             </div>
-            <p>Final linear layer </p>
+            <p>Start the experiment and run the training loop </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">53</span>        <span class="k">return</span> <span class="bp">self</span><span class="o">.</span><span class="n">fc</span><span class="p">(</span><span class="n">x</span><span class="p">)</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">64</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span>
+<span class="lineno">65</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='section' id='section-13'>
@@ -237,122 +241,12 @@ <h3>VGG model for CIFAR-10 classification</h3>
             <div class='section-link'>
                 <a href='#section-13'>#</a>
             </div>
-            
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">56</span><span class="k">class</span> <span class="nc">Configs</span><span class="p">(</span><span class="n">CIFAR10Configs</span><span class="p">):</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-14'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-14'>#</a>
-            </div>
-            <p>Number of groups </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">58</span>    <span class="n">groups</span><span class="p">:</span> <span class="nb">int</span> <span class="o">=</span> <span class="mi">16</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-15'>
-        <div class='docs doc-strings'>
-            <div class='section-link'>
-                <a href='#section-15'>#</a>
-            </div>
-            <h3>Create model</h3>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">61</span><span class="nd">@option</span><span class="p">(</span><span class="n">Configs</span><span class="o">.</span><span class="n">model</span><span class="p">)</span>
-<span class="lineno">62</span><span class="k">def</span> <span class="nf">model</span><span class="p">(</span><span class="n">c</span><span class="p">:</span> <span class="n">Configs</span><span class="p">):</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-16'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-16'>#</a>
-            </div>
-            
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">66</span>    <span class="k">return</span> <span class="n">Model</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">groups</span><span class="p">)</span><span class="o">.</span><span class="n">to</span><span class="p">(</span><span class="n">c</span><span class="o">.</span><span class="n">device</span><span class="p">)</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-17'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-17'>#</a>
-            </div>
-            
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">69</span><span class="k">def</span> <span class="nf">main</span><span class="p">():</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-18'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-18'>#</a>
-            </div>
-            <p>Create experiment </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">71</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">create</span><span class="p">(</span><span class="n">name</span><span class="o">=</span><span class="s1">&#39;cifar10&#39;</span><span class="p">,</span> <span class="n">comment</span><span class="o">=</span><span class="s1">&#39;group norm&#39;</span><span class="p">)</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-19'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-19'>#</a>
-            </div>
-            <p>Create configurations </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">73</span>    <span class="n">conf</span> <span class="o">=</span> <span class="n">Configs</span><span class="p">()</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-20'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-20'>#</a>
-            </div>
-            <p>Load configurations </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">75</span>    <span class="n">experiment</span><span class="o">.</span><span class="n">configs</span><span class="p">(</span><span class="n">conf</span><span class="p">,</span> <span class="p">{</span>
-<span class="lineno">76</span>        <span class="s1">&#39;optimizer.optimizer&#39;</span><span class="p">:</span> <span class="s1">&#39;Adam&#39;</span><span class="p">,</span>
-<span class="lineno">77</span>        <span class="s1">&#39;optimizer.learning_rate&#39;</span><span class="p">:</span> <span class="mf">2.5e-4</span><span class="p">,</span>
-<span class="lineno">78</span>    <span class="p">})</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-21'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-21'>#</a>
-            </div>
-            <p>Start the experiment and run the training loop </p>
-
-        </div>
-        <div class='code'>
-            <div class="highlight"><pre><span class="lineno">80</span>    <span class="k">with</span> <span class="n">experiment</span><span class="o">.</span><span class="n">start</span><span class="p">():</span>
-<span class="lineno">81</span>        <span class="n">conf</span><span class="o">.</span><span class="n">run</span><span class="p">()</span></pre></div>
-        </div>
-    </div>
-    <div class='section' id='section-22'>
-        <div class='docs'>
-            <div class='section-link'>
-                <a href='#section-22'>#</a>
-            </div>
             <p> </p>
 
         </div>
         <div class='code'>
-            <div class="highlight"><pre><span class="lineno">85</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
-<span class="lineno">86</span>    <span class="n">main</span><span class="p">()</span></pre></div>
+            <div class="highlight"><pre><span class="lineno">69</span><span class="k">if</span> <span class="vm">__name__</span> <span class="o">==</span> <span class="s1">&#39;__main__&#39;</span><span class="p">:</span>
+<span class="lineno">70</span>    <span class="n">main</span><span class="p">()</span></pre></div>
         </div>
     </div>
     <div class='footer'>
diff --git a/docs/sitemap.xml b/docs/sitemap.xml
index e1965cd4..7b8e33b6 100644
--- a/docs/sitemap.xml
+++ b/docs/sitemap.xml
@@ -316,7 +316,7 @@
 
     <url>
       <loc>https://nn.labml.ai/normalization/group_norm/experiment.html</loc>
-      <lastmod>2021-08-19T16:30:00+00:00</lastmod>
+      <lastmod>2024-03-02T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -484,7 +484,7 @@
 
     <url>
       <loc>https://nn.labml.ai/index.html</loc>
-      <lastmod>2023-07-14T16:30:00+00:00</lastmod>
+      <lastmod>2024-01-12T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -645,7 +645,7 @@
 
     <url>
       <loc>https://nn.labml.ai/diffusion/ddpm/unet.html</loc>
-      <lastmod>2023-11-06T16:30:00+00:00</lastmod>
+      <lastmod>2024-03-02T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -939,7 +939,7 @@
 
     <url>
       <loc>https://nn.labml.ai/transformers/rope/index.html</loc>
-      <lastmod>2023-10-24T16:30:00+00:00</lastmod>
+      <lastmod>2023-12-08T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
@@ -1247,7 +1247,7 @@
 
     <url>
       <loc>https://nn.labml.ai/transformers/xl/relative_mha.html</loc>
-      <lastmod>2023-11-07T16:30:00+00:00</lastmod>
+      <lastmod>2024-03-02T16:30:00+00:00</lastmod>
       <priority>1.00</priority>
     </url>
     
diff --git a/docs/transformers/xl/relative_mha.html b/docs/transformers/xl/relative_mha.html
index 64442cc2..6fa00804 100644
--- a/docs/transformers/xl/relative_mha.html
+++ b/docs/transformers/xl/relative_mha.html
@@ -279,7 +279,7 @@ <h3>Get relative attention scores</h3>
             <div class='section-link'>
                 <a href='#section-16'>#</a>
             </div>
-            <p><span ><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:1.185808em;vertical-align:-0.435808em;"></span><span class="mord"><span class="mord"><span class="mopen">(</span><span class="mord" style="color:lightgreen"><span class="mord mathbf" style="">A</span><span class="mspace" style="margin-right:0.2222222222222222em"></span><span class="mbin" style="">+</span><span class="mspace" style="margin-right:0.2222222222222222em"></span><span class="mord mathbf" style="">C</span></span><span class="mclose">)</span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.161964em;"><span style="top:-2.4003000000000005em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight coloredeq eqx" style=""><span class="mord mathnormal mtight" style="">i</span></span><span class="mpunct mtight">,</span><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.435808em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.135216em;vertical-align:-0.286108em;"></span><span class="mord"><span class="mord mathnormal">Q</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight coloredeq eqx" style=""><span class="mord mathnormal mtight" style="">i</span></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">⊤</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathnormal" style="margin-right:0.07153em;">K</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.311664em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.286108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.135216em;vertical-align:-0.286108em;"></span><span class="mord" style="color:orange"><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.03588em">v</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style="">⊤</span></span></span></span></span></span></span></span></span><span class="mord"><span class="mord mathnormal" style="margin-right:0.07153em;">K</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.311664em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.286108em;"><span></span></span></span></span></span></span><span class="mord mathnormal" style="margin-right:0.07153em;">Z</span></span></span></span></span> </p>
+            <p><span ><span class="katex"><span aria-hidden="true" class="katex-html"><span class="base"><span class="strut" style="height:1.185808em;vertical-align:-0.435808em;"></span><span class="mord"><span class="mord"><span class="mopen">(</span><span class="mord" style="color:lightgreen"><span class="mord mathbf" style="">A</span><span class="mspace" style="margin-right:0.2222222222222222em"></span><span class="mbin" style="">+</span><span class="mspace" style="margin-right:0.2222222222222222em"></span><span class="mord mathbf" style="">C</span></span><span class="mclose">)</span></span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.161964em;"><span style="top:-2.4003000000000005em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight"><span class="mord mtight coloredeq eqx" style=""><span class="mord mathnormal mtight" style="">i</span></span><span class="mpunct mtight">,</span><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.435808em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2777777777777778em;"></span><span class="mrel">=</span><span class="mspace" style="margin-right:0.2777777777777778em;"></span></span><span class="base"><span class="strut" style="height:1.135216em;vertical-align:-0.286108em;"></span><span class="mord"><span class="mord mathnormal">Q</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-2.441336em;margin-left:0em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight coloredeq eqx" style=""><span class="mord mathnormal mtight" style="">i</span></span></span></span><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mtight">⊤</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.258664em;"><span></span></span></span></span></span></span><span class="mord"><span class="mord mathnormal" style="margin-right:0.07153em;">K</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.311664em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.286108em;"><span></span></span></span></span></span></span><span class="mspace" style="margin-right:0.2222222222222222em;"></span><span class="mbin">+</span><span class="mspace" style="margin-right:0.2222222222222222em;"></span></span><span class="base"><span class="strut" style="height:1.135216em;vertical-align:-0.286108em;"></span><span class="mord" style="color:orange"><span class="mord" style=""><span class="mord mathnormal" style="margin-right:0.03588em">v</span><span class="msupsub"><span class="vlist-t"><span class="vlist-r"><span class="vlist" style="height:0.849108em;"><span style="top:-3.063em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight" style=""><span class="mord mtight" style="">⊤</span></span></span></span></span></span></span></span></span><span class="mord"><span class="mord mathnormal" style="margin-right:0.07153em;">K</span><span class="msupsub"><span class="vlist-t vlist-t2"><span class="vlist-r"><span class="vlist" style="height:0.311664em;"><span style="top:-2.5500000000000003em;margin-left:-0.07153em;margin-right:0.05em;"><span class="pstrut" style="height:2.7em;"></span><span class="sizing reset-size6 size3 mtight"><span class="mord mathnormal mtight" style="margin-right:0.05724em;">j</span></span></span></span><span class="vlist-s">​</span></span><span class="vlist-r"><span class="vlist" style="height:0.286108em;"><span></span></span></span></span></span></span></span></span></span></span> </p>
 
         </div>
         <div class='code'>