adirendu commited on May 29

Commit

a6b069c

verified ·

1 Parent(s): ef95b87

Upload folder using huggingface_hub

Browse files

Files changed (20) hide show

.gitattributes +1 -0
config.json +125 -0
configuration_nemotron_h.py +243 -0
generation_config.json +7 -0
hf_quant_config.json +58 -0
model-00001-of-00011.safetensors +3 -0
model-00002-of-00011.safetensors +3 -0
model-00003-of-00011.safetensors +3 -0
model-00004-of-00011.safetensors +3 -0
model-00005-of-00011.safetensors +3 -0
model-00006-of-00011.safetensors +3 -0
model-00007-of-00011.safetensors +3 -0
model-00008-of-00011.safetensors +3 -0
model-00009-of-00011.safetensors +3 -0
model-00010-of-00011.safetensors +3 -0
model-00011-of-00011.safetensors +3 -0
model.safetensors.index.json +1006 -0
special_tokens_map.json +17 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

config.json ADDED Viewed

	@@ -0,0 +1,125 @@

+{
+    "architectures": [
+        "NemotronHForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "attention_head_dim": 128,
+    "bos_token_id": 1,
+    "chunk_size": 256,
+    "conv_kernel": 4,
+    "eos_token_id": 2,
+    "expand": 2,
+    "hidden_dropout": 0.0,
+    "hidden_size": 8192,
+    "hybrid_override_pattern": "M-M-M-M-M-M-M-M-M*-M-M-M-M-M-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M-M-M---MM---M-M*-M-M-M-M-M-",
+    "initializer_range": 0.02,
+    "intermediate_size": 30720,
+    "layer_norm_epsilon": 1e-05,
+    "mamba_d_state": 256,
+    "mamba_head_dim": 64,
+    "mamba_hidden_act": "silu",
+    "mamba_num_heads": 256,
+    "mamba_proj_bias": false,
+    "max_position_embeddings": 131072,
+    "mlp_bias": false,
+    "mlp_hidden_act": "relu2",
+    "model_type": "nemotron_h",
+    "n_groups": 8,
+    "num_attention_heads": 64,
+    "num_hidden_layers": 98,
+    "num_key_value_heads": 8,
+    "num_logits_to_keep": 1,
+    "pad_token_id": 0,
+    "rescale_prenorm_residual": true,
+    "residual_in_fp32": false,
+    "rms_norm_eps": 1e-05,
+    "sliding_window": null,
+    "ssm_state_size": 256,
+    "tie_word_embeddings": false,
+    "time_step_floor": 0.0001,
+    "time_step_limit": [
+        0.0,
+        Infinity
+    ],
+    "time_step_max": 0.1,
+    "time_step_min": 0.001,
+    "time_step_rank": 256,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.51.3",
+    "use_bias": false,
+    "use_cache": true,
+    "use_conv_bias": true,
+    "use_mamba_kernels": true,
+    "vocab_size": 131072,
+    "quantization_config": {
+        "config_groups": {
+            "group_0": {
+                "input_activations": {
+                    "dynamic": false,
+                    "num_bits": 8,
+                    "type": "float"
+                },
+                "weights": {
+                    "dynamic": false,
+                    "num_bits": 8,
+                    "type": "float"
+                }
+            }
+        },
+        "ignore": [
+            "model.layers.backbone.layers.0.mixer.conv1d",
+            "model.layers.backbone.layers.10.mixer.conv1d",
+            "model.layers.backbone.layers.12.mixer.conv1d",
+            "model.layers.backbone.layers.14.mixer.conv1d",
+            "model.layers.backbone.layers.16.mixer.conv1d",
+            "model.layers.backbone.layers.19.mixer.conv1d",
+            "model.layers.backbone.layers.2.mixer.conv1d",
+            "model.layers.backbone.layers.21.mixer.conv1d",
+            "model.layers.backbone.layers.23.mixer.conv1d",
+            "model.layers.backbone.layers.25.mixer.conv1d",
+            "model.layers.backbone.layers.27.mixer.conv1d",
+            "model.layers.backbone.layers.29.mixer.conv1d",
+            "model.layers.backbone.layers.31.mixer.conv1d",
+            "model.layers.backbone.layers.33.mixer.conv1d",
+            "model.layers.backbone.layers.35.mixer.conv1d",
+            "model.layers.backbone.layers.37.mixer.conv1d",
+            "model.layers.backbone.layers.4.mixer.conv1d",
+            "model.layers.backbone.layers.40.mixer.conv1d",
+            "model.layers.backbone.layers.42.mixer.conv1d",
+            "model.layers.backbone.layers.44.mixer.conv1d",
+            "model.layers.backbone.layers.46.mixer.conv1d",
+            "model.layers.backbone.layers.48.mixer.conv1d",
+            "model.layers.backbone.layers.51.mixer.conv1d",
+            "model.layers.backbone.layers.53.mixer.conv1d",
+            "model.layers.backbone.layers.55.mixer.conv1d",
+            "model.layers.backbone.layers.57.mixer.conv1d",
+            "model.layers.backbone.layers.59.mixer.conv1d",
+            "model.layers.backbone.layers.6.mixer.conv1d",
+            "model.layers.backbone.layers.62.mixer.conv1d",
+            "model.layers.backbone.layers.64.mixer.conv1d",
+            "model.layers.backbone.layers.66.mixer.conv1d",
+            "model.layers.backbone.layers.68.mixer.conv1d",
+            "model.layers.backbone.layers.70.mixer.conv1d",
+            "model.layers.backbone.layers.72.mixer.conv1d",
+            "model.layers.backbone.layers.74.mixer.conv1d",
+            "model.layers.backbone.layers.78.mixer.conv1d",
+            "model.layers.backbone.layers.79.mixer.conv1d",
+            "model.layers.backbone.layers.8.mixer.conv1d",
+            "model.layers.backbone.layers.83.mixer.conv1d",
+            "model.layers.backbone.layers.85.mixer.conv1d",
+            "model.layers.backbone.layers.88.mixer.conv1d",
+            "model.layers.backbone.layers.90.mixer.conv1d",
+            "model.layers.backbone.layers.92.mixer.conv1d",
+            "model.layers.backbone.layers.94.mixer.conv1d",
+            "model.layers.backbone.layers.96.mixer.conv1d",
+            "model.layers.lm_head"
+        ],
+        "quant_algo": "FP8",
+        "kv_cache_scheme": "FP8",
+        "producer": {
+            "name": "modelopt",
+            "version": "0.30.1.dev44+gd6269109"
+        }
+    }
+}

configuration_nemotron_h.py ADDED Viewed

	@@ -0,0 +1,243 @@

+# coding=utf-8
+# Copyright 2024 AI21 Labs Ltd. and the HuggingFace Inc. team. All rights reserved.
+# Copyright (c) 2025, NVIDIA CORPORATION. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""NemotronH model configuration"""
+import re
+from transformers.configuration_utils import PretrainedConfig
+from transformers.utils import logging
+logger = logging.get_logger(__name__)
+class NemotronHConfig(PretrainedConfig):
+    r"""
+    This is the configuration class to store the configuration of a [`NemotronHModel`]. It is used to instantiate a
+    NemotronH model according to the specified arguments, defining the model architecture. Instantiating a configuration
+    with the defaults will yield a similar configuration to that of the NemotronH-v0.1 model.
+    [todo](todo)
+    Configuration objects inherit from [`PretrainedConfig`] and can be used to control the model outputs. Read the
+    documentation from [`PretrainedConfig`] for more information.
+    Args:
+        vocab_size (`int`, *optional*, defaults to 131072):
+            Vocabulary size of the NemotronH model. Defines the number of different tokens that can be represented by the
+            `inputs_ids` passed when calling [`NemotronHModel`]
+        tie_word_embeddings (`bool`, *optional*, defaults to `False`):
+            Whether the model's input and output word embeddings should be tied. Note that this is only relevant if the
+            model has a output word embedding layer.
+        hidden_size (`int`, *optional*, defaults to 4096):
+            Dimension of the hidden representations.
+        intermediate_size (`int`, *optional*, defaults to 21504):
+            Dimension of the MLP representations.
+        num_hidden_layers (`int`, *optional*, defaults to 52):
+            Number of hidden layers in the Transformer encoder.
+        hybrid_override_pattern (`str`, *optional*, defaults to `"M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M-"`):
+            The pattern of the hybrid model. The pattern is a string of characters where each character represents M: Mamba2, *: Attention, -: MLP
+        num_attention_heads (`int`, *optional*, defaults to 32):
+            Number of attention heads for each attention layer in the Transformer encoder.
+        attention_head_dim (`int`, *optional*, defaults to 128):
+            Dimension of each attention head.
+        num_key_value_heads (`int`, *optional*, defaults to 8):
+            This is the number of key_value heads that should be used to implement Grouped Query Attention. If
+            `num_key_value_heads=num_attention_heads`, the model will use Multi Head Attention (MHA), if
+            `num_key_value_heads=1` the model will use Multi Query Attention (MQA) otherwise GQA is used.
+        mlp_hidden_act (`str`, *optional*, defaults to "relu2"):
+            The non-linear activation function in the MLP layers.
+        attention_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in attention layers.
+        mlp_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in MLP layers.
+        use_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in the model.
+        initializer_range (`float`, *optional*, defaults to 0.02):
+            The standard deviation of the truncated_normal_initializer for initializing all weight matrices.
+        layer_norm_epsilon (`float`, *optional*, defaults to 1e-5):
+            The epsilon used by the layer normalization layers.
+        residual_in_fp32 (`bool`, *optional*, defaults to `False`):
+            Whether or not residuals should be in `float32`. If set to `False` residuals will keep the same `dtype` as the rest of the model.
+        use_cache (`bool`, *optional*, defaults to `True`):
+            Whether or not the model should return the last key/values attentions (not used by all models). Only
+            relevant if `config.is_decoder=True`.
+        num_logits_to_keep (`int` or `None`, *optional*, defaults to 1):
+            Number of prompt logits to calculate during generation. If `None`, all logits will be calculated. If an
+            integer value, only last `num_logits_to_keep` logits will be calculated.
+        pad_token_id (`int`, *optional*, defaults to 0):
+            The id of the padding token.
+        bos_token_id (`int`, *optional*, defaults to 1):
+            The id of the "beginning-of-sequence" token.
+        eos_token_id (`int`, *optional*, defaults to 2):
+            The id of the "end-of-sequence" token.
+        sliding_window (`int`, *optional*, defaults to None):
+            Sliding window attention window size.
+        max_position_embeddings (`int`, *optional*, defaults to 4096):
+            The maximum sequence length that this model might ever be used with.
+        attention_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the attention probabilities.
+        hidden_dropout (`float`, *optional*, defaults to 0.0):
+            The dropout ratio for the hidden states.
+        use_mamba_kernels (`bool`, *optional*, defaults to `True`):
+            Flag indicating whether or not to use the fast mamba kernels. These are available only if `mamba-ssm` and
+            `causal-conv1d` are installed, and the mamba modules are running on a CUDA device.
+        ssm_state_size (`int`, *optional*, defaults to 128):
+            The dimension of the mamba state space latents.
+        mamba_num_heads (`int`, *optional*, defaults to 128):
+            Number of heads in Mamba layers.
+        mamba_n_groups (`int`, *optional*, defaults to 8):
+            Number of groups in Mamba layers.
+        mamba_head_dim (`int`, *optional*, defaults to 64):
+            Dimension of each Mamba head.
+        mamba_d_conv (`int`, *optional*, defaults to 4):
+            The size of the mamba convolution kernel.
+        mamba_expand (`int`, *optional*, defaults to 2):
+            Expanding factor used to determine the mamba intermediate size.
+        mamba_hidden_act (`str`, *optional*, defaults to "silu"):
+            The non-linear activation function in the Mamba layers.
+        mamba_dt_min (`float`, *optional*, defaults to 0.001):
+            Minimum value for the time step in Mamba.
+        mamba_dt_max (`float`, *optional*, defaults to 0.1):
+            Maximum value for the time step in Mamba.
+        mamba_dt_limit (`tuple`, *optional*, defaults to (0.0, float("inf"))):
+            Limits for the time step in Mamba.
+        mamba_dt_init_floor (`float`, *optional*, defaults to 1e-4):
+            Floor value for time step initialization in Mamba.
+        mamba_conv_bias (`bool`, *optional*, defaults to `True`):
+            Whether to use bias in the convolution layer of the mamba mixer block.
+        mamba_proj_bias (`bool`, *optional*, defaults to `False`):
+            Whether to use bias in the input and output projections of the mamba mixer block.
+        mamba_chunk_size (`int`, *optional*, defaults to 256):
+            Size of chunks for Mamba processing.
+        rescale_prenorm_residual (`bool`, *optional*, defaults to `True`):
+            Whether to rescale the pre-normalization residual connections.
+    """
+    model_type = "nemotron_h"
+    keys_to_ignore_at_inference = ["past_key_values"]
+    def __init__(
+        self,
+        vocab_size=131072,
+        tie_word_embeddings=False,
+        hidden_size=4096,
+        intermediate_size=21504,
+        num_hidden_layers=52,
+        hybrid_override_pattern="M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M*-M-M-M-M-M-",
+        num_attention_heads=32,
+        attention_head_dim=128,
+        num_key_value_heads=8,  # nemo: num_query_groups
+        mlp_hidden_act="relu2",
+        attention_bias=False,
+        mlp_bias=False,
+        use_bias=False,
+        initializer_range=0.02, # nemo: init_method_std
+        layer_norm_epsilon=1e-5, # nemo: layernorm_epsilon
+        residual_in_fp32=False,  #  Megatron Core default value
+        use_cache=True,
+        num_logits_to_keep=1,
+        pad_token_id=0,
+        bos_token_id=1,
+        eos_token_id=2,
+        sliding_window=None,
+        max_position_embeddings=4096,
+        attention_dropout=0.0,
+        hidden_dropout=0.0, # * ADDED
+        use_mamba_kernels=True,
+        ssm_state_size=128, # mamba_state_size
+        mamba_num_heads=128,
+        mamba_n_groups=8,  # nemo: mamba_ssm_ngroups = num_heads
+        mamba_head_dim=64,
+        mamba_d_conv=4,
+        mamba_expand=2,
+        mamba_hidden_act="silu",
+        mamba_dt_min=0.001,
+        mamba_dt_max=0.1,
+        mamba_dt_limit=(0.0, float("inf")),
+        mamba_dt_init_floor=1e-4,
+        mamba_conv_bias=True,
+        mamba_proj_bias=False,
+        mamba_chunk_size=256,
+        rescale_prenorm_residual=True,
+        **kwargs,
+    ):
+        self.vocab_size = vocab_size
+        self.tie_word_embeddings = tie_word_embeddings
+        self.hidden_size = hidden_size
+        self.intermediate_size = intermediate_size
+        self.num_hidden_layers = num_hidden_layers
+        self.hybrid_override_pattern = hybrid_override_pattern
+        self.num_attention_heads = num_attention_heads
+        self.attention_head_dim = attention_head_dim
+        self.sliding_window = sliding_window
+        self.max_position_embeddings = max_position_embeddings
+        self.attention_dropout = attention_dropout
+        self.hidden_dropout = hidden_dropout
+        # Validate hybrid_override_pattern
+        # M: Mamba2, *: Attention, -: MLP
+        assert len(self.hybrid_override_pattern) == self.num_hidden_layers, "hybrid_override_pattern must have the same length as num_hidden_layers"
+        assert re.match(r"^[*-M]+$", self.hybrid_override_pattern), "hybrid_override_pattern must only contain characters 'M', '*', or '-'"
+        # for backward compatibility
+        if num_key_value_heads is None:
+            num_key_value_heads = num_attention_heads
+        self.num_key_value_heads = num_key_value_heads
+        self.mlp_hidden_act = mlp_hidden_act
+        self.attention_bias = attention_bias
+        self.mlp_bias = mlp_bias
+        self.use_bias = use_bias
+        self.initializer_range = initializer_range
+        self.layer_norm_epsilon = layer_norm_epsilon
+        self.residual_in_fp32 = residual_in_fp32
+        self.use_cache = use_cache
+        self.num_logits_to_keep = num_logits_to_keep
+        self.use_mamba_kernels = use_mamba_kernels
+        self.n_groups = mamba_n_groups
+        self.mamba_head_dim = mamba_head_dim
+        self.ssm_state_size = ssm_state_size
+        self.mamba_num_heads = mamba_num_heads
+        self.conv_kernel = mamba_d_conv
+        self.expand = mamba_expand
+        self.mamba_hidden_act = mamba_hidden_act
+        self.time_step_min = mamba_dt_min
+        self.time_step_max = mamba_dt_max
+        self.time_step_limit = mamba_dt_limit
+        self.time_step_floor = mamba_dt_init_floor
+        self.use_conv_bias = mamba_conv_bias
+        self.mamba_proj_bias = mamba_proj_bias
+        self.chunk_size = mamba_chunk_size
+        self.rescale_prenorm_residual = rescale_prenorm_residual
+        super().__init__(
+            pad_token_id=pad_token_id,
+            bos_token_id=bos_token_id,
+            eos_token_id=eos_token_id,
+            tie_word_embeddings=tie_word_embeddings,
+            **kwargs,
+        )
+    @property
+    def layers_block_type(self):
+        return [
+            "mamba" if self.hybrid_override_pattern[i] == "M" else
+            "attention" if self.hybrid_override_pattern[i] == "*" else "mlp"
+            for i in range(self.num_hidden_layers)]

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.51.3"
+}

hf_quant_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+    "producer": {
+        "name": "modelopt",
+        "version": "0.30.1.dev44+gd6269109"
+    },
+    "quantization": {
+        "quant_algo": "FP8",
+        "kv_cache_quant_algo": "FP8",
+        "exclude_modules": [
+            "model.layers.backbone.layers.0.mixer.conv1d",
+            "model.layers.backbone.layers.10.mixer.conv1d",
+            "model.layers.backbone.layers.12.mixer.conv1d",
+            "model.layers.backbone.layers.14.mixer.conv1d",
+            "model.layers.backbone.layers.16.mixer.conv1d",
+            "model.layers.backbone.layers.19.mixer.conv1d",
+            "model.layers.backbone.layers.2.mixer.conv1d",
+            "model.layers.backbone.layers.21.mixer.conv1d",
+            "model.layers.backbone.layers.23.mixer.conv1d",
+            "model.layers.backbone.layers.25.mixer.conv1d",
+            "model.layers.backbone.layers.27.mixer.conv1d",
+            "model.layers.backbone.layers.29.mixer.conv1d",
+            "model.layers.backbone.layers.31.mixer.conv1d",
+            "model.layers.backbone.layers.33.mixer.conv1d",
+            "model.layers.backbone.layers.35.mixer.conv1d",
+            "model.layers.backbone.layers.37.mixer.conv1d",
+            "model.layers.backbone.layers.4.mixer.conv1d",
+            "model.layers.backbone.layers.40.mixer.conv1d",
+            "model.layers.backbone.layers.42.mixer.conv1d",
+            "model.layers.backbone.layers.44.mixer.conv1d",
+            "model.layers.backbone.layers.46.mixer.conv1d",
+            "model.layers.backbone.layers.48.mixer.conv1d",
+            "model.layers.backbone.layers.51.mixer.conv1d",
+            "model.layers.backbone.layers.53.mixer.conv1d",
+            "model.layers.backbone.layers.55.mixer.conv1d",
+            "model.layers.backbone.layers.57.mixer.conv1d",
+            "model.layers.backbone.layers.59.mixer.conv1d",
+            "model.layers.backbone.layers.6.mixer.conv1d",
+            "model.layers.backbone.layers.62.mixer.conv1d",
+            "model.layers.backbone.layers.64.mixer.conv1d",
+            "model.layers.backbone.layers.66.mixer.conv1d",
+            "model.layers.backbone.layers.68.mixer.conv1d",
+            "model.layers.backbone.layers.70.mixer.conv1d",
+            "model.layers.backbone.layers.72.mixer.conv1d",
+            "model.layers.backbone.layers.74.mixer.conv1d",
+            "model.layers.backbone.layers.78.mixer.conv1d",
+            "model.layers.backbone.layers.79.mixer.conv1d",
+            "model.layers.backbone.layers.8.mixer.conv1d",
+            "model.layers.backbone.layers.83.mixer.conv1d",
+            "model.layers.backbone.layers.85.mixer.conv1d",
+            "model.layers.backbone.layers.88.mixer.conv1d",
+            "model.layers.backbone.layers.90.mixer.conv1d",
+            "model.layers.backbone.layers.92.mixer.conv1d",
+            "model.layers.backbone.layers.94.mixer.conv1d",
+            "model.layers.backbone.layers.96.mixer.conv1d",
+            "model.layers.lm_head"
+        ]
+    }
+}

model-00001-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a58d681bcfa97862fbd40cb303ea4cd67a97d78e9beb0f9d1e4988a37e929a8f
+size 4973392928

model-00002-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9eb4937bf02de0a81bce400894359c4cf04cd7dc5a4f5e888960e5854e9fbf84
+size 4709476128

model-00003-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15c022f29a365086bdabc900f0100988118768604dea91674da35ef3f71c4f71
+size 4860489072

model-00004-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fae432dd804fb66608948a0f4180dfbc57e12298cc683e0814296a81084fabe1
+size 4709476160

model-00005-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ed40a65e5c586a0538491dc6de362dd43947fd1cf136e09e51c264ddcc33aa6a
+size 4860489072

model-00006-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a8693ba529b6e1eca408c6c20eb5aa9b768be46fee08b7c958b71e81515b94b
+size 4860489072

model-00007-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60ca53ff81c8786b428c15fd568503cbd37bc9d07f1855aeac89d144cf0b8fb5
+size 4860489072

model-00008-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55db1f4f51d113d0d2653f90d84db8814334842f29462ec86d40d8d4e1fc00b6
+size 4960927888

model-00009-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0ed4571ec0c2ef511568f1f1e7d04442a66a8fd0cdf10cdee77cedbfb870714
+size 4925261088

model-00010-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f65f3d7d16918fa73c9b755220149bc8d0c1721c4c1f20a59b63b332e0d02f35
+size 3077360712

model-00011-of-00011.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64f73ce8d9fe9b268b69e4190b43322f6d5200737c4c7c16bba4f9f4d8f5a57a
+size 2147483776

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1006 @@

+{
+  "metadata": {
+    "total_size": 48945231000
+  },
+  "weight_map": {
+    "backbone.embeddings.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.A_log": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.D": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.conv1d.bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.conv1d.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.dt_bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.in_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.in_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.in_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.out_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.out_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.mixer.out_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.0.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.mixer.down_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.mixer.down_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.mixer.down_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.mixer.up_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.mixer.up_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.mixer.up_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.1.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.10.mixer.A_log": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.D": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.conv1d.bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.conv1d.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.dt_bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.in_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.in_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.in_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.out_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.out_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.mixer.out_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.10.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.mixer.down_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.mixer.down_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.mixer.down_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.mixer.up_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.mixer.up_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.mixer.up_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.11.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.A_log": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.D": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.conv1d.bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.conv1d.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.dt_bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.in_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.in_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.in_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.out_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.out_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.mixer.out_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.12.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.mixer.down_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.mixer.down_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.mixer.down_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.mixer.up_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.mixer.up_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.mixer.up_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.13.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.A_log": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.D": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.conv1d.bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.conv1d.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.dt_bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.in_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.in_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.in_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.out_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.out_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.mixer.out_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.14.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.mixer.down_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.mixer.down_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.mixer.down_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.mixer.up_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.mixer.up_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.mixer.up_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.15.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.16.mixer.A_log": "model-00002-of-00011.safetensors",
+    "backbone.layers.16.mixer.D": "model-00002-of-00011.safetensors",
+    "backbone.layers.16.mixer.conv1d.bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.16.mixer.conv1d.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.16.mixer.dt_bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.16.mixer.in_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.mixer.in_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.mixer.in_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.mixer.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.mixer.out_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.mixer.out_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.mixer.out_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.16.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.17.mixer.k_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.k_proj.k_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.k_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.k_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.o_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.o_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.o_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.q_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.q_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.q_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.v_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.v_proj.v_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.v_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.mixer.v_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.17.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.mixer.down_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.mixer.down_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.mixer.down_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.mixer.up_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.mixer.up_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.mixer.up_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.18.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.A_log": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.D": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.conv1d.bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.conv1d.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.dt_bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.in_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.in_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.in_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.out_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.out_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.mixer.out_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.19.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.2.mixer.A_log": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.D": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.conv1d.bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.conv1d.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.dt_bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.in_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.in_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.in_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.out_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.out_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.mixer.out_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.2.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.20.mixer.down_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.20.mixer.down_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.20.mixer.down_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.20.mixer.up_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.20.mixer.up_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.20.mixer.up_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.20.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.A_log": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.D": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.conv1d.bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.conv1d.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.dt_bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.in_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.in_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.in_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.out_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.out_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.mixer.out_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.21.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.mixer.down_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.mixer.down_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.mixer.down_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.mixer.up_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.mixer.up_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.mixer.up_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.22.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.A_log": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.D": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.conv1d.bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.conv1d.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.dt_bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.in_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.in_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.in_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.out_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.out_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.mixer.out_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.23.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.mixer.down_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.mixer.down_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.mixer.down_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.mixer.up_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.mixer.up_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.mixer.up_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.24.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.A_log": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.D": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.conv1d.bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.conv1d.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.dt_bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.in_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.in_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.in_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.out_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.out_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.mixer.out_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.25.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.mixer.down_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.mixer.down_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.mixer.down_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.mixer.up_proj.input_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.mixer.up_proj.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.mixer.up_proj.weight_scale": "model-00003-of-00011.safetensors",
+    "backbone.layers.26.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.27.mixer.A_log": "model-00003-of-00011.safetensors",
+    "backbone.layers.27.mixer.D": "model-00003-of-00011.safetensors",
+    "backbone.layers.27.mixer.conv1d.bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.27.mixer.conv1d.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.27.mixer.dt_bias": "model-00003-of-00011.safetensors",
+    "backbone.layers.27.mixer.in_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.mixer.in_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.mixer.in_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.mixer.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.mixer.out_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.mixer.out_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.mixer.out_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.27.norm.weight": "model-00003-of-00011.safetensors",
+    "backbone.layers.28.mixer.down_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.28.mixer.down_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.28.mixer.down_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.28.mixer.up_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.28.mixer.up_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.28.mixer.up_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.28.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.A_log": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.D": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.conv1d.bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.conv1d.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.dt_bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.in_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.in_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.in_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.out_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.out_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.mixer.out_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.29.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.3.mixer.down_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.3.mixer.down_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.3.mixer.down_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.3.mixer.up_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.3.mixer.up_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.3.mixer.up_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.3.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.30.mixer.down_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.30.mixer.down_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.30.mixer.down_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.30.mixer.up_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.30.mixer.up_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.30.mixer.up_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.30.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.A_log": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.D": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.conv1d.bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.conv1d.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.dt_bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.in_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.in_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.in_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.out_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.out_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.mixer.out_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.31.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.mixer.down_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.mixer.down_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.mixer.down_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.mixer.up_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.mixer.up_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.mixer.up_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.32.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.A_log": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.D": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.conv1d.bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.conv1d.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.dt_bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.in_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.in_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.in_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.out_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.out_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.mixer.out_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.33.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.mixer.down_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.mixer.down_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.mixer.down_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.mixer.up_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.mixer.up_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.mixer.up_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.34.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.A_log": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.D": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.conv1d.bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.conv1d.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.dt_bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.in_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.in_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.in_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.out_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.out_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.mixer.out_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.35.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.mixer.down_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.mixer.down_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.mixer.down_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.mixer.up_proj.input_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.mixer.up_proj.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.mixer.up_proj.weight_scale": "model-00004-of-00011.safetensors",
+    "backbone.layers.36.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.37.mixer.A_log": "model-00004-of-00011.safetensors",
+    "backbone.layers.37.mixer.D": "model-00004-of-00011.safetensors",
+    "backbone.layers.37.mixer.conv1d.bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.37.mixer.conv1d.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.37.mixer.dt_bias": "model-00004-of-00011.safetensors",
+    "backbone.layers.37.mixer.in_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.mixer.in_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.mixer.in_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.mixer.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.mixer.out_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.mixer.out_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.mixer.out_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.37.norm.weight": "model-00004-of-00011.safetensors",
+    "backbone.layers.38.mixer.k_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.k_proj.k_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.k_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.k_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.o_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.o_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.o_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.q_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.q_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.q_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.v_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.v_proj.v_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.v_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.mixer.v_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.38.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.mixer.down_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.mixer.down_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.mixer.down_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.mixer.up_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.mixer.up_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.mixer.up_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.39.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.4.mixer.A_log": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.D": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.conv1d.bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.conv1d.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.dt_bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.in_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.in_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.in_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.out_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.out_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.mixer.out_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.4.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.40.mixer.A_log": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.D": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.conv1d.bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.conv1d.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.dt_bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.in_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.in_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.in_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.out_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.out_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.mixer.out_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.40.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.mixer.down_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.mixer.down_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.mixer.down_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.mixer.up_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.mixer.up_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.mixer.up_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.41.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.A_log": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.D": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.conv1d.bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.conv1d.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.dt_bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.in_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.in_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.in_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.out_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.out_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.mixer.out_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.42.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.mixer.down_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.mixer.down_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.mixer.down_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.mixer.up_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.mixer.up_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.mixer.up_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.43.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.A_log": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.D": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.conv1d.bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.conv1d.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.dt_bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.in_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.in_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.in_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.out_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.out_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.mixer.out_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.44.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.mixer.down_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.mixer.down_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.mixer.down_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.mixer.up_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.mixer.up_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.mixer.up_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.45.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.A_log": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.D": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.conv1d.bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.conv1d.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.dt_bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.in_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.in_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.in_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.out_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.out_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.mixer.out_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.46.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.mixer.down_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.mixer.down_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.mixer.down_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.mixer.up_proj.input_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.mixer.up_proj.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.mixer.up_proj.weight_scale": "model-00005-of-00011.safetensors",
+    "backbone.layers.47.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.48.mixer.A_log": "model-00005-of-00011.safetensors",
+    "backbone.layers.48.mixer.D": "model-00005-of-00011.safetensors",
+    "backbone.layers.48.mixer.conv1d.bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.48.mixer.conv1d.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.48.mixer.dt_bias": "model-00005-of-00011.safetensors",
+    "backbone.layers.48.mixer.in_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.mixer.in_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.mixer.in_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.mixer.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.mixer.out_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.mixer.out_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.mixer.out_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.48.norm.weight": "model-00005-of-00011.safetensors",
+    "backbone.layers.49.mixer.k_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.k_proj.k_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.k_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.k_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.o_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.o_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.o_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.q_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.q_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.q_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.v_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.v_proj.v_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.v_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.mixer.v_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.49.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.5.mixer.down_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.5.mixer.down_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.5.mixer.down_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.5.mixer.up_proj.input_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.5.mixer.up_proj.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.5.mixer.up_proj.weight_scale": "model-00001-of-00011.safetensors",
+    "backbone.layers.5.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.50.mixer.down_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.50.mixer.down_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.50.mixer.down_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.50.mixer.up_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.50.mixer.up_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.50.mixer.up_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.50.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.A_log": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.D": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.conv1d.bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.conv1d.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.dt_bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.in_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.in_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.in_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.out_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.out_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.mixer.out_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.51.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.mixer.down_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.mixer.down_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.mixer.down_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.mixer.up_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.mixer.up_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.mixer.up_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.52.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.A_log": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.D": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.conv1d.bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.conv1d.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.dt_bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.in_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.in_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.in_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.out_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.out_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.mixer.out_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.53.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.mixer.down_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.mixer.down_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.mixer.down_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.mixer.up_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.mixer.up_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.mixer.up_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.54.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.A_log": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.D": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.conv1d.bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.conv1d.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.dt_bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.in_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.in_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.in_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.out_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.out_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.mixer.out_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.55.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.mixer.down_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.mixer.down_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.mixer.down_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.mixer.up_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.mixer.up_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.mixer.up_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.56.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.A_log": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.D": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.conv1d.bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.conv1d.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.dt_bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.in_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.in_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.in_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.out_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.out_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.mixer.out_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.57.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.mixer.down_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.mixer.down_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.mixer.down_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.mixer.up_proj.input_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.mixer.up_proj.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.mixer.up_proj.weight_scale": "model-00006-of-00011.safetensors",
+    "backbone.layers.58.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.59.mixer.A_log": "model-00006-of-00011.safetensors",
+    "backbone.layers.59.mixer.D": "model-00006-of-00011.safetensors",
+    "backbone.layers.59.mixer.conv1d.bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.59.mixer.conv1d.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.59.mixer.dt_bias": "model-00006-of-00011.safetensors",
+    "backbone.layers.59.mixer.in_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.mixer.in_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.mixer.in_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.mixer.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.mixer.out_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.mixer.out_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.mixer.out_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.59.norm.weight": "model-00006-of-00011.safetensors",
+    "backbone.layers.6.mixer.A_log": "model-00001-of-00011.safetensors",
+    "backbone.layers.6.mixer.D": "model-00001-of-00011.safetensors",
+    "backbone.layers.6.mixer.conv1d.bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.6.mixer.conv1d.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.6.mixer.dt_bias": "model-00001-of-00011.safetensors",
+    "backbone.layers.6.mixer.in_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.mixer.in_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.mixer.in_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.mixer.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.mixer.out_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.mixer.out_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.mixer.out_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.6.norm.weight": "model-00001-of-00011.safetensors",
+    "backbone.layers.60.mixer.k_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.k_proj.k_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.k_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.k_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.o_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.o_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.o_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.q_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.q_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.q_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.v_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.v_proj.v_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.v_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.mixer.v_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.60.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.mixer.down_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.mixer.down_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.mixer.down_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.mixer.up_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.mixer.up_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.mixer.up_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.61.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.A_log": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.D": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.conv1d.bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.conv1d.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.dt_bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.in_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.in_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.in_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.out_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.out_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.mixer.out_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.62.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.mixer.down_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.mixer.down_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.mixer.down_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.mixer.up_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.mixer.up_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.mixer.up_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.63.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.A_log": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.D": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.conv1d.bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.conv1d.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.dt_bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.in_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.in_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.in_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.out_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.out_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.mixer.out_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.64.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.mixer.down_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.mixer.down_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.mixer.down_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.mixer.up_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.mixer.up_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.mixer.up_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.65.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.A_log": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.D": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.conv1d.bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.conv1d.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.dt_bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.in_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.in_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.in_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.out_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.out_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.mixer.out_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.66.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.mixer.down_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.mixer.down_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.mixer.down_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.mixer.up_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.mixer.up_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.mixer.up_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.67.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.A_log": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.D": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.conv1d.bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.conv1d.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.dt_bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.in_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.in_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.in_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.out_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.out_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.mixer.out_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.68.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.mixer.down_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.mixer.down_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.mixer.down_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.mixer.up_proj.input_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.mixer.up_proj.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.mixer.up_proj.weight_scale": "model-00007-of-00011.safetensors",
+    "backbone.layers.69.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.7.mixer.down_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.7.mixer.down_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.7.mixer.down_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.7.mixer.up_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.7.mixer.up_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.7.mixer.up_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.7.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.70.mixer.A_log": "model-00007-of-00011.safetensors",
+    "backbone.layers.70.mixer.D": "model-00007-of-00011.safetensors",
+    "backbone.layers.70.mixer.conv1d.bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.70.mixer.conv1d.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.70.mixer.dt_bias": "model-00007-of-00011.safetensors",
+    "backbone.layers.70.mixer.in_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.mixer.in_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.mixer.in_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.mixer.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.mixer.out_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.mixer.out_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.mixer.out_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.70.norm.weight": "model-00007-of-00011.safetensors",
+    "backbone.layers.71.mixer.down_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.71.mixer.down_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.71.mixer.down_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.71.mixer.up_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.71.mixer.up_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.71.mixer.up_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.71.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.A_log": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.D": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.conv1d.bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.conv1d.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.dt_bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.in_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.in_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.in_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.out_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.out_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.mixer.out_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.72.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.mixer.down_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.mixer.down_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.mixer.down_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.mixer.up_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.mixer.up_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.mixer.up_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.73.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.A_log": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.D": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.conv1d.bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.conv1d.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.dt_bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.in_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.in_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.in_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.out_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.out_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.mixer.out_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.74.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.mixer.down_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.mixer.down_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.mixer.down_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.mixer.up_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.mixer.up_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.mixer.up_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.75.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.mixer.down_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.mixer.down_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.mixer.down_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.mixer.up_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.mixer.up_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.mixer.up_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.76.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.mixer.down_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.mixer.down_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.mixer.down_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.mixer.up_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.mixer.up_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.mixer.up_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.77.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.A_log": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.D": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.conv1d.bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.conv1d.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.dt_bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.in_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.in_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.in_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.out_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.out_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.mixer.out_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.78.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.A_log": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.D": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.conv1d.bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.conv1d.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.dt_bias": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.in_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.in_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.in_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.out_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.out_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.mixer.out_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.79.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.8.mixer.A_log": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.D": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.conv1d.bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.conv1d.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.dt_bias": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.in_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.in_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.in_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.out_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.out_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.mixer.out_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.8.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.80.mixer.down_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.80.mixer.down_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.80.mixer.down_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.80.mixer.up_proj.input_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.80.mixer.up_proj.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.80.mixer.up_proj.weight_scale": "model-00008-of-00011.safetensors",
+    "backbone.layers.80.norm.weight": "model-00008-of-00011.safetensors",
+    "backbone.layers.81.mixer.down_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.81.mixer.down_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.81.mixer.down_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.81.mixer.up_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.81.mixer.up_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.81.mixer.up_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.81.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.mixer.down_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.mixer.down_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.mixer.down_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.mixer.up_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.mixer.up_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.mixer.up_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.82.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.A_log": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.D": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.conv1d.bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.conv1d.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.dt_bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.in_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.in_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.in_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.out_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.out_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.mixer.out_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.83.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.mixer.down_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.mixer.down_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.mixer.down_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.mixer.up_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.mixer.up_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.mixer.up_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.84.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.A_log": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.D": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.conv1d.bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.conv1d.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.dt_bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.in_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.in_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.in_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.out_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.out_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.mixer.out_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.85.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.k_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.k_proj.k_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.k_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.k_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.o_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.o_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.o_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.q_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.q_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.q_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.v_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.v_proj.v_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.v_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.mixer.v_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.86.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.mixer.down_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.mixer.down_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.mixer.down_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.mixer.up_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.mixer.up_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.mixer.up_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.87.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.A_log": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.D": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.conv1d.bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.conv1d.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.dt_bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.in_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.in_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.in_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.out_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.out_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.mixer.out_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.88.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.mixer.down_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.mixer.down_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.mixer.down_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.mixer.up_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.mixer.up_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.mixer.up_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.89.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.9.mixer.down_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.9.mixer.down_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.9.mixer.down_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.9.mixer.up_proj.input_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.9.mixer.up_proj.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.9.mixer.up_proj.weight_scale": "model-00002-of-00011.safetensors",
+    "backbone.layers.9.norm.weight": "model-00002-of-00011.safetensors",
+    "backbone.layers.90.mixer.A_log": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.D": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.conv1d.bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.conv1d.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.dt_bias": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.in_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.in_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.in_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.out_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.out_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.mixer.out_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.90.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.91.mixer.down_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.91.mixer.down_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.91.mixer.down_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.91.mixer.up_proj.input_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.91.mixer.up_proj.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.91.mixer.up_proj.weight_scale": "model-00009-of-00011.safetensors",
+    "backbone.layers.91.norm.weight": "model-00009-of-00011.safetensors",
+    "backbone.layers.92.mixer.A_log": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.D": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.conv1d.bias": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.conv1d.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.dt_bias": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.in_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.in_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.in_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.out_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.out_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.mixer.out_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.92.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.mixer.down_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.mixer.down_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.mixer.down_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.mixer.up_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.mixer.up_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.mixer.up_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.93.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.A_log": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.D": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.conv1d.bias": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.conv1d.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.dt_bias": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.in_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.in_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.in_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.out_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.out_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.mixer.out_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.94.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.mixer.down_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.mixer.down_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.mixer.down_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.mixer.up_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.mixer.up_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.mixer.up_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.95.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.A_log": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.D": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.conv1d.bias": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.conv1d.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.dt_bias": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.in_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.in_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.in_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.out_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.out_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.mixer.out_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.96.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.mixer.down_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.mixer.down_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.mixer.down_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.mixer.up_proj.input_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.mixer.up_proj.weight": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.mixer.up_proj.weight_scale": "model-00010-of-00011.safetensors",
+    "backbone.layers.97.norm.weight": "model-00010-of-00011.safetensors",
+    "backbone.norm_f.weight": "model-00010-of-00011.safetensors",
+    "lm_head.weight": "model-00011-of-00011.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "eos_token": {
+    "content": "<SPECIAL_11>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<SPECIAL_11>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3277c00fe5fb3963b3cb7c07b7f183722d2af4d775a4aea7cfb3684d7cccbc2f
+size 17078330

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff