1 жил өмнө · b4813721db
--- a/config/model_config/rtdetr_config.py
+++ b/config/model_config/rtdetr_config.py
@@ -5,9 +5,6 @@
 
															 rtdetr_cfg = {
														
 
															     'rtdetr_r18':{
														
 
															         # ---------------- Model config ----------------
														
 
															-        ## Model scale
														
 
															-        'width': 1.0,
														
 
															-        'depth': 1.0,
														
 
															         ## Image Encoder - Backbone
														
 
															         'backbone': 'resnet18',
														
 
															         'backbone_norm': 'FrozeBN',
														
@@ -19,13 +16,14 @@ rtdetr_cfg = {
 
															         'max_stride': 32,
														
 
															         ## Image Encoder - FPN
														
 
															         'fpn': 'hybrid_encoder',
														
 
															+        'fpn_num_blocks': 3,
														
 
															         'fpn_act': 'silu',
														
 
															         'fpn_norm': 'BN',
														
 
															         'fpn_depthwise': False,
														
 
															         'hidden_dim': 256,
														
 
															         'en_num_heads': 8,
														
 
															         'en_num_layers': 1,
														
 
															-        'en_mlp_ratio': 4.0,
														
 
															+        'en_ffn_dim': 1024,
														
 
															         'en_dropout': 0.0,
														
 
															         'pe_temperature': 10000.,
														
 
															         'en_act': 'gelu',
														
@@ -33,7 +31,7 @@ rtdetr_cfg = {
 
															         'transformer': 'rtdetr_transformer',
														
 
															         'de_num_heads': 8,
														
 
															         'de_num_layers': 3,
														
 
															-        'de_mlp_ratio': 4.0,
														
 
															+        'de_ffn_dim': 1024,
														
 
															         'de_dropout': 0.0,
														
 
															         'de_act': 'relu',
														
 
															         'de_num_points': 4,
														
@@ -62,9 +60,6 @@ rtdetr_cfg = {
 
															     'rtdetr_r50':{
														
 
															         # ---------------- Model config ----------------
														
 
															-        ## Model scale
														
 
															-        'width': 1.0,
														
 
															-        'depth': 1.0,
														
 
															         ## Image Encoder - Backbone
														
 
															         'backbone': 'resnet50',
														
 
															         'backbone_norm': 'FrozeBN',
														
@@ -76,13 +71,14 @@ rtdetr_cfg = {
 
															         'max_stride': 32,
														
 
															         ## Image Encoder - FPN
														
 
															         'fpn': 'hybrid_encoder',
														
 
															+        'fpn_num_blocks': 3,
														
 
															         'fpn_act': 'silu',
														
 
															         'fpn_norm': 'BN',
														
 
															         'fpn_depthwise': False,
														
 
															         'hidden_dim': 256,
														
 
															         'en_num_heads': 8,
														
 
															         'en_num_layers': 1,
														
 
															-        'en_mlp_ratio': 4.0,
														
 
															+        'en_ffn_dim': 1024,
														
 
															         'en_dropout': 0.0,
														
 
															         'pe_temperature': 10000.,
														
 
															         'en_act': 'gelu',
														
@@ -90,7 +86,64 @@ rtdetr_cfg = {
 
															         'transformer': 'rtdetr_transformer',
														
 
															         'de_num_heads': 8,
														
 
															         'de_num_layers': 6,
														
 
															-        'de_mlp_ratio': 4.0,
														
 
															+        'de_ffn_dim': 1024,
														
 
															+        'de_dropout': 0.0,
														
 
															+        'de_act': 'relu',
														
 
															+        'de_num_points': 4,
														
 
															+        'num_queries': 300,
														
 
															+        'learnt_init_query': False,
														
 
															+        'pe_temperature': 10000.,
														
 
															+        'dn_num_denoising': 100,
														
 
															+        'dn_label_noise_ratio': 0.5,
														
 
															+        'dn_box_noise_scale': 1,
														
 
															+        # Head
														
 
															+        'det_head': 'dino_head',
														
 
															+        # ---------------- Assignment config ----------------
														
 
															+        'matcher_hpy': {'cost_class': 2.0,
														
 
															+                        'cost_bbox': 5.0,
														
 
															+                        'cost_giou': 2.0,},
														
 
															+        # ---------------- Loss config ----------------
														
 
															+        'use_vfl': True,
														
 
															+        'loss_coeff': {'class': 1,
														
 
															+                       'bbox': 5,
														
 
															+                       'giou': 2,},
														
 
															+        # ---------------- Train config ----------------
														
 
															+        ## input
														
 
															+        'multi_scale': [0.5, 1.25],   # 320 -> 800
														
 
															+        'trans_type': 'rtdetr_base',
														
 
															+        # ---------------- Train config ----------------
														
 
															+        'trainer_type': 'rtdetr',
														
 
															+    },
														
 
															+
														
 
															+    'rtdetr_r101':{
														
 
															+        # ---------------- Model config ----------------
														
 
															+        ## Image Encoder - Backbone
														
 
															+        'backbone': 'resnet101',
														
 
															+        'backbone_norm': 'FrozeBN',
														
 
															+        'pretrained': True,
														
 
															+        'pretrained_weight': 'imagenet1k_v2',
														
 
															+        'freeze_at': 0,
														
 
															+        'freeze_stem_only': False,
														
 
															+        'out_stride': [8, 16, 32],
														
 
															+        'max_stride': 32,
														
 
															+        ## Image Encoder - FPN
														
 
															+        'fpn': 'hybrid_encoder',
														
 
															+        'fpn_num_blocks': 4,
														
 
															+        'fpn_act': 'silu',
														
 
															+        'fpn_norm': 'BN',
														
 
															+        'fpn_depthwise': False,
														
 
															+        'hidden_dim': 384,
														
 
															+        'en_num_heads': 8,
														
 
															+        'en_num_layers': 1,
														
 
															+        'en_ffn_dim': 2048,
														
 
															+        'en_dropout': 0.0,
														
 
															+        'pe_temperature': 10000.,
														
 
															+        'en_act': 'gelu',
														
 
															+        # Transformer Decoder
														
 
															+        'transformer': 'rtdetr_transformer',
														
 
															+        'de_num_heads': 8,
														
 
															+        'de_num_layers': 6,
														
 
															+        'de_ffn_dim': 2048,
														
 
															         'de_dropout': 0.0,
														
 
															         'de_act': 'relu',
														
 
															         'de_num_points': 4,
														
--- a/config/model_config/rtpdetr_config.py
+++ b/config/model_config/rtpdetr_config.py
@@ -19,14 +19,14 @@ rtpdetr_cfg = {
 
															         'hidden_dim': 256,
														
 
															         'en_num_heads': 8,
														
 
															         'en_num_layers': 6,
														
 
															-        'en_mlp_ratio': 4.0,
														
 
															+        'en_ffn_dim': 1024,
														
 
															         'en_dropout': 0.0,
														
 
															         'en_act': 'gelu',
														
 
															         # Transformer Decoder
														
 
															         'transformer': 'plain_detr_transformer',
														
 
															         'de_num_heads': 8,
														
 
															         'de_num_layers': 6,
														
 
															-        'de_mlp_ratio': 4.0,
														
 
															+        'de_ffn_dim': 1024,
														
 
															         'de_dropout': 0.0,
														
 
															         'de_act': 'gelu',
														
 
															         'de_pre_norm': True,
														
--- a/models/detectors/rtdetr/basic_modules/basic.py
+++ b/models/detectors/rtdetr/basic_modules/basic.py
@@ -88,13 +88,13 @@ class MLP(nn.Module):
 
															         return x
														
 
															 class FFN(nn.Module):
														
 
															-    def __init__(self, d_model=256, mlp_ratio=4.0, dropout=0., act_type='relu'):
														
 
															+    def __init__(self, d_model=256, ffn_dim=1024, dropout=0., act_type='relu'):
														
 
															         super().__init__()
														
 
															-        self.fpn_dim = round(d_model * mlp_ratio)
														
 
															-        self.linear1 = nn.Linear(d_model, self.fpn_dim)
														
 
															+        self.ffn_dim = ffn_dim
														
 
															+        self.linear1 = nn.Linear(d_model, self.ffn_dim)
														
 
															         self.activation = get_activation(act_type)
														
 
															         self.dropout2 = nn.Dropout(dropout)
														
 
															-        self.linear2 = nn.Linear(self.fpn_dim, d_model)
														
 
															+        self.linear2 = nn.Linear(self.ffn_dim, d_model)
														
 
															         self.dropout3 = nn.Dropout(dropout)
														
 
															         self.norm = nn.LayerNorm(d_model)
														
--- a/models/detectors/rtdetr/basic_modules/fpn.py
+++ b/models/detectors/rtdetr/basic_modules/fpn.py
@@ -4,10 +4,10 @@ import torch.nn.functional as F
 
															 from typing import List
														
 
															 try:
														
 
															-    from .basic import BasicConv, RTCBlock, CSPRepLayer
														
 
															+    from .basic import BasicConv, RTCBlock
														
 
															     from .transformer import TransformerEncoder
														
 
															 except:
														
 
															-    from  basic import BasicConv, RTCBlock, CSPRepLayer
														
 
															+    from  basic import BasicConv, RTCBlock
														
 
															     from  transformer import TransformerEncoder
														
@@ -16,13 +16,13 @@ def build_fpn(cfg, in_dims, out_dim):
 
															     if cfg['fpn'] == 'hybrid_encoder':
														
 
															         return HybridEncoder(in_dims     = in_dims,
														
 
															                              out_dim     = out_dim,
														
 
															-                             depth       = cfg['depth'],
														
 
															+                             num_blocks  = cfg['fpn_num_blocks'],
														
 
															                              act_type    = cfg['fpn_act'],
														
 
															                              norm_type   = cfg['fpn_norm'],
														
 
															                              depthwise   = cfg['fpn_depthwise'],
														
 
															                              num_heads   = cfg['en_num_heads'],
														
 
															                              num_layers  = cfg['en_num_layers'],
														
 
															-                             mlp_ratio   = cfg['en_mlp_ratio'],
														
 
															+                             ffn_dim   = cfg['en_ffn_dim'],
														
 
															                              dropout     = cfg['en_dropout'],
														
 
															                              pe_temperature = cfg['pe_temperature'],
														
 
															                              en_act_type    = cfg['en_act'],
														
@@ -37,14 +37,14 @@ class HybridEncoder(nn.Module):
 
															     def __init__(self, 
														
 
															                  in_dims     :List  = [256, 512, 1024],
														
 
															                  out_dim     :int   = 256,
														
 
															-                 depth       :float = 1.0,
														
 
															+                 num_blocks  :int   = 3,
														
 
															                  act_type    :str   = 'silu',
														
 
															                  norm_type   :str   = 'BN',
														
 
															                  depthwise   :bool  = False,
														
 
															                  # Transformer's parameters
														
 
															                  num_heads      :int   = 8,
														
 
															                  num_layers     :int   = 1,
														
 
															-                 mlp_ratio      :float = 4.0,
														
 
															+                 ffn_dim        :int   = 1024,
														
 
															                  dropout        :float = 0.1,
														
 
															                  pe_temperature :float = 10000.,
														
 
															                  en_act_type    :str   = 'gelu'
														
@@ -56,10 +56,9 @@ class HybridEncoder(nn.Module):
 
															         self.in_dims = in_dims
														
 
															         self.out_dim = out_dim
														
 
															         self.out_dims = [self.out_dim] * len(in_dims)
														
 
															-        self.depth = depth
														
 
															         self.num_heads = num_heads
														
 
															         self.num_layers = num_layers
														
 
															-        self.mlp_ratio = mlp_ratio
														
 
															+        self.ffn_dim = ffn_dim
														
 
															         c3, c4, c5 = in_dims
														
 
															         # ---------------- Input projs ----------------
														
@@ -75,7 +74,7 @@ class HybridEncoder(nn.Module):
 
															         self.transformer_encoder = TransformerEncoder(d_model        = self.out_dim,
														
 
															                                                       num_heads      = num_heads,
														
 
															                                                       num_layers     = num_layers,
														
 
															-                                                      mlp_ratio      = mlp_ratio,
														
 
															+                                                      ffn_dim      = ffn_dim,
														
 
															                                                       pe_temperature = pe_temperature,
														
 
															                                                       dropout        = dropout,
														
 
															                                                       act_type       = en_act_type
														
@@ -85,7 +84,7 @@ class HybridEncoder(nn.Module):
 
															         ## P5 -> P4
														
 
															         self.top_down_layer_1 = RTCBlock(in_dim       = self.out_dim * 2,
														
 
															                                          out_dim      = self.out_dim,
														
 
															-                                         num_blocks   = round(3*depth),
														
 
															+                                         num_blocks   = num_blocks,
														
 
															                                          shortcut     = False,
														
 
															                                          act_type     = act_type,
														
 
															                                          norm_type    = norm_type,
														
@@ -94,7 +93,7 @@ class HybridEncoder(nn.Module):
 
															         ## P4 -> P3
														
 
															         self.top_down_layer_2 = RTCBlock(in_dim       = self.out_dim * 2,
														
 
															                                          out_dim      = self.out_dim,
														
 
															-                                         num_blocks   = round(3*depth),
														
 
															+                                         num_blocks   = num_blocks,
														
 
															                                          shortcut     = False,
														
 
															                                          act_type     = act_type,
														
 
															                                          norm_type    = norm_type,
														
@@ -105,7 +104,7 @@ class HybridEncoder(nn.Module):
 
															         ## P3 -> P4
														
 
															         self.bottom_up_layer_1 = RTCBlock(in_dim       = self.out_dim * 2,
														
 
															                                           out_dim      = self.out_dim,
														
 
															-                                          num_blocks   = round(3*depth),
														
 
															+                                          num_blocks   = num_blocks,
														
 
															                                           shortcut     = False,
														
 
															                                           act_type     = act_type,
														
 
															                                           norm_type    = norm_type,
														
@@ -114,7 +113,7 @@ class HybridEncoder(nn.Module):
 
															         ## P4 -> P5
														
 
															         self.bottom_up_layer_2 = RTCBlock(in_dim       = self.out_dim * 2,
														
 
															                                           out_dim      = self.out_dim,
														
 
															-                                          num_blocks   = round(3*depth),
														
 
															+                                          num_blocks   = num_blocks,
														
 
															                                           shortcut     = False,
														
 
															                                           act_type     = act_type,
														
 
															                                           norm_type    = norm_type,
														
@@ -165,16 +164,14 @@ if __name__ == '__main__':
 
															     import time
														
 
															     from thop import profile
														
 
															     cfg = {
														
 
															-        'width': 1.0,
														
 
															-        'depth': 1.0,
														
 
															         'fpn': 'hybrid_encoder',
														
 
															         'fpn_act': 'silu',
														
 
															         'fpn_norm': 'BN',
														
 
															         'fpn_depthwise': False,
														
 
															-        'expansion': 1.0,
														
 
															+        'fpn_num_blocks': 3,
														
 
															         'en_num_heads': 8,
														
 
															         'en_num_layers': 1,
														
 
															-        'en_mlp_ratio': 4.0,
														
 
															+        'en_ffn_dim': 1024,
														
 
															         'en_dropout': 0.0,
														
 
															         'pe_temperature': 10000.,
														
 
															         'en_act': 'gelu',
														
--- a/models/detectors/rtdetr/basic_modules/transformer.py
+++ b/models/detectors/rtdetr/basic_modules/transformer.py
@@ -210,7 +210,7 @@ class TransformerEncoderLayer(nn.Module):
 
															     def __init__(self,
														
 
															                  d_model         :int   = 256,
														
 
															                  num_heads       :int   = 8,
														
 
															-                 mlp_ratio       :float = 4.0,
														
 
															+                 ffn_dim         :int   = 1024,
														
 
															                  dropout         :float = 0.1,
														
 
															                  act_type        :str   = "relu",
														
 
															                  ):
														
@@ -218,7 +218,7 @@ class TransformerEncoderLayer(nn.Module):
 
															         # ----------- Basic parameters -----------
														
 
															         self.d_model = d_model
														
 
															         self.num_heads = num_heads
														
 
															-        self.mlp_ratio = mlp_ratio
														
 
															+        self.ffn_dim = ffn_dim
														
 
															         self.dropout = dropout
														
 
															         self.act_type = act_type
														
 
															         # ----------- Basic parameters -----------
														
@@ -228,7 +228,7 @@ class TransformerEncoderLayer(nn.Module):
 
															         self.norm = nn.LayerNorm(d_model)
														
 
															         # Feedforwaed Network
														
 
															-        self.ffn = FFN(d_model, mlp_ratio, dropout, act_type)
														
 
															+        self.ffn = FFN(d_model, ffn_dim, dropout, act_type)
														
 
															     def with_pos_embed(self, tensor, pos):
														
 
															         return tensor if pos is None else tensor + pos
														
@@ -259,7 +259,7 @@ class TransformerEncoder(nn.Module):
 
															                  d_model        :int   = 256,
														
 
															                  num_heads      :int   = 8,
														
 
															                  num_layers     :int   = 1,
														
 
															-                 mlp_ratio      :float = 4.0,
														
 
															+                 ffn_dim        :int   = 1024,
														
 
															                  pe_temperature : float = 10000.,
														
 
															                  dropout        :float = 0.1,
														
 
															                  act_type       :str   = "relu",
														
@@ -269,14 +269,14 @@ class TransformerEncoder(nn.Module):
 
															         self.d_model = d_model
														
 
															         self.num_heads = num_heads
														
 
															         self.num_layers = num_layers
														
 
															-        self.mlp_ratio = mlp_ratio
														
 
															+        self.ffn_dim = ffn_dim
														
 
															         self.dropout = dropout
														
 
															         self.act_type = act_type
														
 
															         self.pe_temperature = pe_temperature
														
 
															         self.pos_embed = None
														
 
															         # ----------- Basic parameters -----------
														
 
															         self.encoder_layers = get_clones(
														
 
															-            TransformerEncoderLayer(d_model, num_heads, mlp_ratio, dropout, act_type), num_layers)
														
 
															+            TransformerEncoderLayer(d_model, num_heads, ffn_dim, dropout, act_type), num_layers)
														
 
															     def build_2d_sincos_position_embedding(self, device, w, h, embed_dim=256, temperature=10000.):
														
 
															         assert embed_dim % 4 == 0, \
														
@@ -339,7 +339,7 @@ class DeformableTransformerDecoderLayer(nn.Module):
 
															                  num_heads   :int   = 8,
														
 
															                  num_levels  :int   = 3,
														
 
															                  num_points  :int   = 4,
														
 
															-                 mlp_ratio   :float = 4.0,
														
 
															+                 ffn_dim     :int   = 1024,
														
 
															                  dropout     :float = 0.1,
														
 
															                  act_type    :str   = "relu",
														
 
															                  ):
														
@@ -349,7 +349,7 @@ class DeformableTransformerDecoderLayer(nn.Module):
 
															         self.num_heads = num_heads
														
 
															         self.num_levels = num_levels
														
 
															         self.num_points = num_points
														
 
															-        self.mlp_ratio = mlp_ratio
														
 
															+        self.ffn_dim = ffn_dim
														
 
															         self.dropout = dropout
														
 
															         self.act_type = act_type
														
 
															         # ---------------- Network parameters ----------------
														
@@ -362,7 +362,7 @@ class DeformableTransformerDecoderLayer(nn.Module):
 
															         self.dropout2 = nn.Dropout(dropout)
														
 
															         self.norm2 = nn.LayerNorm(d_model)
														
 
															         ## FFN
														
 
															-        self.ffn = FFN(d_model, mlp_ratio, dropout, act_type)
														
 
															+        self.ffn = FFN(d_model, ffn_dim, dropout, act_type)
														
 
															     def with_pos_embed(self, tensor, pos):
														
 
															         return tensor if pos is None else tensor + pos
														
@@ -403,7 +403,7 @@ class DeformableTransformerDecoder(nn.Module):
 
															                  num_layers     :int   = 1,
														
 
															                  num_levels     :int   = 3,
														
 
															                  num_points     :int   = 4,
														
 
															-                 mlp_ratio      :float = 4.0,
														
 
															+                 ffn_dim        :int   = 1024,
														
 
															                  dropout        :float = 0.1,
														
 
															                  act_type       :str   = "relu",
														
 
															                  return_intermediate :bool = False,
														
@@ -413,13 +413,13 @@ class DeformableTransformerDecoder(nn.Module):
 
															         self.d_model = d_model
														
 
															         self.num_heads = num_heads
														
 
															         self.num_layers = num_layers
														
 
															-        self.mlp_ratio = mlp_ratio
														
 
															+        self.ffn_dim = ffn_dim
														
 
															         self.dropout = dropout
														
 
															         self.act_type = act_type
														
 
															         self.pos_embed = None
														
 
															         # ----------- Network parameters -----------
														
 
															         self.decoder_layers = get_clones(
														
 
															-            DeformableTransformerDecoderLayer(d_model, num_heads, num_levels, num_points, mlp_ratio, dropout, act_type), num_layers)
														
 
															+            DeformableTransformerDecoderLayer(d_model, num_heads, num_levels, num_points, ffn_dim, dropout, act_type), num_layers)
														
 
															         self.num_layers = num_layers
														
 
															         self.return_intermediate = return_intermediate
														
--- a/models/detectors/rtdetr/rtdetr.py
+++ b/models/detectors/rtdetr/rtdetr.py
@@ -29,8 +29,6 @@ class RT_DETR(nn.Module):
 
															         self.num_classes = num_classes
														
 
															         self.num_topk = topk
														
 
															         self.deploy = deploy
														
 
															-        # scale hidden channels by width_factor
														
 
															-        cfg['hidden_dim'] = round(cfg['hidden_dim'] * cfg['width'])
														
 
															         ## Post-process parameters
														
 
															         self.use_nms = use_nms
														
 
															         self.nms_thresh = nms_thresh
														
@@ -145,14 +143,11 @@ if __name__ == '__main__':
 
															     # Model config
														
 
															     cfg = {
														
 
															-        'width': 1.0,
														
 
															-        'depth': 1.0,
														
 
															-        'out_stride': [8, 16, 32],
														
 
															         # Image Encoder - Backbone
														
 
															-        'backbone': 'resnet50',
														
 
															+        'backbone': 'resnet101',
														
 
															         'backbone_norm': 'BN',
														
 
															         'res5_dilation': False,
														
 
															-        'pretrained': True,
														
 
															+        'pretrained': False,
														
 
															         'pretrained_weight': 'imagenet1k_v1',
														
 
															         'freeze_at': 0,
														
 
															         'freeze_stem_only': False,
														
@@ -160,22 +155,22 @@ if __name__ == '__main__':
 
															         'max_stride': 32,
														
 
															         # Image Encoder - FPN
														
 
															         'fpn': 'hybrid_encoder',
														
 
															+        'fpn_num_blocks': 4,
														
 
															         'fpn_act': 'silu',
														
 
															         'fpn_norm': 'BN',
														
 
															         'fpn_depthwise': False,
														
 
															-        'hidden_dim': 256,
														
 
															+        'hidden_dim': 384,
														
 
															         'en_num_heads': 8,
														
 
															         'en_num_layers': 1,
														
 
															-        'en_mlp_ratio': 4.0,
														
 
															+        'en_ffn_dim': 2048,
														
 
															         'en_dropout': 0.0,
														
 
															         'pe_temperature': 10000.,
														
 
															         'en_act': 'gelu',
														
 
															         # Transformer Decoder
														
 
															         'transformer': 'rtdetr_transformer',
														
 
															-        'hidden_dim': 256,
														
 
															         'de_num_heads': 8,
														
 
															         'de_num_layers': 6,
														
 
															-        'de_mlp_ratio': 4.0,
														
 
															+        'de_ffn_dim': 2048,
														
 
															         'de_dropout': 0.0,
														
 
															         'de_act': 'gelu',
														
 
															         'de_num_points': 4,
														
--- a/models/detectors/rtdetr/rtdetr_decoder.py
+++ b/models/detectors/rtdetr/rtdetr_decoder.py
@@ -27,7 +27,7 @@ def build_transformer(cfg, in_dims, num_classes, return_intermediate=False):
 
															                                  num_layers          = cfg['de_num_layers'],
														
 
															                                  num_levels          = len(cfg['out_stride']),
														
 
															                                  num_points          = cfg['de_num_points'],
														
 
															-                                 mlp_ratio           = cfg['de_mlp_ratio'],
														
 
															+                                 ffn_dim           = cfg['de_ffn_dim'],
														
 
															                                  dropout             = cfg['de_dropout'],
														
 
															                                  act_type            = cfg['de_act'],
														
 
															                                  return_intermediate = return_intermediate,
														
@@ -54,7 +54,7 @@ class RTDETRTransformer(nn.Module):
 
															                  num_layers     :int   = 1,
														
 
															                  num_levels     :int   = 3,
														
 
															                  num_points     :int   = 4,
														
 
															-                 mlp_ratio      :float = 4.0,
														
 
															+                 ffn_dim        :int   = 1024,
														
 
															                  dropout        :float = 0.1,
														
 
															                  act_type       :str   = "relu",
														
 
															                  return_intermediate :bool = False,
														
@@ -80,7 +80,7 @@ class RTDETRTransformer(nn.Module):
 
															         self.num_layers = num_layers
														
 
															         self.num_levels = num_levels
														
 
															         self.num_points = num_points
														
 
															-        self.mlp_ratio  = mlp_ratio
														
 
															+        self.ffn_dim  = ffn_dim
														
 
															         self.dropout    = dropout
														
 
															         self.act_type   = act_type
														
 
															         self.return_intermediate = return_intermediate
														
@@ -104,7 +104,7 @@ class RTDETRTransformer(nn.Module):
 
															                                     num_layers = num_layers,
														
 
															                                     num_levels = num_levels,
														
 
															                                     num_points = num_points,
														
 
															-                                    mlp_ratio  = mlp_ratio,
														
 
															+                                    ffn_dim  = ffn_dim,
														
 
															                                     dropout    = dropout,
														
 
															                                     act_type   = act_type,
														
 
															                                     return_intermediate = return_intermediate
														
@@ -335,7 +335,7 @@ if __name__ == '__main__':
 
															         'hidden_dim': 256,
														
 
															         'de_num_heads': 8,
														
 
															         'de_num_layers': 6,
														
 
															-        'de_mlp_ratio': 4.0,
														
 
															+        'de_ffn_dim': 1024,
														
 
															         'de_dropout': 0.1,
														
 
															         'de_act': 'gelu',
														
 
															         'de_num_points': 4,