o ¥°h<ã@s¬ddlZddlZddlmmZzddlZddlmZm Z m Z Wney2dZdZ dZdZ Ynwdd„dd„fdd„dd„fdd„d d„fd œZ dd d„Z dS)éN)Ú_flash_attn_forwardÚflash_attn_funcÚflash_attn_varlen_funccCó|S©N©©Úxrrú$/data/code/test/modules/attention.pyÚórcCrrrrrrr rrcCó| dd¡S©Néé©Ú transposerrrr r ócCr rrrrrr r!rcCr rrrrrr r$rcCr rrrrrr r%r)ÚflashÚtorchÚvanillarFcCsðt|\}}||ƒ}||ƒ}||ƒ}|dkr2|dur&|jtjkr&| |j¡}tj||||||d} n²|dkrQtdus>Jdƒ‚|dusFJdƒ‚t|||||dd} n“|dkrÝd t | d ¡¡} |j\}}} }| d¡}tj||| ||j|j d}|r£|dus‚Jd ƒ‚tj||| | tj|j djdd}| | ¡tdƒ¡| |j¡}|dur¼|jtjkr¸| | ¡tdƒ¡n||7}|| dd ¡| }||7}|jd d}tj||dd}||} ntd|›ƒ‚|| ƒ} | j\}} }}| || d ¡}|S)uÒ æ‰§è¡ŒQKVè‡ªæ³¨æ„åŠ›è®¡ç®— Args: q (torch.Tensor): æŸ¥è¯¢å¼ é‡ï¼Œå½¢çŠ¶ [batch_size, seq_len, num_heads, head_dim] k (torch.Tensor): é”®å¼ é‡ï¼Œå½¢çŠ¶ [batch_size, seq_len_kv, num_heads, head_dim] v (torch.Tensor): å€¼å¼ é‡ï¼Œå½¢çŠ¶ [batch_size, seq_len_kv, num_heads, head_dim] mode (str): æ³¨æ„åŠ›æ¨¡å¼ï¼Œå¯é€‰ 'flash', 'torch', 'vanilla' drop_rate (float): æ³¨æ„åŠ›çŸ©é˜µçš„dropoutæ¦‚çŽ‡ attn_mask (torch.Tensor): æ³¨æ„åŠ›æŽ©ç ï¼Œå½¢çŠ¶æ ¹æ®æ¨¡å¼ä¸åŒè€Œå˜åŒ– causal (bool): æ˜¯å¦ä½¿ç”¨å› æžœæ³¨æ„åŠ›ï¼ˆä»…å…³æ³¨å‰é¢ä½ç½®ï¼‰ Returns: torch.Tensor: æ³¨æ„åŠ›è¾“å‡ºï¼Œå½¢çŠ¶ [batch_size, seq_len, num_heads * head_dim] rN)Ú attn_maskÚ dropout_pÚ is_causalruflash_attn_funcæœªå®šä¹‰uä¸æ”¯æŒçš„æ³¨æ„åŠ›æŽ©ç )rÚcausalÚ softmax_scalerréÿÿÿÿr)ÚdtypeÚdeviceu0å› æžœæŽ©ç å’Œæ³¨æ„åŠ›æŽ©ç ä¸èƒ½åŒæ—¶ä½¿ç”¨r)Údiagonalz-inféþÿÿÿ)ÚdimT)ÚpÚtrainuä¸æ”¯æŒçš„æ³¨æ„åŠ›æ¨¡å¼: )Ú MEMORY_LAYOUTrrÚboolÚtoÚFÚscaled_dot_product_attentionrÚmathÚsqrtÚsizeÚshapeÚzerosrÚonesÚtrilÚmasked_fill_Úlogical_notÚfloatrÚsoftmaxÚdropoutÚNotImplementedErrorÚreshape)ÚqÚkÚvÚmodeÚ drop_raterrÚpre_attn_layoutÚpost_attn_layoutr Úscale_factorÚbÚaÚsÚ_Ús1Ú attn_biasÚ temp_maskÚattnÚdÚoutrrr Ú attention*sTÿÿ ÿ rI)rrNF)r)rZtorch.nn.functionalÚnnÚ functionalr'Ú flash_attnÚflash_attn.flash_attn_interfacerrrÚImportErrorr$rIrrrr Ús6üþþþñù