Ë È'hSãó—ddlZddlmZddlmZddlmZddlmZ ddl m Z dZ ddl Z dd lmZdZdd lmZdd lmZej*e«ZGd „d e«ZGd„de«Zy#e $rdZ YŒKwxYw#e $rdZYŒKwxYw)éN)ÚAny)Ú BaseModel)Ú BltTokenizer)ÚTikTokenTokenizer)ÚSentencePieceProcessorTF)Úload_tiktoken_bpe)Ú Tokenizer)ÚSentencePieceTokenizerc óf—eZdZUdZeed<dededefd„Zd„Z d ded e edzd e e efd „Z y) Ú MockTokenizeréÚn_wordsÚtextÚadd_bosÚadd_eoscó—|S©N©)Úselfrrrs úA/fsx/ita_zaporozhets/blt/bytelatent/tokenizers/build_tokenizer.pyÚencodezMockTokenizer.encode"s€Øˆ ócó—t«‚r©ÚNotImplementedError)rÚtokenss rÚdecodezMockTokenizer.decode%s €Ü!Ó#Ð#rNrÚreturncó—t«‚rr)rrrs rÚget_token_offsetszMockTokenizer.get_token_offsets(s €ô"Ó#Ð#rr) Ú__name__Ú __module__Ú __qualname__rÚintÚ__annotations__ÚstrÚboolrrÚlistÚtupler rrrr r s_…Ø€GˆSÓð˜3ð¨ð¸óò$ð59ñ$Øð$Ø!% c¡¨TÑ!1ð$à ˆtC‰yÑ ô$rr cóF—eZdZUdZeed<dZeeefdzed<de fd„Z y)Ú TokenizerArgsÚbytesÚnameNÚ init_kwargsrcól—|j€i}n |j}|jdk(r tdi|¤ŽS|jdk(r tdi|¤ŽS|jdk(rtsJd«‚t di|¤ŽS|jdk(rt sJd«‚tdi|¤ŽSt|j›d«‚) NÚbltÚmockÚspzsentencepiece not installedÚtiktokenztiktoken not installedz" tokenizer type is not implementedr) r.r-rr Úhas_spr Ú has_tiktokenrr)rr.s rÚbuildzTokenizerArgs.build2s¹€Ø × Ñ Ð #؉Kà×*Ñ*ˆKØ 9‰9˜Ò ÜÑ. +Ñ.Ð .Ø Y‰Y˜&Ò Ü Ñ/ ;Ñ/Ð /Ø Y‰Y˜$Ò ÝÐ 8Ð8Ó 86Ü)Ñ8¨KÑ8Ð 8Ø Y‰Y˜*Ò $ÝÐ 9Ð!9Ó 9<Ü$Ñ3 {Ñ3Ð 3ä%¨¯©¨ Ð3UÐ&VÓWÐ Wr) r!r"r#r-r&r%r.Údictrr r6rrrr+r+.s1…Ø€Dˆ#ÓØ)-€Kc˜3h‘ $Ñ&Ó-ðXyôXrr+)ÚloggingÚtypingrÚpydanticrÚ#bytelatent.tokenizers.blt_tokenizerrÚ(bytelatent.tokenizers.tiktoken_tokenizerrÚ sentencepiecerr4Ú ImportErrorr3Ú tiktoken.loadrr5Ú(bytelatent.tokenizers.abstract_tokenizerr Ú.bytelatent.tokenizers.sentence_piece_tokenizerr Ú getLoggerr!Úloggerr r+rrrÚrDs‘ðãÝåå<ÝFðÝ4à €FðÛÝ/à€Lõ?ÝQà ˆ× Ñ ˜8Ó $€ô $Iô $ôXIõXøðAòØ ‚FðûðòØ‚Lðús"žA(§ A5Á(A2Á1A2Á5A?Á>A?