SFT模板拼接时是拼接字符串还是拼接token id？ #4800

EulerYF · 2024-07-12T16:43:40Z

EulerYF
Jul 12, 2024

最近需要做一些微调工作与模型的推理评测工作，微调和推理评测时使用的对话模板必须对齐。在这里想问一下，在SFT时，对训练数据应用对话模板时，llama-factory是把特殊token（如bos）以字符串的形式拼接到输入字符串中再tokenize，还是将特殊token的id拼接到输入字符串的id序列中？

另外，模板中要添加的token除了bos这种外，还涉及到换行符\n。换行符在拼接时是怎样处理的？

如果能详细介绍一下拼接时的处理流程最好，因为一些模型的tokenizer比较特殊，同一个字符在不同的字符串里可能对应不同的id，拼接方式的不同会导致tokenize的结果不同。

万分感谢！

hiyouga · 2024-07-13T14:45:03Z

hiyouga
Jul 13, 2024
Maintainer

id

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SFT模板拼接时是拼接字符串还是拼接token id？ #4800

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 1 comment

{{title}}

Select a reply

SFT模板拼接时是拼接字符串还是拼接token id？ #4800

EulerYF Jul 12, 2024

Replies: 1 comment

hiyouga Jul 13, 2024 Maintainer

EulerYF
Jul 12, 2024

hiyouga
Jul 13, 2024
Maintainer