My Notes


A place to document my daily learning journey and encountered bugs
  • LLM-Evaluation

    Post thumbnail
    Post thumbnail
    Perplexity of fixed-length models PPL(perplexity) is one of the most common metrics for evaluating models. If we have a tokenized sequence $X = (x_{0},x_{1},\dots x_{t})$, the perplexity of X is \(P P L ( X ) = e x p \left\{ - \frac { 1 } { t } \sum... [Read More]
    Tags:
  • RHLF(基于人类反馈的强化学习)

    Post thumbnail
    Post thumbnail
    在监督式微调之后,RLHF 是一个用于使大型语言模型(LLM)的答案与人类期望对齐的步骤。这个想法是从人类(或人工)反馈中学习偏好,这可以用来减少偏见、审查模型或使它们以更有用的方式行动。它比SFT更复杂,通常被视为可选的。 [Read More]
    Tags:
  • Lora

    Post thumbnail
    Post thumbnail
    Lora LoRA (Low-Rank Adaptation) 是一种参数高效微调方法,主要目标是通过低秩矩阵分解高效地微调预训练语言模型。 核心思想: 冻结预训练模型的原始权重 WWW,通过引入低秩矩阵 AAA 和 BBB 来表示权重更新: $W′=W+ΔW,ΔW=\frac{\alpha}{r} AB$ 其中: $A \in \mathbb{R}^{d \times r}$ $B \in \mathbb{R}^{r \times d}$ r 是低秩分解的秩,通常 $r \ll d$,以减少参数量。 $\alpha$为LoRA 的缩放因子。 特点: 高效微调:只需学习两个小矩阵 A 和 B 的参数,而不需要调整整个预训练模型权重。 参数量小:相比全参数微调,LoRA 显著减少了需要调整的参数量,适合低资源场景。 通用性强:可以应用于各种预训练模型(如 Transformer)。 [Read More]
    Tags: