Modelltraining
-
Stellen Sie sicher, dass der Code, die Umgebung und die Daten korrekt sind, bevor das eigentliche Training beginnt.
-
Überprüfen Sie die maximale Laufzeitüberschreitung der Trainingsumgebung. Überprüfen Sie die Auslastung der Cloud-Plattform. Stellen Sie sicher, dass nichts das Training unterbricht.
-
Stellen Sie sicher, dass wir die Aufgabe fortsetzen können, falls es zu einer Unterbrechung kommt. Die Zwischenergebnisse gehen nicht verloren.
-
Wenn es ein Problem mit dem Code gibt, wird es sicherlich während des Trainings auftreten.
-
Wenn die Daten nicht sauber sind, wird dies sicherlich die späteren Phasen beeinträchtigen.
-
Verwenden Sie einen iterativen Ansatz. Skalieren Sie in Größenordnungen. Trainieren Sie mit Millionen von Tokens, dann Milliarden von Tokens und schließlich Billionen von Tokens.
-
Was passiert, wenn das Training abgeschlossen ist? Wird die endgültige Verarbeitung des Trainings korrekt durchgeführt?
-
Lernen Sie aus den Fehlern anderer, wie zum Beispiel denen, die mit Llama2 gemacht wurden.
-
Beheben Sie nicht nur das Ergebnis, sondern gehen Sie der Ursache des Problems auf den Grund.