From NVIDIA Megatron-LM for visibility #18

RaymondLi0 · 2023-01-24T20:01:13Z

No description provided.

Optimize broadcasted data during parallel load See merge request ADLR/megatron-lm!1968

…flow

Fix description of distributed optimizer workflow See merge request ADLR/megatron-lm!1951

Add native-fp8 See merge request ADLR/megatron-lm!1669

Restore the actual PyT 2.4 fix from !1970 See merge request ADLR/megatron-lm!2039

tests: Skip flaky mamba test See merge request ADLR/megatron-lm!2044

ci: Bump reference sha See merge request ADLR/megatron-lm!2048

…ixtral-8x22B performance benchmarking

Add model config files for Mixtral-8x7B and Mixtral-8x22B performance benchmarking See merge request ADLR/megatron-lm!2029

Co-authored-by: William Dykas <wdykas@cw-dfw-cs-001-dc-02.cm.cluster> Co-authored-by: William Dykas <wdykas@cw-dfw-cs-001-dc-01.cm.cluster> Co-authored-by: William Dykas <wdykas@cs-cw-dfw-login-01.cm.cluster> Co-authored-by: William Dykas <wdykas@cs-cw-dfw-dc-02.cm.cluster>

Uneven Pipeline Parallelism See merge request ADLR/megatron-lm!1881

Co-authored-by: Jon Barker <jbarker@draco-oci-dc-01.cm.cluster>

Add support for pytorch tensorboard profiler See merge request ADLR/megatron-lm!1912

ci: Pass `LOAD_PATH` into training See merge request ADLR/megatron-lm!2050

…to return true if hashes across all DP ranks match.

… into 'main' Update check_param_hashes_across_dp_replicas to return true if hashes across all DP ranks match. See merge request ADLR/megatron-lm!1958

…with Transformer Engine modules

Per layer cudagraph support for GPT training with Transformer Engine modules See merge request ADLR/megatron-lm!1796

…d Mixtral-8x22B performance benchmarking

Update model config files for Mixtral-8x7B and Mixtral-8x22B performance benchmarking See merge request ADLR/megatron-lm!2053

…up for fp8 amax reduction"

Revert "ADLR/megatron-lm!1747 - Use TP-CP group for fp8 amax reduction" See merge request ADLR/megatron-lm!1971

Remove CUDA requirement from cpu test. See merge request ADLR/megatron-lm!2199

…d Sequence

Support padding between subsequences of Packed Sequence See merge request ADLR/megatron-lm!2096

…main'"

Revert "Merge branch 'vitalyk/testfix' into 'main'" See merge request ADLR/megatron-lm!2206

…okenizers

Standard interface for getting offsets from tokenizers See merge request ADLR/megatron-lm!1909

tests: Use flaky instead of skip marker See merge request ADLR/megatron-lm!2208

chore: Bump Pytorch container See merge request ADLR/megatron-lm!2017

Add siglip converter to multimodal example See merge request ADLR/megatron-lm!2214

…alize.py

Add missing import to megatron/training/initialize.py See merge request ADLR/megatron-lm!2226

ci(refactor): Facelift gitlab-ci See merge request ADLR/megatron-lm!2223

ci: Set stronger dependencies See merge request ADLR/megatron-lm!2234

Triton cache fix See merge request ADLR/megatron-lm!2075

…from TE

fix an issue when using `multi_tensor_scale` from TE See merge request ADLR/megatron-lm!1939

…ing checkpoint io

Improved missing key exception for errors during checkpoint io See merge request ADLR/megatron-lm!1927

LLaVA Multimodal SP support See merge request ADLR/megatron-lm!2038

qwen2.5 conversion See merge request ADLR/megatron-lm!2227

RaymondLi0 changed the base branch from multi-query-attention to before-merge June 20, 2023 20:12

RaymondLi0 changed the base branch from before-merge to multi-query-attention June 20, 2023 20:12

mikolajblaz and others added 28 commits September 5, 2024 10:17

ADLR/megatron-lm!1968 - Optimize broadcasted data during parallel load

08e245d

Merge branch 'mblaz/fast-load-broadcast' into 'main'

5b73de7

Optimize broadcasted data during parallel load See merge request ADLR/megatron-lm!1968

ADLR/megatron-lm!1951 - Fix description of distributed optimizer work…

6701e08

…flow

Merge branch 'dnarayanan/distributed_optimizer_readme_fixes' into 'main'

3396356

Fix description of distributed optimizer workflow See merge request ADLR/megatron-lm!1951

ADLR/megatron-lm!1669 - Add native-fp8

033d8b0

Merge branch 'kunlunl/native_fp8_2' into 'main'

01945b9

Add native-fp8 See merge request ADLR/megatron-lm!1669

ADLR/megatron-lm!2039 - Restore the actual PyT 2.4 fix from !1970

f0161d2

Merge branch 'mblaz/dist-ckpt-pyt2.4' into 'main'

7580748

Restore the actual PyT 2.4 fix from !1970 See merge request ADLR/megatron-lm!2039

ADLR/megatron-lm!2044 - tests: Skip flaky mamba test

a61150d

Merge branch 'ko3n1g/tests/disable-mamba-test' into 'main'

2169674

tests: Skip flaky mamba test See merge request ADLR/megatron-lm!2044

ADLR/megatron-lm!2048 - ci: Bump reference sha

cb979cf

Merge branch 'ko3n1g/ci/bump-sha' into 'main'

38873f5

ci: Bump reference sha See merge request ADLR/megatron-lm!2048

ADLR/megatron-lm!2029 - Add model config files for Mixtral-8x7B and M…

7ef8b3f

…ixtral-8x22B performance benchmarking

Merge branch 'xuwenc/release_moe_benchmarking' into 'main'

5ec1e29

Add model config files for Mixtral-8x7B and Mixtral-8x22B performance benchmarking See merge request ADLR/megatron-lm!2029

Merge branch 'uneven-pipeline' into 'main'

60d03fd

Uneven Pipeline Parallelism See merge request ADLR/megatron-lm!1881

ADLR/megatron-lm!1912 - Add support for pytorch tensorboard profiler

86df799

Co-authored-by: Jon Barker <jbarker@draco-oci-dc-01.cm.cluster>

Merge branch 'jbarker/pt-profiler' into 'main'

cb4ce23

Add support for pytorch tensorboard profiler See merge request ADLR/megatron-lm!1912

ADLR/megatron-lm!2050 - ci: Pass LOAD_PATH into training

dd876ba

Merge branch 'ko3n1g/tests/release-training-load-path' into 'main'

4a756e2

ci: Pass `LOAD_PATH` into training See merge request ADLR/megatron-lm!2050

ADLR/megatron-lm!1958 - Update check_param_hashes_across_dp_replicas …

8f19bcd

…to return true if hashes across all DP ranks match.

Merge branch 'akoumparouli/check_param_hashes_across_dp_replicas_fix'…

732a689

… into 'main' Update check_param_hashes_across_dp_replicas to return true if hashes across all DP ranks match. See merge request ADLR/megatron-lm!1958

ADLR/megatron-lm!1796 - Per layer cudagraph support for GPT training …

43ee4b8

…with Transformer Engine modules

Merge branch 'auto_cudagraph' into 'main'

9366f3c

Per layer cudagraph support for GPT training with Transformer Engine modules See merge request ADLR/megatron-lm!1796

ADLR/megatron-lm!2053 - Update model config files for Mixtral-8x7B an…

8499f26

…d Mixtral-8x22B performance benchmarking

Merge branch 'xuwenc/release_moe_benchmarking' into 'main'

3728c67

Update model config files for Mixtral-8x7B and Mixtral-8x22B performance benchmarking See merge request ADLR/megatron-lm!2053

ADLR/megatron-lm!1971 - Revert "ADLR/megatron-lm!1747 - Use TP-CP gro…

98abe37

…up for fp8 amax reduction"

Merge branch 'amax_red' into 'main'

a2b6ee4

Revert "ADLR/megatron-lm!1747 - Use TP-CP group for fp8 amax reduction" See merge request ADLR/megatron-lm!1971

Vitaly Kurin and others added 30 commits October 9, 2024 15:48

ADLR/megatron-lm!2199 - Remove CUDA requirement from cpu test.

37a2116

Merge branch 'vitalyk/testfix' into 'main'

228dc20

Remove CUDA requirement from cpu test. See merge request ADLR/megatron-lm!2199

ADLR/megatron-lm!2096 - Support padding between subsequences of Packe…

f462160

…d Sequence

Merge branch 'packed_seq_padded_support' into 'main'

7e90ec0

Support padding between subsequences of Packed Sequence See merge request ADLR/megatron-lm!2096

ADLR/megatron-lm!2206 - Revert "Merge branch 'vitalyk/testfix' into '…

566d9cd

…main'"

Merge branch 'revert-228dc204' into 'main'

b60f5d0

Revert "Merge branch 'vitalyk/testfix' into 'main'" See merge request ADLR/megatron-lm!2206

ADLR/megatron-lm!1909 - Standard interface for getting offsets from t…

13c39ac

…okenizers

Merge branch 'sasatheesh/tokenizer_offsets' into 'main'

47bb8d1

Standard interface for getting offsets from tokenizers See merge request ADLR/megatron-lm!1909

ADLR/megatron-lm!2208 - tests: Use flaky instead of skip marker

8c018ca

Merge branch 'ko3n1g/ci/flaky-marker' into 'main'

772faca

tests: Use flaky instead of skip marker See merge request ADLR/megatron-lm!2208

ADLR/megatron-lm!2017 - chore: Bump Pytorch container

831d64d

Merge branch 'ko3n1g/chore/bump-pyt' into 'main'

4876ee1

chore: Bump Pytorch container See merge request ADLR/megatron-lm!2017

ADLR/megatron-lm!2214 - Add siglip converter to multimodal example

bc4874c

Merge branch 'add_siglip_converter' into 'main'

6bafe92

Add siglip converter to multimodal example See merge request ADLR/megatron-lm!2214

ADLR/megatron-lm!2226 - Add missing import to megatron/training/initi…

a30d63b

…alize.py

Merge branch 'dnarayanan/fix_import' into 'main'

0d89fc4

Add missing import to megatron/training/initialize.py See merge request ADLR/megatron-lm!2226

ADLR/megatron-lm!2223 - ci(refactor): Facelift gitlab-ci

33d2f45

Merge branch 'ko3n1g/ci/refactor-jobs' into 'main'

55622ff

ci(refactor): Facelift gitlab-ci See merge request ADLR/megatron-lm!2223

ADLR/megatron-lm!2234 - ci: Set stronger dependencies

cba8bdc

Merge branch 'ko3n1g/ci/test-dependencies' into 'main'

ecf0dbe

ci: Set stronger dependencies See merge request ADLR/megatron-lm!2234

ADLR/megatron-lm!2075 - Triton cache fix

839dff2

Merge branch 'duncan/triton-cache-fix' into 'main'

b7814bb

Triton cache fix See merge request ADLR/megatron-lm!2075

ADLR/megatron-lm!1939 - fix an issue when using multi_tensor_scale …

a9c16c5

…from TE

Merge branch 'lit/fix_multi_tensor_scale' into 'main'

02d1762

fix an issue when using `multi_tensor_scale` from TE See merge request ADLR/megatron-lm!1939

ADLR/megatron-lm!1927 - Improved missing key exception for errors dur…

6adf0bd

…ing checkpoint io

Merge branch 'jstjohn/improved_missing_key_exception' into 'main'

db6cb4e

Improved missing key exception for errors during checkpoint io See merge request ADLR/megatron-lm!1927

ADLR/megatron-lm!2038 - LLaVA Multimodal SP support

2c950a5

Merge branch 'pmannan/llava_debug' into 'main'

739177e

LLaVA Multimodal SP support See merge request ADLR/megatron-lm!2038

ADLR/megatron-lm!2227 - qwen2.5 conversion

d28e26e

Merge branch 'qwen25_conversion' into 'main'

db7d37b

qwen2.5 conversion See merge request ADLR/megatron-lm!2227

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

From NVIDIA Megatron-LM for visibility #18

From NVIDIA Megatron-LM for visibility #18

RaymondLi0 commented Jan 24, 2023

From NVIDIA Megatron-LM for visibility #18

Are you sure you want to change the base?

From NVIDIA Megatron-LM for visibility #18

Conversation

RaymondLi0 commented Jan 24, 2023