HomeExploreinference-acceleration

Inference Acceleration Collection

Repositories tagged with "inference-acceleration"

RARE

TCG-style cards with ATK/DEF/SPD stats

UNCOMMON

⭐3.5kHP

◆

🔮Psychic

★★

TurboDiffusion

thu-ml

Pythonai-infraconsistency-model

“TurboDiffusion: 100–200× Acceleration for Video Diffusion Models”

★

3.5k

266

3.5k

266 forks

ATK

DEF

SPD

GitPedia #978

2/5

View wiki →𝕏

GitPedia

Repository Card

UNCOMMON

★

3.5k

266

3.5k

UNCOMMON

⭐3.4kHP

◆

📦Normal

★★

SageAttention

thu-ml

Cudaattentioncuda

“[ICLR2025, ICML2025, NeurIPS2025 Spotlight] Quantized Attention achieves speedup of 2-5x compared to FlashAttention, without losing end-to-end metrics across language, image, and video models.”

★

3.4k

436

3.4k

436 forks

ATK

DEF

SPD

GitPedia #575

2/5

View wiki →𝕏

GitPedia

Repository Card

UNCOMMON

★

3.4k

436

3.4k

UNCOMMON

⭐1.3kHP

◆

🔮Psychic

★★

TeaCache

ali-vilab

Pythoncogvideoxdiffusion-models

“Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model”

★

1.3k

58 forks

ATK

DEF

SPD

GitPedia #476

2/5

View wiki →𝕏

GitPedia

Repository Card

UNCOMMON

★

1.3k

UNCOMMON

⭐1.0kHP

◆

📦Normal

★★

SpargeAttn

thu-ml

Cudaai-infraattention

“[ICML2025] SpargeAttention: A training-free sparse attention that accelerates any model inference.”

★

1.0k

95 forks

ATK

DEF

SPD

GitPedia #192

2/5

View wiki →𝕏

GitPedia

Repository Card

UNCOMMON

★

1.0k

COMMON

⭐316HP

◆

🔮Psychic

★

SLA

thu-ml

Pythonai-infradiffusion-transformer

“SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse–Linear Attention”

★

316

19 forks

ATK

DEF

SPD

GitPedia #130

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★

316

COMMON

⭐291HP

◆

🔮Psychic

★

EasyCache

H-EmbodVis

Pythondiffusion-modelshunyuan-video

“Less is Enough: Training-Free Video Diffusion Acceleration via Runtime-Adaptive Caching”

★

291

4 forks

ATK

DEF

SPD

GitPedia #236

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★

291

COMMON

⭐258HP

◆

🔮Psychic

★

Discrete-Diffusion-Forcing

SJTU-DENG-Lab

Pythondllminference-acceleration

“Discrete Diffusion Forcing (D2F): dLLMs Can Do Faster-Than-AR Inference”

★

258

18 forks

ATK

DEF

SPD

GitPedia #636

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★

258

COMMON

⭐215HP

◆

🔮Psychic

★

AsyncDiff

czg1225

Pythondiffusion-modelsdistributed-computing

“[NeurIPS 2024] AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising”

★

215

13 forks

ATK

DEF

SPD

GitPedia #235

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★

215

COMMON

⭐147HP

◆

🔮Psychic

★

nos

autonomi-ai

Pythoncomputer-visiongenerative-ai

“⚡️ A fast and flexible PyTorch inference server that runs locally, on any cloud or AI HW. ”

★

147

12 forks

ATK

DEF

SPD

GitPedia #344

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★

147

COMMON

⭐60HP

◆

🔮Psychic

★

KsanaDiT

Tencent

Pythonai-infraattention

“KsanaDiT: High-Performance DiT (Diffusion Transformer) Inference Framework for Video & Image Generation”

★

6 forks

ATK

DEF

SPD

GitPedia #668

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★

COMMON

⭐54HP

◆

🔮Psychic

★

Q-LLM

JIA-Lab-research

Pythonfast-inferenceinference-acceleration

“This is the official repo of "QuickLLaMA: Query-aware Inference Acceleration for Large Language Models"”

★

4 forks

ATK

DEF

SPD

GitPedia #205

1/5

View wiki →𝕏

GitPedia

Repository Card

COMMON

★