GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
AI 엔지니어링의 기본부터 실제 서비스 구축까지 다루는 실습 중심의 학습 자료다. 에이전트와 컴퓨터 비전 등 다양한 AI 분야를 포함한다.
Learn it. Build it. Ship it for others.
OSS LLM 추론 엔진의 사실상 표준. PagedAttention 기반으로 처리량이 매우 높아요.
A high-throughput and memory-efficient inference and serving engine for LLMs.
동일 예산으로 더 높은 지능 밀도를 제공하는 토큰 효율적인 AI 에이전트이다. 적은 토큰으로도 복잡한 작업을 처리할 수 있어 비용 효율적인 AI 솔루션 개발에 기여한다.
OpenSquilla — Token-Efficient AI Agent with same budget, higher intelligence density
Hugging Face의 모델 허브를 다루는 표준 라이브러리. 새 모델이 나오면 가장 먼저 여기에 들어와요.
State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.
ML 연구의 사실상 표준 프레임워크. dynamic graph·확장성·생태계 모두 1위.
Tensors and Dynamic neural networks in Python with strong GPU acceleration.
내 DB 스키마를 학습시켜 자연어 → 정확한 SQL을 만드는 라이브러리. 분석가 워크플로우에 강해요.
Chat with your SQL database — accurate Text-to-SQL Generation via LLMs using RAG.
Python 한 파일로 인터랙티브 데이터 앱 만드는 도구. PoC 만들기 가장 빠름.
Streamlit — A faster way to build and share data apps.
Postgres에 벡터 검색 추가하는 extension. 별도 vector DB 없이 RAG 쉽게 시작.
Open-source vector similarity search for Postgres.
OSS 모델 fine-tuning에서 가장 인기있는 도구. LoRA·QLoRA·Full FT 다 지원.
Go ahead and axolotl questions — fine-tuning toolkit.
Rust 기반의 lightweight 임베딩 DB. 멀티모달과 데이터 레이크 패턴에 강해요.
Developer-friendly, embedded retrieval engine for multimodal AI.
Airflow의 모던 대안. UX와 디버깅이 훨씬 좋고 데이터 사이언스 워크플로우에 친화적.
Modern workflow orchestration framework — easier than Airflow.
Netflix·Uber·Spotify 등이 공개한 프로덕션 ML 사례 모음. 실무 패턴 학습에 최고.
📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.
분석가가 SQL로 데이터 변환을 작성하는 표준. modern data stack의 핵심.
dbt — Data Build Tool for analytics engineers.
Stable Diffusion LoRA 학습의 사실상 표준 도구. 캐릭터·스타일 학습이 직관적.
Training, generation and utility scripts for Stable Diffusion.
주간 업데이트되는 Python ML 라이브러리 랭킹. 새 도구 발견할 때 첫 출발점.
🏆 A ranked list of awesome machine learning Python libraries.
금융 도메인에 특화된 오픈소스 LLM 프로젝트. 뉴스 감성·시계열·로보어드바이저까지 노트북으로 다루고 있어요.
Open-Source Financial Large Language Models — democratizing internet-scale data for AI in finance.
빅데이터 처리의 클래식. 여전히 페타바이트급에서 강력한 옵션.
Apache Spark — A unified analytics engine for large-scale data processing.
전통적 ML 알고리즘의 표준 라이브러리. 분류·회귀·클러스터링 모두 한 곳에서.
Machine Learning in Python — classical ML algorithms.
GraphQL API 기반의 vector DB. 모듈식 ML 통합이 강점이고 RAG에 친화적.
Weaviate — open-source vector database that stores both objects and vectors.
알리바바의 HuggingFace 대안. 중국 모델·비디오 생성 모델이 풍부.
ModelScope — bring the notion of Model-as-a-Service to life.
구글의 ML 프레임워크. 프로덕션 deployment·TFLite·TFJS 같은 endpoint가 강점.
An Open Source Machine Learning Framework for Everyone.
Pandas/NumPy를 분산 처리로 확장하는 도구. 사이즈가 메모리를 넘을 때 첫 옵션.
Parallel computing with task scheduling.
Stability AI가 직접 푸시하는 모델 코드. 새 모델이 나오면 가장 먼저 여기에.
Generative Models by Stability AI — SDXL, SD3, Stable Cascade.
오픈 비전 LLM의 출발점. 이미지를 이해하는 LLM을 만들고 싶다면 첫 학습 자료.
Visual Instruction Tuning — LLaVA towards GPT-4V level.
이미지와 텍스트를 같은 임베딩 공간에 두는 모델. 거의 모든 멀티모달 작업의 베이스.
CLIP — Connecting text and images.
MS 리서치가 만든 다중 모델 오케스트레이터. HuggingFace 모델을 LLM이 도구로 호출.
JARVIS — connecting LLMs with ML community models.
import 한 줄만 바꾸면 Pandas 코드가 멀티 코어로 돌아가는 마법.
Modin — Scale your pandas workflows by changing one line of code.
CLIP 같은 비전-언어 모델을 적은 데이터로 파인튜닝하는 기법 구현체.
Conditional Prompt Learning for Vision-Language Models.
MS의 통합 음성-텍스트 모델. ASR·TTS·음성 변환 한 모델로.
Unified-Modal Speech-Text Pre-Training for Spoken Language Processing.
현대 LLM을 밑바닥부터 구축하는 방법을 설명하는 교육용 가이드이다. 모든 코드를 주석으로 상세히 설명하며, LLM의 작동 원리를 깊이 이해하고 싶을 때 유용하다.
Build a modern LLM from scratch. Every line commented. Explained like we are five.
Speculative Decoding 알고리즘 훈련과 평가를 위한 풀스택 코드베이스를 제공한다. LLM 추론 속도 개선 연구에 필수적인 도구로 활용된다.
DeepSpec: a full-stack codebase for training and evaluating speculative decoding algorithms
이미지/비디오/오디오 확산 모델 라이브러리의 표준. GPT Image 2를 내부에서 fine-tune이나 후처리할 때 함께 가는 코어 의존.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
ML 모델에 빠르게 UI 붙이는 표준. HuggingFace Spaces 데모의 70% 이상이 이 프레임워크.
Build and share delightful machine learning apps, all in Python. 🌟 Star to support our work!
AI, 머신 러닝, 컴퓨터 비전, NLP와 같은 분야의 프로젝트 모음입니다.
500 AI Machine learning Deep learning Computer vision NLP Projects with code
Pandas + DuckDB 조합이 데이터 분석의 새 표준. SQL로 거대 파일 즉석 쿼리.
DuckDB is an analytical in-process SQL database management system
Claude Mythos 아키텍처를 첫 번째 원칙부터 이론적으로 재구성한 오픈소스 프로젝트입니다.
A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature.
60개 이상의 딥러닝 논문 구현 및 튜토리얼을 제공합니다. 트랜스포머, 옵티마이저, GAN, 강화학습 등 다양한 분야를 포함합니다.
🧑🏫 60+ Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit, ...), optimizers (adam, adabelief, sophia, ...), gans(cyclegan, stylegan2, ...), 🎮 reinforcement learning (ppo, dqn), capsnet, distillation, ... 🧠
분산된 학습과 추론을 위한 옵티마이저. GPU, TPU.
DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.
YOLOv5 객체 탐지 모델을 PyTorch, ONNX, CoreML, TFLite로 지원하는 오픈 소스 라이브러리입니다.
Ultralytics YOLOv5 in PyTorch > ONNX > CoreML > TFLite
신경망, 딥러닝, 머신러닝 모델을 시각화하는 도구이다. 모델의 구조와 레이어를 직관적으로 이해하고 디버깅하는 데 유용하다.
Visualizer for neural network, deep learning and machine learning models
대규모 벡터 검색 전용 DB. 대용량(10억+ 벡터)에서 가장 검증된 OSS 선택.
Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search
AI 기술을 활용한 Quant 연구 및 생산화를 지원하는 AI-oriented Quant 투자 플랫폼. 다양한 ML 모델링 패러다임을 지원하고, https://github.com/microsoft/RD-Agent를 통해 R&D 프로세스를 자동화합니다.
Qlib is an AI-oriented Quant investment platform that aims to use AI tech to empower Quant Research, from exploring ideas to implementing productions. Qlib supports diverse ML modeling paradigms, including supervised learning, market dynamics modeling, and RL, and is now equipped with https://github.com/microsoft/RD-Agent to automate R&D process.
AI-powered answering engine. AI 에이전트, LLM.
Vane is an AI-powered answering engine.
Rust로 만든 vector DB. 메모리 효율과 페이로드 필터링 성능이 뛰어남.
Qdrant - High-performance, massive-scale Vector Database and Vector Search Engine for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/
실시간 다중 사람 키 포인트 감지 라이브러리. 몸, 얼굴, 손, 발측.
OpenPose: Real-time multi-person keypoint detection library for body, face, hands, and foot estimation
빠른 AI 개인 보조 도구.
Fast, small, and fully autonomous AI personal assistant infrastructure, any OS, any platform — deploy anywhere, swap anything 🦀
수학, 머신 러닝, 컴퓨터 과학, 물리학 알고리즘 모음. C++ 구현.
Collection of various algorithms in mathematics, machine learning, computer science and physics implemented in C++ for educational purposes.
토크나이저 없이 다국어 음성을 생성하는 TTS 모델이다. 창의적인 음성 디자인 및 실제 같은 보이스 클로닝을 지원하여 폭넓게 활용된다.
VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning