AI Builder Stack Radar · 빌더 관점의 GitHub 오픈소스 · Lattice

LatticeAI Intelligence PlatformAI 인텔리전스 플랫폼

rohitg00/ai-engineering-from-scratch

AI 엔지니어링 실습 과정

Best for에이전트 워크플로우 구축

AI 엔지니어링의 기본부터 실제 서비스 구축까지 다루는 실습 중심의 학습 자료다. 에이전트와 컴퓨터 비전 등 다양한 AI 분야를 포함한다.

Learn it. Build it. Ship it for others.

PythonAI 에이전트데이터·ML#agents#ai

관련 모드Agent Workflows

GitHub에서 보기

vllm-project/vllm

고속 LLM 추론

Best for에이전트 워크플로우 구축로컬/온디바이스 추론

OSS LLM 추론 엔진의 사실상 표준. PagedAttention 기반으로 처리량이 매우 높아요.

A high-throughput and memory-efficient inference and serving engine for LLMs.

Python프레임워크데이터·ML#inference#serving

관련 모드Agent Workflows

opensquilla/opensquilla

토큰 효율적인 AI 에이전트

Best for에이전트 워크플로우 구축

동일 예산으로 더 높은 지능 밀도를 제공하는 토큰 효율적인 AI 에이전트이다. 적은 토큰으로도 복잡한 작업을 처리할 수 있어 비용 효율적인 AI 솔루션 개발에 기여한다.

OpenSquilla — Token-Efficient AI Agent with same budget, higher intelligence density

PythonAI 에이전트데이터·ML#agent#ai

관련 모드Agent Workflows

GitHub에서 보기

huggingface/transformers

ML 모델 표준 라이브러리

Hugging Face의 모델 허브를 다루는 표준 라이브러리. 새 모델이 나오면 가장 먼저 여기에 들어와요.

State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.

Python프레임워크데이터·ML#nlp#transformers

GitHub에서 보기

pytorch/pytorch

딥러닝 표준

ML 연구의 사실상 표준 프레임워크. dynamic graph·확장성·생태계 모두 1위.

Tensors and Dynamic neural networks in Python with strong GPU acceleration.

Python데이터·ML프레임워크#deep-learning#neural-networks

GitHub에서 보기

텍스트→SQL Vanna

Best forRAG/내부 지식 검색

내 DB 스키마를 학습시켜 자연어 → 정확한 SQL을 만드는 라이브러리. 분석가 워크플로우에 강해요.

Chat with your SQL database — accurate Text-to-SQL Generation via LLMs using RAG.

PythonLLM 앱데이터·ML#text-to-sql#rag

관련 모드RAG / Knowledge

GitHub에서 보기

streamlit/streamlit

데이터 앱 프레임워크

Python 한 파일로 인터랙티브 데이터 앱 만드는 도구. PoC 만들기 가장 빠름.

Streamlit — A faster way to build and share data apps.

Python프레임워크데이터·ML#data-app#ui

GitHub에서 보기

pgvector/pgvector

Postgres 벡터 검색

Best forRAG/내부 지식 검색

Postgres에 벡터 검색 추가하는 extension. 별도 vector DB 없이 RAG 쉽게 시작.

Open-source vector similarity search for Postgres.

C데이터·ML#vector#postgres

관련 모드RAG / Knowledge

GitHub에서 보기

OpenAccess-AI-Collective/axolotl

Fine-tuning 프레임워크

OSS 모델 fine-tuning에서 가장 인기있는 도구. LoRA·QLoRA·Full FT 다 지원.

Go ahead and axolotl questions — fine-tuning toolkit.

Python프레임워크데이터·ML#fine-tuning#lora

GitHub에서 보기

lancedb/lancedb

임베딩 데이터 레이크

Best forRAG/내부 지식 검색

Rust 기반의 lightweight 임베딩 DB. 멀티모달과 데이터 레이크 패턴에 강해요.

Developer-friendly, embedded retrieval engine for multimodal AI.

Rust데이터·ML#lance#embeddings

관련 모드RAG / Knowledge

GitHub에서 보기

PrefectHQ/prefect

현대적 워크플로우

Best for에이전트 워크플로우 구축

Airflow의 모던 대안. UX와 디버깅이 훨씬 좋고 데이터 사이언스 워크플로우에 친화적.

Modern workflow orchestration framework — easier than Airflow.

Python데이터·ML개발도구#workflow#modern

관련 모드Agent Workflows

GitHub에서 보기

eugeneyan/applied-ml

프로덕션 ML 케이스 스터디

Netflix·Uber·Spotify 등이 공개한 프로덕션 ML 사례 모음. 실무 패턴 학습에 최고.

📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.

None학습자료데이터·ML#ml#production

GitHub에서 보기

dbt-labs/dbt-core

데이터 변환 SQL 워크플로우

분석가가 SQL로 데이터 변환을 작성하는 표준. modern data stack의 핵심.

dbt — Data Build Tool for analytics engineers.

Python데이터·ML#dbt#sql

GitHub에서 보기

kohya-ss/sd-scripts

SD LoRA 학습

Stable Diffusion LoRA 학습의 사실상 표준 도구. 캐릭터·스타일 학습이 직관적.

Training, generation and utility scripts for Stable Diffusion.

Python이미지·영상데이터·ML#stable-diffusion#lora

GitHub에서 보기

ml-tooling/best-of-ml-python

Python ML 도구 큐레이션

주간 업데이트되는 Python ML 라이브러리 랭킹. 새 도구 발견할 때 첫 출발점.

🏆 A ranked list of awesome machine learning Python libraries.

Python학습자료데이터·ML#machine-learning#awesome

GitHub에서 보기

AI4Finance-Foundation/FinGPT

금융 특화 LLM

금융 도메인에 특화된 오픈소스 LLM 프로젝트. 뉴스 감성·시계열·로보어드바이저까지 노트북으로 다루고 있어요.

Open-Source Financial Large Language Models — democratizing internet-scale data for AI in finance.

Jupyter Notebook데이터·ML#finance#llm

GitHub에서 보기

분산 데이터 처리

빅데이터 처리의 클래식. 여전히 페타바이트급에서 강력한 옵션.

Apache Spark — A unified analytics engine for large-scale data processing.

Scala데이터·ML#spark#big-data

GitHub에서 보기

scikit-learn/scikit-learn

ML 알고리즘 표준

전통적 ML 알고리즘의 표준 라이브러리. 분류·회귀·클러스터링 모두 한 곳에서.

Machine Learning in Python — classical ML algorithms.

Python데이터·ML#machine-learning#python

GitHub에서 보기

weaviate/weaviate

AI-native 벡터 DB

Best forRAG/내부 지식 검색

GraphQL API 기반의 vector DB. 모듈식 ML 통합이 강점이고 RAG에 친화적.

Weaviate — open-source vector database that stores both objects and vectors.

Go데이터·ML#vector-db#weaviate

관련 모드RAG / Knowledge

GitHub에서 보기

modelscope/modelscope

알리바바 모델 허브

알리바바의 HuggingFace 대안. 중국 모델·비디오 생성 모델이 풍부.

ModelScope — bring the notion of Model-as-a-Service to life.

Python데이터·ML이미지·영상#modelscope#alibaba

GitHub에서 보기

tensorflow/tensorflow

구글 ML 프레임워크

구글의 ML 프레임워크. 프로덕션 deployment·TFLite·TFJS 같은 endpoint가 강점.

An Open Source Machine Learning Framework for Everyone.

C++데이터·ML프레임워크#tensorflow#ml

GitHub에서 보기

Python 병렬 처리

Pandas/NumPy를 분산 처리로 확장하는 도구. 사이즈가 메모리를 넘을 때 첫 옵션.

Parallel computing with task scheduling.

Python데이터·ML#parallel#scaling

GitHub에서 보기

Stability-AI/generative-models

Stability 공식 모델

Stability AI가 직접 푸시하는 모델 코드. 새 모델이 나오면 가장 먼저 여기에.

Generative Models by Stability AI — SDXL, SD3, Stable Cascade.

Python이미지·영상데이터·ML#stable-diffusion#stability

GitHub에서 보기

haotian-liu/LLaVA

비전 LLM 클래식

오픈 비전 LLM의 출발점. 이미지를 이해하는 LLM을 만들고 싶다면 첫 학습 자료.

Visual Instruction Tuning — LLaVA towards GPT-4V level.

Python이미지·영상데이터·ML#vision#llm

GitHub에서 보기

이미지-텍스트 매칭

이미지와 텍스트를 같은 임베딩 공간에 두는 모델. 거의 모든 멀티모달 작업의 베이스.

CLIP — Connecting text and images.

Python이미지·영상데이터·ML#clip#vision

GitHub에서 보기

microsoft/JARVIS

다중 모델 오케스트레이션

MS 리서치가 만든 다중 모델 오케스트레이터. HuggingFace 모델을 LLM이 도구로 호출.

JARVIS — connecting LLMs with ML community models.

PythonAI 에이전트데이터·ML#multimodal#llm

GitHub에서 보기

modin-project/modin

Pandas 가속

import 한 줄만 바꾸면 Pandas 코드가 멀티 코어로 돌아가는 마법.

Modin — Scale your pandas workflows by changing one line of code.

Python데이터·ML#pandas#scaling

GitHub에서 보기

KaiyangZhou/CoOp

이미지 분류 파인튜닝

CLIP 같은 비전-언어 모델을 적은 데이터로 파인튜닝하는 기법 구현체.

Conditional Prompt Learning for Vision-Language Models.

Python이미지·영상데이터·ML#vision-language#prompt-learning

GitHub에서 보기

microsoft/SpeechT5

MS 음성 모델

MS의 통합 음성-텍스트 모델. ASR·TTS·음성 변환 한 모델로.

Unified-Modal Speech-Text Pre-Training for Spoken Language Processing.

Python음성데이터·ML#speech#microsoft

GitHub에서 보기

raiyanyahya/how-to-train-your-gpt

밑바닥 LLM 학습 가이드

현대 LLM을 밑바닥부터 구축하는 방법을 설명하는 교육용 가이드이다. 모든 코드를 주석으로 상세히 설명하며, LLM의 작동 원리를 깊이 이해하고 싶을 때 유용하다.

Build a modern LLM from scratch. Every line commented. Explained like we are five.

Jupyter Notebook데이터·ML#attention-mechanism#deep-learning

GitHub에서 보기

deepseek-ai/DeepSpec

Speculative Decoding 연구 스택

Speculative Decoding 알고리즘 훈련과 평가를 위한 풀스택 코드베이스를 제공한다. LLM 추론 속도 개선 연구에 필수적인 도구로 활용된다.

DeepSpec: a full-stack codebase for training and evaluating speculative decoding algorithms

Python데이터·ML

GitHub에서 보기

huggingface/diffusers

확산 모델 SOTA 라이브러리

이미지/비디오/오디오 확산 모델 라이브러리의 표준. GPT Image 2를 내부에서 fine-tune이나 후처리할 때 함께 가는 코어 의존.

🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.

Python이미지·영상데이터·ML#deep-learning#diffusion

GitHub에서 보기

gradio-app/gradio

ML UI 프로토타이핑

ML 모델에 빠르게 UI 붙이는 표준. HuggingFace Spaces 데모의 70% 이상이 이 프레임워크.

Build and share delightful machine learning apps, all in Python. 🌟 Star to support our work!

Python프레임워크데이터·ML#data-analysis#data-science

GitHub에서 보기

ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code

AI 프로젝트 모음

AI, 머신 러닝, 컴퓨터 비전, NLP와 같은 분야의 프로젝트 모음입니다.

500 AI Machine learning Deep learning Computer vision NLP Projects with code

데이터·ML학습자료#artificial-intelligence#artificial-intelligence-projects

GitHub에서 보기

분석 OLAP DB

Pandas + DuckDB 조합이 데이터 분석의 새 표준. SQL로 거대 파일 즉석 쿼리.

DuckDB is an analytical in-process SQL database management system

C++데이터·ML#analytics#database

GitHub에서 보기

kyegomez/OpenMythos

Claude Mythos 아키텍처 재구성

Claude Mythos 아키텍처를 첫 번째 원칙부터 이론적으로 재구성한 오픈소스 프로젝트입니다.

A theoretical reconstruction of the Claude Mythos architecture, built from first principles using the available research literature.

Python데이터·ML#ai#anthropic

GitHub에서 보기

labmlai/annotated_deep_learning_paper_implementations

딥러닝 논문 구현

60개 이상의 딥러닝 논문 구현 및 튜토리얼을 제공합니다. 트랜스포머, 옵티마이저, GAN, 강화학습 등 다양한 분야를 포함합니다.

🧑‍🏫 60+ Implementations/tutorials of deep learning papers with side-by-side notes 📝; including transformers (original, xl, switch, feedback, vit, ...), optimizers (adam, adabelief, sophia, ...), gans(cyclegan, stylegan2, ...), 🎮 reinforcement learning (ppo, dqn), capsnet, distillation, ... 🧠

Python프레임워크데이터·ML#attention#deep-learning

GitHub에서 보기

deepspeedai/DeepSpeed

DeepSpeed 옵티마이저

분산된 학습과 추론을 위한 옵티마이저. GPU, TPU.

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.

Python데이터·ML#billion-parameters#compression

GitHub에서 보기

ultralytics/yolov5

YOLOv5 객체 탐지

YOLOv5 객체 탐지 모델을 PyTorch, ONNX, CoreML, TFLite로 지원하는 오픈 소스 라이브러리입니다.

Ultralytics YOLOv5 in PyTorch > ONNX > CoreML > TFLite

Python데이터·ML#coreml#deep-learning

GitHub에서 보기

lutzroeder/netron

AI 모델 시각화 도구

신경망, 딥러닝, 머신러닝 모델을 시각화하는 도구이다. 모델의 구조와 레이어를 직관적으로 이해하고 디버깅하는 데 유용하다.

Visualizer for neural network, deep learning and machine learning models

JavaScript데이터·ML#ai#coreml

GitHub에서 보기

milvus-io/milvus

오픈 벡터 DB

Best forRAG/내부 지식 검색

대규모 벡터 검색 전용 DB. 대용량(10억+ 벡터)에서 가장 검증된 OSS 선택.

Milvus is a high-performance, cloud-native vector database built for scalable vector ANN search

Go데이터·ML#anns#cloud-native

관련 모드RAG / Knowledge

GitHub에서 보기

AI 투자 플랫폼

AI 기술을 활용한 Quant 연구 및 생산화를 지원하는 AI-oriented Quant 투자 플랫폼. 다양한 ML 모델링 패러다임을 지원하고, https://github.com/microsoft/RD-Agent를 통해 R&D 프로세스를 자동화합니다.

Qlib is an AI-oriented Quant investment platform that aims to use AI tech to empower Quant Research, from exploring ideas to implementing productions. Qlib supports diverse ML modeling paradigms, including supervised learning, market dynamics modeling, and RL, and is now equipped with https://github.com/microsoft/RD-Agent to automate R&D process.

PythonAI 에이전트데이터·ML#algorithmic-trading#auto-quant

GitHub에서 보기

ItzCrazyKns/Vane

AI 답변 엔진

Best forRAG/내부 지식 검색로컬/온디바이스 추론

AI-powered answering engine. AI 에이전트, LLM.

Vane is an AI-powered answering engine.

TypeScriptLLM 앱데이터·ML#ai-agents#ai-search-engine

관련 모드RAG / Knowledge

Rust 벡터 DB

Best forRAG/내부 지식 검색

Rust로 만든 vector DB. 메모리 효율과 페이로드 필터링 성능이 뛰어남.

Qdrant - High-performance, massive-scale Vector Database and Vector Search Engine for the next generation of AI. Also available in the cloud https://cloud.qdrant.io/

Rust데이터·ML#ai-search#ai-search-engine

관련 모드RAG / Knowledge

GitHub에서 보기

CMU-Perceptual-Computing-Lab/openpose

오픈 포즈

실시간 다중 사람 키 포인트 감지 라이브러리. 몸, 얼굴, 손, 발측.

OpenPose: Real-time multi-person keypoint detection library for body, face, hands, and foot estimation

C++데이터·ML#caffe#computer-vision

GitHub에서 보기

zeroclaw-labs/zeroclaw

빠른 AI 개인 보조 도구

Best for에이전트 워크플로우 구축

빠른 AI 개인 보조 도구.

Fast, small, and fully autonomous AI personal assistant infrastructure, any OS, any platform — deploy anywhere, swap anything 🦀

RustAI 에이전트데이터·ML#agent#agentic

관련 모드Agent Workflows

GitHub에서 보기

TheAlgorithms/C-Plus-Plus

C++ 알고리즘 모음

수학, 머신 러닝, 컴퓨터 과학, 물리학 알고리즘 모음. C++ 구현.

Collection of various algorithms in mathematics, machine learning, computer science and physics implemented in C++ for educational purposes.

C++데이터·ML#algorithm#algorithm-competitions

GitHub에서 보기

토크나이저 없는 다국어 TTS

토크나이저 없이 다국어 음성을 생성하는 TTS 모델이다. 창의적인 음성 디자인 및 실제 같은 보이스 클로닝을 지원하여 폭넓게 활용된다.

VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

Python음성데이터·ML#audio#deeplearning

GitHub에서 보기