GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
이미지와 텍스트를 같은 임베딩 공간에 두는 모델. 거의 모든 멀티모달 작업의 베이스.
CLIP — Connecting text and images.
특정 오브젝트를 다른 사진에 자연스럽게 합성하는 모델. 광고/제품샷에 유용.
AnyDoor — zero-shot object teleportation in scenes.
이미지/비디오/오디오 확산 모델 라이브러리의 표준. GPT Image 2를 내부에서 fine-tune이나 후처리할 때 함께 가는 코어 의존.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
ComfyUI, API 호출, Modelscope 호출을 지원하는 무한 캔버스 도구이다. 시각적 워크플로우 구성 및 다양한 AI 모델 연동에 활용된다.
Supports comfyui/API calls/modelscope calls
Genmo가 공개한 비디오 생성 모델. 짧은 클립 품질이 특히 좋아 Sora 대안 후보.
Mochi 1 — open-source video generation model from Genmo.
Stable Diffusion 계열을 노드 그래프로 조립하는 GUI. SDXL·Flux·Wan 등 최신 비디오 모델까지 다 돌릴 수 있어요.
The most powerful and modular diffusion model GUI, API and backend with a graph/nodes interface.
GPT Image 2 직접 호출하려면 결국 이 SDK. images.generate / images.edit 메서드로 한 줄 호출.
The official Python library for the OpenAI API
원 트윗 링크가 함께 붙어있어서 'SOLÈNE 매거진 커버'류 바이럴 프롬프트의 진원지를 추적하기 좋음.
A curated collection of the best GPT Image 2 prompts and examples. The prompts come from top creators on X.
노드 그래프로 이미지 생성 파이프라인을 짤 수 있는 표준 GUI. GPT Image 2 + Stable Diffusion 하이브리드 워크플로우 만들 때 필수.
The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
GPT Image 2 / Gemini 2 Flash에 견줄 만한 오픈소스 편집 모델. API 비용이 부담스러우면 self-host 옵션.
A SOTA open-source image editing model, which aims to provide comparable performance against the closed-source models like GPT-4o and Gemini 2 Flash.
CLI 한 줄로 이미지 배경 제거. rembg와 함께 양대 표준.
Background Remover lets you Remove Background from images.
13B 비디오 모델을 6GB GPU에서도 돌리는 viral 프로젝트. lllyasviel이 또 만들어 화제.
Make video diffusion practical — frame packing for 13B models on consumer GPUs.
Lightricks의 실시간 비디오 생성 모델. 추론 속도가 빨라 인터랙티브 데모에 강함.
Official repo for LTX-Video — real-time video generation.
PyTorch 기반의 이미지-이미지 변환 모델인 CycleGAN과 pix2pix 구현체. 컴퓨터 비전 분야에서 이미지 스타일 변환 및 생성에 널리 사용된다.
Image-to-Image Translation in PyTorch
확산 모델을 제어할 수 있는 라이브러리.
Let us control diffusion models!
세계 최초의 오픈소스 에이전트 기반 영상 제작 시스템이다. 12개 파이프라인, 52개 도구, 500개 이상의 에이전트 스킬로 AI 코딩 어시스턴트를 영상 제작 스튜디오로 전환한다.
World's first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.
LLM으로 제어되는 확산 모델(Self-correcting LLM-controlled Diffusion Models, SLD)의 CVPR 2024 공식 구현이다. 텍스트-이미지 생성 및 이미지 편집에서 LLM의 자기 교정 능력을 활용한다.
🔥 [CVPR2024] Official implementation of "Self-correcting LLM-controlled Diffusion Models (SLD)
스마트폰에서도 돌아가는 vision LLM. 작지만 GPT-4V 수준 작업도 가능.
MiniCPM-V — strong multimodal LLM for end-side deployment.
Salesforce가 만든 비전-언어 모델 모음. BLIP·CLIP 등이 통합 인터페이스로 묶여있어요.
LAVIS — a Library for Language-Vision Intelligence.
복잡한 옵션을 숨기고 프롬프트와 결과에만 집중하는 SD UI. 입문자에게 추천.
Focus on prompting and generating
Stability AI가 직접 푸시하는 모델 코드. 새 모델이 나오면 가장 먼저 여기에.
Generative Models by Stability AI — SDXL, SD3, Stable Cascade.
오픈 비전 LLM의 출발점. 이미지를 이해하는 LLM을 만들고 싶다면 첫 학습 자료.
Visual Instruction Tuning — LLaVA towards GPT-4V level.
알리바바가 공개한 비디오 생성 모델. Sora 대안 OSS 후보 중에서 가장 안정적.
Wan2.1 — large-scale video generation models from Alibaba.
OpenAI Sora를 OSS로 재현하려는 프로젝트. 모델 자체보다 학습 파이프라인이 가치.
Open-Sora — an open-source effort to reproduce Sora.
이미지·비디오 해상도 올리는 OSS 표준. 오래됐지만 여전히 가장 안정적.
Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration.
Stable Diffusion WebUI의 사실상 표준. extension 생태계가 가장 풍부.
Stable Diffusion web UI
이미지의 조명을 자유롭게 바꾸는 모델. 제품 사진·인물 리터칭 자동화에 강해요.
More relighting! Manipulate the illumination of images.
초상·포스터·UI 목업·캐릭터 시트 카테고리별로 정리된 API용 프롬프트 모음. 별 11k짜리, 가장 많이 인용되는 awesome 레포 중 하나.
Curated GPT-Image-2 prompts fot the Openai API:image examples across portraits, posters, UI mockups, character sheets, and community experiments.
알리바바의 HuggingFace 대안. 중국 모델·비디오 생성 모델이 풍부.
ModelScope — bring the notion of Model-as-a-Service to life.
CLIP 같은 비전-언어 모델을 적은 데이터로 파인튜닝하는 기법 구현체.
Conditional Prompt Learning for Vision-Language Models.
Claude Code Skill 패키지로 바로 설치할 수 있어서, 에이전트가 한 번에 GPT Image 2 호출하고 결과를 파일로 떨궈줍니다.
GPT Image 2 prompt gallery, image prompt library, agentic skill, and CLI for OpenAI image generation/editing.
Tsinghua가 만든 OSS 비디오 생성 모델. 영상 길이·일관성이 점진적으로 개선 중.
CogVideo — text-to-video diffusion model.
GPT-Image-2 관련 API와 프롬프트를 정리한 오픈소스 리스트. 생성형 AI 활용에 유용합니다.
GPT-Image-2 API and Prompts
텐센트의 오픈 비디오 생성 모델. OpenAI Sora급 품질에 가까운 OSS 옵션.
HunyuanVideo — large video generation model from Tencent.
Stable Diffusion LoRA 학습의 사실상 표준 도구. 캐릭터·스타일 학습이 직관적.
Training, generation and utility scripts for Stable Diffusion.
OpenAI 이미지 생성 및 편집 API를 CLI로 조작한다. 프롬프트 갤러리, 라이브러리, 에이전트 스킬을 제공하여 AI 이미지 작업을 쉽게 자동화할 수 있다.
GPT Image 2 prompt gallery, image prompt library, agentic skill, and CLI for OpenAI image generation/editing
Python 라이브러리로 한 줄에 배경 제거. ONNX 기반이라 빠릅니다.
Rembg — A tool to remove images background.
Stable Diffusion 만든 사람들이 만든 새 모델. SDXL을 능가하는 품질로 화제.
Inference repo for FLUX — high-quality image generation.