GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
광고·매거진·제품샷 케이스 370개를 역공학으로 분석해 산업용 템플릿 20여 세트로 정리. 실무 톤 잡고 싶을 때 참고.
Prompt as Code | GPT-Image2 industrial-grade prompt engine and template library — 370+ reverse-engineered cases, 20+ industrial template sets.
Stable Diffusion 만든 사람들이 만든 새 모델. SDXL을 능가하는 품질로 화제.
Inference repo for FLUX — high-quality image generation.
Claude Code 프롬프트를 가로 스와이프 매거진 스타일 HTML 덱으로 변환하는 스킬이다. 10가지 레이아웃과 5가지 테마, WebGL 배경 등을 제공하며 단일 파일로 출력된다.
AI-agent Skill for generating polished HTML slide decks: editorial magazine and Swiss layouts, image prompts, social covers, and a WebGL/low-power presentation runtime.
텐센트의 오픈 비디오 생성 모델. OpenAI Sora급 품질에 가까운 OSS 옵션.
HunyuanVideo — large video generation model from Tencent.
중국어 텍스트를 위한 괴상한 스타일의 삽화를 생성하는 Skill이다. 16:9 비율의 흰색 배경에 손으로 그린 듯한 그림과 최소한의 색상 주석을 특징으로 한다.
中文小黑怪诞正文配图生成 Skill | 16:9 白底手绘 | 少量红橙蓝批注 | Codex Skill
Claude Code나 Codex를 활용하여 프로덕션 레벨의 Lottie 애니메이션을 생성한다. AI 기반으로 애니메이션 제작 과정을 효율적으로 간소화하는 데 사용된다.
Generate production-ready Lottie animations with Claude Code or Codex
Tsinghua가 만든 OSS 비디오 생성 모델. 영상 길이·일관성이 점진적으로 개선 중.
CogVideo — text-to-video diffusion model.
Claude Code 또는 Codex를 위한 소셜 카드 이미지 생성 스킬이다. 샤오홍슈 캐러셀과 위챗 커버 이미지를 다양한 레이아웃과 테마로 단일 HTML 파일에서 PNG로 자동 생성한다.
🪧 Claude Code / Codex skill — generate Xiaohongshu carousels & WeChat 21:9+1:1 cover pairs. Editorial × Swiss visual systems, 28 layouts, 10 themes, single-file HTML → PNG. 小红书图文 + 公众号封面对
Stable Diffusion LoRA 학습의 사실상 표준 도구. 캐릭터·스타일 학습이 직관적.
Training, generation and utility scripts for Stable Diffusion.
Python 라이브러리로 한 줄에 배경 제거. ONNX 기반이라 빠릅니다.
Rembg — A tool to remove images background.
HTML, CSS 및 데이터를 MP4 비디오로 변환하는 프로그래매틱 비디오 솔루션이다. 플러그형 렌더링 엔진, 21가지 템플릿, AI 사운드트랙 기능을 제공하며 에이전트용으로 설계되었다.
Programmatic video for coding agents — HTML to video on your laptop. Turn HTML, CSS & data into real MP4s with pluggable render engines, 21 templates, AI soundtrack. Apache-2.0, no per-render fees. An official project by the Open Design team.
특정 오브젝트를 다른 사진에 자연스럽게 합성하는 모델. 광고/제품샷에 유용.
AnyDoor — zero-shot object teleportation in scenes.
이미지/비디오/오디오 확산 모델 라이브러리의 표준. GPT Image 2를 내부에서 fine-tune이나 후처리할 때 함께 가는 코어 의존.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
ComfyUI, API 호출, Modelscope 호출을 지원하는 무한 캔버스 도구이다. 시각적 워크플로우 구성 및 다양한 AI 모델 연동에 활용된다.
Supports comfyui/API calls/modelscope calls
Genmo가 공개한 비디오 생성 모델. 짧은 클립 품질이 특히 좋아 Sora 대안 후보.
Mochi 1 — open-source video generation model from Genmo.
Stable Diffusion 계열을 노드 그래프로 조립하는 GUI. SDXL·Flux·Wan 등 최신 비디오 모델까지 다 돌릴 수 있어요.
The most powerful and modular diffusion model GUI, API and backend with a graph/nodes interface.
GPT Image 2 직접 호출하려면 결국 이 SDK. images.generate / images.edit 메서드로 한 줄 호출.
The official Python library for the OpenAI API
프롬프트마다 프리뷰 이미지가 붙어있는 데일리 업데이트 라이브러리. Lattice의 GPT Image 2 큐레이션 51개도 여기서 출발했어요.
🚀 World's largest GPT Image 2 prompt library, updated daily — 2000+ curated prompts with preview images, 16 languages. OpenAI's next-gen image model with pixel-perfect text rendering, cross-image consistency, and commercial-grade illustration. Free & open source.
OpenAI gpt-image-2 API 기반의 이미지 생성 및 편집 도구이다. React와 TailwindCSS로 구축되어 사용자 친화적인 인터페이스로 AI 이미지 작업을 효율화한다.
基于 OpenAI gpt-image-2 API 的图片生成与编辑工具
원 트윗 링크가 함께 붙어있어서 'SOLÈNE 매거진 커버'류 바이럴 프롬프트의 진원지를 추적하기 좋음.
A curated collection of the best GPT Image 2 prompts and examples. The prompts come from top creators on X.
Claude Code skill 형태로 묶인 도구 컬렉션. 이미지 생성 skill을 어떻게 패키징하는지 참고하기 좋습니다.
ConardLi's open-source Skills collection, featuring web design, knowledge retrieval, image generation, and more.
쇼트폼·라이브 액션까지 할리우드 워크플로로 제어 가능한 AI 에이전트 기반 영상 제작 플랫폼입니다.
首家工业级全流程 AI 影视生产平台。Industry-first professional AI Agent platform for controllable film & video production. From shorts to live-action with Hollywood-standard workflows.
노드 그래프로 이미지 생성 파이프라인을 짤 수 있는 표준 GUI. GPT Image 2 + Stable Diffusion 하이브리드 워크플로우 만들 때 필수.
The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
GPT Image 2 / Gemini 2 Flash에 견줄 만한 오픈소스 편집 모델. API 비용이 부담스러우면 self-host 옵션.
A SOTA open-source image editing model, which aims to provide comparable performance against the closed-source models like GPT-4o and Gemini 2 Flash.
CLI 한 줄로 이미지 배경 제거. rembg와 함께 양대 표준.
Background Remover lets you Remove Background from images.
13B 비디오 모델을 6GB GPU에서도 돌리는 viral 프로젝트. lllyasviel이 또 만들어 화제.
Make video diffusion practical — frame packing for 13B models on consumer GPUs.
Lightricks의 실시간 비디오 생성 모델. 추론 속도가 빨라 인터랙티브 데모에 강함.
Official repo for LTX-Video — real-time video generation.
PyTorch 기반의 이미지-이미지 변환 모델인 CycleGAN과 pix2pix 구현체. 컴퓨터 비전 분야에서 이미지 스타일 변환 및 생성에 널리 사용된다.
Image-to-Image Translation in PyTorch
로컬에서 AI 모델을 실행할 수 있는 오픈 소스 엔진입니다.
LocalAI is the open-source AI engine. Run any model - LLMs, vision, voice, image, video - on any hardware. No GPU required.
확산 모델을 제어할 수 있는 라이브러리.
Let us control diffusion models!
세계 최초의 오픈소스 에이전트 기반 영상 제작 시스템이다. 12개 파이프라인, 52개 도구, 500개 이상의 에이전트 스킬로 AI 코딩 어시스턴트를 영상 제작 스튜디오로 전환한다.
World's first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.
GPT Image 2 프롬프팅 가이드의 정석. 텍스트 렌더링·EXACT TEXT 패턴은 여기서 출발하면 헛돌지 않아요. 노트북으로 바로 실험 가능.
Examples and guides for using the OpenAI API
LLM으로 제어되는 확산 모델(Self-correcting LLM-controlled Diffusion Models, SLD)의 CVPR 2024 공식 구현이다. 텍스트-이미지 생성 및 이미지 편집에서 LLM의 자기 교정 능력을 활용한다.
🔥 [CVPR2024] Official implementation of "Self-correcting LLM-controlled Diffusion Models (SLD)
스마트폰에서도 돌아가는 vision LLM. 작지만 GPT-4V 수준 작업도 가능.
MiniCPM-V — strong multimodal LLM for end-side deployment.
Salesforce가 만든 비전-언어 모델 모음. BLIP·CLIP 등이 통합 인터페이스로 묶여있어요.
LAVIS — a Library for Language-Vision Intelligence.
Lattice 같은 Next.js 앱에서 GPT Image 2를 부를 때 쓰는 SDK. 스트리밍·툴 호출과 함께 한 클라이언트에서.
Official JavaScript / TypeScript library for the OpenAI API.
프로 일러스트레이터·디자이너 워크플로우에 맞춘 SD 인터페이스.
InvokeAI — Stable Diffusion creative engine for professional use.
복잡한 옵션을 숨기고 프롬프트와 결과에만 집중하는 SD UI. 입문자에게 추천.
Focus on prompting and generating
Stability AI가 직접 푸시하는 모델 코드. 새 모델이 나오면 가장 먼저 여기에.
Generative Models by Stability AI — SDXL, SD3, Stable Cascade.
안정적 확산은 이미지 생성을 위한 알고리즘입니다. 다양한 기능과 알고리즘을 제공하여 이미지 생성을 쉽게 합니다.
A latent text-to-image diffusion model
오픈 비전 LLM의 출발점. 이미지를 이해하는 LLM을 만들고 싶다면 첫 학습 자료.
Visual Instruction Tuning — LLaVA towards GPT-4V level.
알리바바가 공개한 비디오 생성 모델. Sora 대안 OSS 후보 중에서 가장 안정적.
Wan2.1 — large-scale video generation models from Alibaba.
이미지와 텍스트를 같은 임베딩 공간에 두는 모델. 거의 모든 멀티모달 작업의 베이스.
CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image
OpenAI Sora를 OSS로 재현하려는 프로젝트. 모델 자체보다 학습 파이프라인이 가치.
Open-Sora — an open-source effort to reproduce Sora.
이미지·비디오 해상도 올리는 OSS 표준. 오래됐지만 여전히 가장 안정적.
Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration.
Stable Diffusion WebUI의 사실상 표준. extension 생태계가 가장 풍부.
Stable Diffusion web UI
이미지의 조명을 자유롭게 바꾸는 모델. 제품 사진·인물 리터칭 자동화에 강해요.
More relighting! Manipulate the illumination of images.
API 호출 친화적으로 정리된 프롬프트. 카테고리·태그가 깔끔해서 어드민 페이지나 직접 호출 스크립트에 바로 매핑하기 좋아요.
Curated GPT Image 2 prompts for the OpenAI API — portraits, posters, UI mockups, game screenshots, character sheets, and more.
Claude Code 프롬프트를 자동으로 스타일있는 HTML 덱으로 변환하는 스킬이다. 이 스킬은 10 가지 레이아웃과 5 가지 테마를 제공하다. 단일 파일로 출력되서 바로 사용하기 좋다.