GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
Claude Code 프롬프트를 가로 스와이프 매거진 스타일 HTML 덱으로 변환하는 스킬이다. 10가지 레이아웃과 5가지 테마, WebGL 배경 등을 제공하며 단일 파일로 출력된다.
AI-agent Skill for generating polished HTML slide decks: editorial magazine and Swiss layouts, image prompts, social covers, and a WebGL/low-power presentation runtime.
Claude Code 프롬프트를 자동으로 스타일있는 HTML 덱으로 변환하는 스킬이다. 이 스킬은 10 가지 레이아웃과 5 가지 테마를 제공하다. 단일 파일로 출력되서 바로 사용하기 좋다.
Claude Code skill 형태로 묶인 도구 컬렉션. 이미지 생성 skill을 어떻게 패키징하는지 참고하기 좋습니다.
ConardLi's open-source Skills collection, featuring web design, knowledge retrieval, image generation, and more.
GPT-Image-2 관련 API와 프롬프트를 정리한 오픈소스 리스트. 생성형 AI 활용에 유용합니다.
GPT-Image-2 API and Prompts
프롬프트마다 프리뷰 이미지가 붙어있는 데일리 업데이트 라이브러리. Lattice의 GPT Image 2 큐레이션 51개도 여기서 출발했어요.
🚀 World's largest GPT Image 2 prompt library, updated daily — 2000+ curated prompts with preview images, 16 languages. OpenAI's next-gen image model with pixel-perfect text rendering, cross-image consistency, and commercial-grade illustration. Free & open source.
광고·매거진·제품샷 케이스 370개를 역공학으로 분석해 산업용 템플릿 20여 세트로 정리. 실무 톤 잡고 싶을 때 참고.
Prompt as Code | GPT-Image2 工业级提示词引擎与模板库,370+ 个案例逆向工程,20+ 套工业级模板,并提炼出Skills,持续更新中
초상·포스터·UI 목업·캐릭터 시트 카테고리별로 정리된 API용 프롬프트 모음. 별 11k짜리, 가장 많이 인용되는 awesome 레포 중 하나.
Curated GPT-Image-2 prompts fot the Openai API:image examples across portraits, posters, UI mockups, character sheets, and community experiments.
복잡한 옵션을 숨기고 프롬프트와 결과에만 집중하는 SD UI. 입문자에게 추천.
Focus on prompting and generating
이미지의 조명을 자유롭게 바꾸는 모델. 제품 사진·인물 리터칭 자동화에 강해요.
More relighting! Manipulate the illumination of images.
Tsinghua가 만든 OSS 비디오 생성 모델. 영상 길이·일관성이 점진적으로 개선 중.
CogVideo — text-to-video diffusion model.
LLM으로 제어되는 확산 모델(Self-correcting LLM-controlled Diffusion Models, SLD)의 CVPR 2024 공식 구현이다. 텍스트-이미지 생성 및 이미지 편집에서 LLM의 자기 교정 능력을 활용한다.
🔥 [CVPR2024] Official implementation of "Self-correcting LLM-controlled Diffusion Models (SLD)
OpenAI Sora를 OSS로 재현하려는 프로젝트. 모델 자체보다 학습 파이프라인이 가치.
Open-Sora — an open-source effort to reproduce Sora.
Stability AI가 직접 푸시하는 모델 코드. 새 모델이 나오면 가장 먼저 여기에.
Generative Models by Stability AI — SDXL, SD3, Stable Cascade.
Claude Code Skill 패키지로 바로 설치할 수 있어서, 에이전트가 한 번에 GPT Image 2 호출하고 결과를 파일로 떨궈줍니다.
GPT Image 2 prompt gallery, image prompt library, agentic skill, and CLI for OpenAI image generation/editing.
CLI 한 줄로 이미지 배경 제거. rembg와 함께 양대 표준.
Background Remover lets you Remove Background from images.
Stable Diffusion 만든 사람들이 만든 새 모델. SDXL을 능가하는 품질로 화제.
Inference repo for FLUX — high-quality image generation.
Salesforce가 만든 비전-언어 모델 모음. BLIP·CLIP 등이 통합 인터페이스로 묶여있어요.
LAVIS — a Library for Language-Vision Intelligence.
이미지·비디오 해상도 올리는 OSS 표준. 오래됐지만 여전히 가장 안정적.
Real-ESRGAN aims at developing Practical Algorithms for General Image/Video Restoration.
CLIP 같은 비전-언어 모델을 적은 데이터로 파인튜닝하는 기법 구현체.
Conditional Prompt Learning for Vision-Language Models.
알리바바의 HuggingFace 대안. 중국 모델·비디오 생성 모델이 풍부.
ModelScope — bring the notion of Model-as-a-Service to life.
확산 모델을 제어할 수 있는 라이브러리.
Let us control diffusion models!
이미지/비디오/오디오 확산 모델 라이브러리의 표준. GPT Image 2를 내부에서 fine-tune이나 후처리할 때 함께 가는 코어 의존.
🤗 Diffusers: State-of-the-art diffusion models for image, video, and audio generation in PyTorch.
이미지와 텍스트를 같은 임베딩 공간에 두는 모델. 거의 모든 멀티모달 작업의 베이스.
CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image
Stable Diffusion WebUI의 사실상 표준. extension 생태계가 가장 풍부.
Stable Diffusion web UI
스마트폰에서도 돌아가는 vision LLM. 작지만 GPT-4V 수준 작업도 가능.
MiniCPM-V — strong multimodal LLM for end-side deployment.
특정 오브젝트를 다른 사진에 자연스럽게 합성하는 모델. 광고/제품샷에 유용.
AnyDoor — zero-shot object teleportation in scenes.
GPT Image 2 프롬프팅 가이드의 정석. 텍스트 렌더링·EXACT TEXT 패턴은 여기서 출발하면 헛돌지 않아요. 노트북으로 바로 실험 가능.
Examples and guides for using the OpenAI API
로컬에서 AI 모델을 실행할 수 있는 오픈 소스 엔진입니다.
LocalAI is the open-source AI engine. Run any model - LLMs, vision, voice, image, video - on any hardware. No GPU required.
안정적 확산은 이미지 생성을 위한 알고리즘입니다. 다양한 기능과 알고리즘을 제공하여 이미지 생성을 쉽게 합니다.
A latent text-to-image diffusion model
Python 라이브러리로 한 줄에 배경 제거. ONNX 기반이라 빠릅니다.
Rembg — A tool to remove images background.
13B 비디오 모델을 6GB GPU에서도 돌리는 viral 프로젝트. lllyasviel이 또 만들어 화제.
Make video diffusion practical — frame packing for 13B models on consumer GPUs.
텐센트의 오픈 비디오 생성 모델. OpenAI Sora급 품질에 가까운 OSS 옵션.
HunyuanVideo — large video generation model from Tencent.
Genmo가 공개한 비디오 생성 모델. 짧은 클립 품질이 특히 좋아 Sora 대안 후보.
Mochi 1 — open-source video generation model from Genmo.
Stable Diffusion LoRA 학습의 사실상 표준 도구. 캐릭터·스타일 학습이 직관적.
Training, generation and utility scripts for Stable Diffusion.
GPT Image 2 / Gemini 2 Flash에 견줄 만한 오픈소스 편집 모델. API 비용이 부담스러우면 self-host 옵션.
A SOTA open-source image editing model, which aims to provide comparable performance against the closed-source models like GPT-4o and Gemini 2 Flash.
프로 일러스트레이터·디자이너 워크플로우에 맞춘 SD 인터페이스.
InvokeAI — Stable Diffusion creative engine for professional use.
오픈 비전 LLM의 출발점. 이미지를 이해하는 LLM을 만들고 싶다면 첫 학습 자료.
Visual Instruction Tuning — LLaVA towards GPT-4V level.
Lightricks의 실시간 비디오 생성 모델. 추론 속도가 빨라 인터랙티브 데모에 강함.
Official repo for LTX-Video — real-time video generation.
Claude/ChatGPT 등 MCP 호환 클라이언트에서 자연어로 GPT Image 2를 호출. 1,400+ 프롬프트 라이브러리 내장.
Supports GPT Image 2, Nanobanana & ComfyUI, with a 1,400+ prompt library, carefully crafted hooks and a multi-task orchestration system.
노드 그래프로 이미지 생성 파이프라인을 짤 수 있는 표준 GUI. GPT Image 2 + Stable Diffusion 하이브리드 워크플로우 만들 때 필수.
The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.
GPT Image 2 직접 호출하려면 결국 이 SDK. images.generate / images.edit 메서드로 한 줄 호출.
The official Python library for the OpenAI API
쇼트폼·라이브 액션까지 할리우드 워크플로로 제어 가능한 AI 에이전트 기반 영상 제작 플랫폼입니다.
首家工业级全流程 AI 影视生产平台。Industry-first professional AI Agent platform for controllable film & video production. From shorts to live-action with Hollywood-standard workflows.
API 호출 친화적으로 정리된 프롬프트. 카테고리·태그가 깔끔해서 어드민 페이지나 직접 호출 스크립트에 바로 매핑하기 좋아요.
Curated GPT Image 2 prompts for the OpenAI API — portraits, posters, UI mockups, game screenshots, character sheets, and more.
Lattice 같은 Next.js 앱에서 GPT Image 2를 부를 때 쓰는 SDK. 스트리밍·툴 호출과 함께 한 클라이언트에서.
Official JavaScript / TypeScript library for the OpenAI API.
세계 최초의 오픈소스 에이전트 기반 영상 제작 시스템이다. 12개 파이프라인, 52개 도구, 500개 이상의 에이전트 스킬로 AI 코딩 어시스턴트를 영상 제작 스튜디오로 전환한다.
World's first open-source, agentic video production system. 12 pipelines, 52 tools, 500+ agent skills. Turn your AI coding assistant into a full video production studio.
알리바바가 공개한 비디오 생성 모델. Sora 대안 OSS 후보 중에서 가장 안정적.
Wan2.1 — large-scale video generation models from Alibaba.
원 트윗 링크가 함께 붙어있어서 'SOLÈNE 매거진 커버'류 바이럴 프롬프트의 진원지를 추적하기 좋음.
A curated collection of the best GPT Image 2 prompts and examples. The prompts come from top creators on X.
Gemini로 뽑은 이미지에 박힌 워터마크를 수식적으로 제거. AI inpainting이 아니라 alpha blending이라 화질 손실 거의 없음.
A high-performance, 100% client-side tool for removing Gemini AI watermarks via mathematically precise Reverse Alpha Blending — no AI inpainting.
Stable Diffusion 계열을 노드 그래프로 조립하는 GUI. SDXL·Flux·Wan 등 최신 비디오 모델까지 다 돌릴 수 있어요.
The most powerful and modular diffusion model GUI, API and backend with a graph/nodes interface.