GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
600+ 언어를 지원하는 고품질 음성 합성 도구.
High-Quality Voice Cloning TTS for 600+ Languages
Mozilla 출신이 만든 TTS 라이브러리. XTTS-v2는 5초 샘플로 보이스 클로닝 가능.
🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
라즈베리파이에서도 돌아가는 가벼운 TTS. 로컬 어시스턴트에 적합.
A fast, local neural text to speech system that sounds great.
10분 분량 음성으로 음성 변환 모델 학습. 보이스체인저·더빙 커뮤니티의 압도적 표준.
Easily train a good VC model with voice data <= 10 mins!
Whisper를 C++로 다시 만들어서 일반 PC에서도 빠르게 동작. 모바일/엣지에 적합.
Port of OpenAI's Whisper model in C/C++.
대화·팟캐스트 톤에 특화된 TTS. 자연스러운 휴지·강세가 인상적.
A generative speech model for daily dialogue.
텍스트를 음성으로 변환하는 도구입니다.
🚀Clone a voice in 5 seconds to generate arbitrary speech in real-time
MS의 통합 음성-텍스트 모델. ASR·TTS·음성 변환 한 모델로.
Unified-Modal Speech-Text Pre-Training for Spoken Language Processing.
웹 UI로 오픈 모델을 훈련하고 실행할 수 있는 도구입니다.
Unsloth Studio is a web UI for training and running open models like Gemma 4, Qwen3.6, DeepSeek, gpt-oss locally.
1분 음성 데이터로 좋은 TTS 모델을 학습할 수 있습니다.
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
한국어·중국어·영어 통합 zero-shot TTS. 상용 API 수준의 자연스러움을 OSS로 제공.
SOTA Open-Source multilingual TTS — natural voice cloning.
음성 인식의 표준. 99개 언어 지원하고 한국어 정확도가 매우 높아요.
Robust Speech Recognition via Large-Scale Weak Supervision
Sesame가 공개한 대화형 음성 생성 모델. 감정·억양 표현이 기존 OSS TTS와 다른 차원.
Conversational Speech Model from Sesame — natural-sounding voice generation.
OpenAI Realtime API와 결합해 전화·통화 수준의 음성 에이전트를 만들 때 사실상 표준 프레임워크.
A powerful framework for building realtime voice AI agents.
Diffusion 기반 보이스 클로닝. 자연스러움이 OpenVoice를 능가하는 평가.
F5-TTS — Diffusion Transformer with Flow Matching for fluent speech.
실시간으로 음성을 복제하는 기술을 제공하는 프로젝트입니다.
Clone a voice in 5 seconds to generate arbitrary speech in real-time
OpenAI의 Whisper 모델을 C/C++로 구현한 스피치 인식 모델입니다.
Port of OpenAI's Whisper model in C/C++
한국어 포함 다국어 TTS. 추론이 빠르고 CPU에서도 실시간 가능.
High-quality multi-lingual text-to-speech library by MyShell.
텍스트 프롬프트로 음악·환경음 생성하는 모델. 비디오 BGM 자동화에 유용.
AudioLDM2 — text-to-audio/music generation.
몇 초 분량의 음성으로 보이스 클로닝을 하는 오픈소스 TTS. 다국어 지원이 강점이에요.
Instant voice cloning by MIT and MyShell. Audio foundation model.
Microsoft의 Foundry 로컬 AI SDK로, GPU 가속 기능을 활용하여 로컬 AI 및 채팅 완성 기능을 제공합니다. 개발자가 AI 애플리케이션을 효율적으로 구축하도록 돕습니다.
Suno의 OSS TTS. 웃음·숨소리·배경음 같은 비언어적 표현까지 생성.
🔊 Text-Prompted Generative Audio Model