GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
600+ 언어를 지원하는 고품질 음성 합성 도구.
High-Quality Voice Cloning TTS for 600+ Languages
Suno의 OSS TTS. 웃음·숨소리·배경음 같은 비언어적 표현까지 생성.
🐶 Bark — text-prompted generative audio model.
Mozilla 출신이 만든 TTS 라이브러리. XTTS-v2는 5초 샘플로 보이스 클로닝 가능.
🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
10분 분량 음성으로 음성 변환 모델 학습. 보이스체인저·더빙 커뮤니티의 압도적 표준.
Easily train a good VC model with voice data <= 10 mins!
대화·팟캐스트 톤에 특화된 TTS. 자연스러운 휴지·강세가 인상적.
A generative speech model for daily dialogue.
텍스트를 음성으로 변환하는 도구입니다.
🚀Clone a voice in 5 seconds to generate arbitrary speech in real-time
MS의 통합 음성-텍스트 모델. ASR·TTS·음성 변환 한 모델로.
Unified-Modal Speech-Text Pre-Training for Spoken Language Processing.
웹 UI로 오픈 모델을 훈련하고 실행할 수 있는 도구입니다.
Unsloth Studio is a web UI for training and running open models like Gemma 4, Qwen3.6, DeepSeek, gpt-oss locally.
1분 음성 데이터로 좋은 TTS 모델을 학습할 수 있습니다.
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
한국어·중국어·영어 통합 zero-shot TTS. 상용 API 수준의 자연스러움을 OSS로 제공.
SOTA Open-Source multilingual TTS — natural voice cloning.
음성 인식의 표준. 99개 언어 지원하고 한국어 정확도가 매우 높아요.
Robust Speech Recognition via Large-Scale Weak Supervision
Sesame가 공개한 대화형 음성 생성 모델. 감정·억양 표현이 기존 OSS TTS와 다른 차원.
Conversational Speech Model from Sesame — natural-sounding voice generation.
OpenAI Realtime API와 결합해 전화·통화 수준의 음성 에이전트를 만들 때 사실상 표준 프레임워크.
A powerful framework for building realtime voice AI agents.
Diffusion 기반 보이스 클로닝. 자연스러움이 OpenVoice를 능가하는 평가.
F5-TTS — Diffusion Transformer with Flow Matching for fluent speech.
실시간으로 음성을 복제하는 기술을 제공하는 프로젝트입니다.
Clone a voice in 5 seconds to generate arbitrary speech in real-time
한국어 포함 다국어 TTS. 추론이 빠르고 CPU에서도 실시간 가능.
High-quality multi-lingual text-to-speech library by MyShell.
텍스트 프롬프트로 음악·환경음 생성하는 모델. 비디오 BGM 자동화에 유용.
AudioLDM2 — text-to-audio/music generation.
몇 초 분량의 음성으로 보이스 클로닝을 하는 오픈소스 TTS. 다국어 지원이 강점이에요.
Instant voice cloning by MIT and MyShell. Audio foundation model.