GitHub 트렌딩을 그대로 나열하지 않고, Claude Code · RAG · 로컬 AI · 에이전트 워크플로우 · 평가 도구 · AI 앱 빌더 관점에서 실제 빌더가 쓸 만한 오픈소스 스택을 다시 정리합니다.
80억 파라미터 규모의 고도로 감성적인 Text-to-Speech (TTS) 모델이다. 텍스트를 풍부한 감정을 담은 음성으로 변환하여 자연스러운 음성 합성이 필요할 때 활용된다.
Miso TTS is an 8 billion, highly emotive text-to-speech model
Suno의 OSS TTS. 웃음·숨소리·배경음 같은 비언어적 표현까지 생성.
🔊 Text-Prompted Generative Audio Model
단축키를 누르고 말하면 AI가 다듬은 텍스트가 커서 위치에 나타나는 오픈소스 음성 입력 도구이다. macOS 및 Windows에서 모든 앱에 적용되어 음성 기반 텍스트 입력을 효율화한다.
Hold a key, speak, release — AI-polished text appears at your cursor in any app. Open-source voice input for macOS & Windows. (按住快捷键说话,松开即得润色后的文字)
1분 음성 데이터로 좋은 TTS 모델을 학습할 수 있습니다.
1 min voice data can also be used to train a good TTS model! (few shot voice cloning)
10분 분량 음성으로 음성 변환 모델 학습. 보이스체인저·더빙 커뮤니티의 압도적 표준.
Easily train a good VC model with voice data <= 10 mins!
Mozilla 출신이 만든 TTS 라이브러리. XTTS-v2는 5초 샘플로 보이스 클로닝 가능.
🐸💬 - a deep learning toolkit for Text-to-Speech, battle-tested in research and production
토크나이저 없이 다국어 음성을 생성하는 TTS 모델이다. 창의적인 음성 디자인 및 실제 같은 보이스 클로닝을 지원하여 폭넓게 활용된다.
VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning
Microsoft의 Foundry 로컬 AI SDK로, GPU 가속 기능을 활용하여 로컬 AI 및 채팅 완성 기능을 제공합니다. 개발자가 AI 애플리케이션을 효율적으로 구축하도록 돕습니다.
Sesame가 공개한 대화형 음성 생성 모델. 감정·억양 표현이 기존 OSS TTS와 다른 차원.
Conversational Speech Model from Sesame — natural-sounding voice generation.
실시간으로 음성을 복제하는 기술을 제공하는 프로젝트입니다.
Clone a voice in 5 seconds to generate arbitrary speech in real-time
라즈베리파이에서도 돌아가는 가벼운 TTS. 로컬 어시스턴트에 적합.
A fast, local neural text to speech system that sounds great.
텍스트 프롬프트로 음악·환경음 생성하는 모델. 비디오 BGM 자동화에 유용.
AudioLDM2 — text-to-audio/music generation.
텍스트를 음성으로 변환하는 도구입니다.
🚀Clone a voice in 5 seconds to generate arbitrary speech in real-time
Whisper를 C++로 다시 만들어서 일반 PC에서도 빠르게 동작. 모바일/엣지에 적합.
Port of OpenAI's Whisper model in C/C++.
음성 복제, 받아쓰기, 생성 기능을 제공하는 오픈소스 AI 음성 스튜디오이다. Qwen3-TTS 등 최신 모델을 활용해 다양한 음성 콘텐츠를 만든다.
The open-source AI voice studio. Clone, dictate, create.
음성 인식의 표준. 99개 언어 지원하고 한국어 정확도가 매우 높아요.
Robust Speech Recognition via Large-Scale Weak Supervision
한국어·중국어·영어 통합 zero-shot TTS. 상용 API 수준의 자연스러움을 OSS로 제공.
SOTA Open-Source multilingual TTS — natural voice cloning.
웹 UI로 오픈 모델을 훈련하고 실행할 수 있는 도구입니다.
Unsloth Studio is a web UI for training and running open models like Gemma 4, Qwen3.6, DeepSeek, gpt-oss locally.
ElevenLabs의 오픈소스 대안으로, 로컬에서 음성 복제, 생성, 더빙, 받아쓰기가 가능한 데스크톱 앱이다. 개인 정보 보호가 중요한 음성 작업에 유용하다.
The open-source ElevenLabs alternative for local voice cloning, design, create, dubbing and dictation Desktop App
600+ 언어를 지원하는 고품질 음성 합성 도구.
High-Quality Voice Cloning TTS for 600+ Languages
Diffusion 기반 보이스 클로닝. 자연스러움이 OpenVoice를 능가하는 평가.
F5-TTS — Diffusion Transformer with Flow Matching for fluent speech.
한국어 포함 다국어 TTS. 추론이 빠르고 CPU에서도 실시간 가능.
High-quality multi-lingual text-to-speech library by MyShell.
OpenAI Realtime API와 결합해 전화·통화 수준의 음성 에이전트를 만들 때 사실상 표준 프레임워크.
A powerful framework for building realtime voice AI agents.
0.1B 파라미터의 초경량 오픈소스 다국어 음성 생성 모델이다. GPU 없이 CPU에서 실시간으로 작동하며, 로컬 데모 및 경량 서비스 통합에 적합하다.
MOSS-TTS-Nano is an open-source multilingual tiny speech generation model from MOSI.AI and the OpenMOSS team. With only 0.1B parameters, it is designed for realtime speech generation, can run directly on CPU without a GPU, and keeps the deployment stack simple enough for local demos, web serving, and lightweight product integration.
MS의 통합 음성-텍스트 모델. ASR·TTS·음성 변환 한 모델로.
Unified-Modal Speech-Text Pre-Training for Spoken Language Processing.
OpenAI의 Whisper 모델을 C/C++로 구현한 스피치 인식 모델입니다.
Port of OpenAI's Whisper model in C/C++
몇 초 분량의 음성으로 보이스 클로닝을 하는 오픈소스 TTS. 다국어 지원이 강점이에요.
Instant voice cloning by MIT and MyShell. Audio foundation model.
대화·팟캐스트 톤에 특화된 TTS. 자연스러운 휴지·강세가 인상적.
A generative speech model for daily dialogue.