テキスト音声合成
テキストを音声に変換する技術。AIアシスタントに「声」を持たせたり、アクセシビリティの向上、コンテンツの音声化に活用される。
主なエンジン種別
| 種別 | 特徴 | 例 |
|---|---|---|
| ローカルエンジン | オフライン動作、低レイテンシ | VOICEVOX、Mac say |
| クラウドAPI型 | 高品質、多言語対応 | OpenAI TTS、Google Cloud TTS |
| ニューラルTTS | 自然な音声、感情表現 | VOICEVOX、ElevenLabs |
言語特化エンジンの使い分け
言語ごとに得意なエンジンが異なるため、言語自動判定ルーティングによって複数エンジンを使い分けることが実用的。
- 日本語 → VOICEVOX(キャラクターボイス、自然な日本語発音)
- 英語 → Mac say / システムTTS(ネイティブな英語発音)
この判定は非ASCII文字の有無によって簡易実装できる(日本語UTF-8は非ASCII文字を含む)。
AIエージェントとの統合
AIアシスタントの応答をTTSで読み上げる場合、バックグラウンド実行にすることで応答が速くなる。音声再生の完了を待たずに次の処理に進めるため、会話のテンポが改善する。
技術的な注意点
- サンプルレートの互換性:エンジンの出力(例:24kHz)とシステムの期待値(例:44.1kHz)が異なる場合、変換が必要
- daemonの安定運用:TTSデーモンはOSの常駐機能(launchd等)で管理すると安定する