テキスト音声合成

テキストを音声に変換する技術。AIアシスタントに「声」を持たせたり、アクセシビリティの向上、コンテンツの音声化に活用される。

主なエンジン種別

種別 特徴
ローカルエンジン オフライン動作、低レイテンシ VOICEVOX、Mac say
クラウドAPI型 高品質、多言語対応 OpenAI TTS、Google Cloud TTS
ニューラルTTS 自然な音声、感情表現 VOICEVOX、ElevenLabs

言語特化エンジンの使い分け

言語ごとに得意なエンジンが異なるため、言語自動判定ルーティングによって複数エンジンを使い分けることが実用的。

この判定は非ASCII文字の有無によって簡易実装できる(日本語UTF-8は非ASCII文字を含む)。

AIエージェントとの統合

AIアシスタントの応答をTTSで読み上げる場合、バックグラウンド実行にすることで応答が速くなる。音声再生の完了を待たずに次の処理に進めるため、会話のテンポが改善する。

技術的な注意点

関連