3Bの軽量モデルで商用モデル級の品質を実現。
Finetuningで貴社専用の音声ブランディングを構築
エンタープライズ向けに設計された、次世代音声AIエージェント
貴社のデータでFinetuning可能なオープンモデル。特定領域では商用モデルを超える性能を実現し、独自の音声ブランディングを構築できます。
3Bパラメータの軽量設計により、消費者向けGPU上でリアルタイム動作可。高額なAPIコストから解放され、無制限の音声生成が可能です。
AIエージェントが分脈を意識した人間らしい感情を込めた発話を実現。ユーザーとの深いエンゲージメントを創出します。
商用利用可能なライセンスと、セキュリティ・サステナビリティに配慮した法人向けサポートプランをご用意。
完全自社サーバー(オンプレミス)運用が可能。機密データを外部に送信することなく、安心安全な音声生成環境を構築できます。
公開スクリプトを超えた高度なpost trainingや、システム統合まで、専門チームが貴社のニーズに合わせてサポート。
標準的な評価指標で、最新商用モデルと肩を並べる性能を実証
東京大学開発の評価モデル。人間が感じる音声の自然さ・品質を予測。スコアが高いほど自然で高品質。
ノイズ・音質・連続性など技術面を多角的に評価する業界標準指標。通信音声品質の評価に広く採用。
モデル | UTMOS平均 | UTMOS標準偏差 | NISQA平均 | 特徴 |
---|---|---|---|---|
VoiceCore (本モデル) | 2.83 | 0.46 | 4.29 | 全体的に品質のバラツキが少ない |
ElevenLabs V3 | 2.96 | 0.67 | 4.19 | 高品質だが文章によってややブレがある |
Gemini 2.5 Pro preview tts | 2.81 | 0.58 | 4.52 | 技術的に最もクリーン |
これらはElevenLabs社が提供しているサンプル文章を読み上げた汎用的なベースライン性能です。
貴社のデータでカスタマイズすることで、特定領域では商用モデルを凌駕する可能性があります。
各モデルの音声品質を実際にご確認ください
注: VoiceCoreの女性の声(サンプル1, 3)は現在プレビュー版の位置づけです。フィードバックをお待ちしております。
緑色の数値はそのサンプルでの最高スコアを示しています。
次世代AIエージェントシステムに、感情豊かな日本語の音声を。