<コーナー解説>
ITソリューションの導入に関し、背景や動機、選定要素と運用ポイントを聞く事例記事です。
音声合成ソリューション
読み上げ精度、話者の多様性、安定性
印象を決める“声”を創る3大要素
顧客からの電話をナビゲートする機械音声。違和感なく案内できる音声合成の実現には、「読み上げ精度」「話者の多様性」「安定性」の3つの要素が求められる。主要各社の音声合成ソリューションの特徴をもとに、トレンドを検証する。
「オデンワ、アリガトーゴザイマス」。テキストデータから人工的な音声を生成する技術「音声合成(Text To Speech)」が飛躍的に進化を遂げ、より肉声に近いなめらかな “発話”が可能になりつつある。近年は「電話の自動応答」をキーワードとして、リクエストに応じて顧客情報などの任意のテキストを音声合成する「リアルタイム型」 を検討するケースが徐々に増えている。今後、電話の自動応答の普及を見据え、「(1)読み上げ品質」「(2)話者の多様性」「(3)システムの安定性」の3つを比較検討ポイントとして、主要各社のソリューションを検証する。
図 主な音声合成の用途
記事内で取り上げているベンダー(掲載順)
HOYA
NTTテクノクロス
エーアイ
ソフトバンク
アニモ