RevComm(東京都渋谷区、會田武史代表取締役)は2023年11月、音声認識精度に関する調査を実施。具体的には、さまざまな業種のビジネスに関する電話での会話およびオンライン面談データから、一つの発話が10~20秒程度のサンプルを30時間分抽出して検証。正解テキストと複数の音声認識ツールで認識した結果を比較し、誤りがあった割合を算出した。
結果、他社モデルは60~80%の認識率であったのに対して、同社が提供する音声解析AI電話「MiiTel」では90%以上の認識率を示した。一方で、公開文書の読み上げなど、自由発話と異なる比較的、文章構成が整ったデータについては、は他社モデルとの大きな差異はみられなかった。
調査結果例は上図に示す通り、例えば「費用対効果」といったビジネス用語や、フィラー(「えーと」「あのー」といったつなぎ表現)や言い淀みも正しく認識できた点が認識精度の差につながっていることがわかる。
同社取締役 リサーチディレクターの橋本泰一氏は、「ディープラーニングベースの音声認識AIは、自信のない結果は出力しないという傾向があり、一見、誤りを探しづらいという特徴があります。今回の検証から、当社が現在ターゲットとしている『ビジネスコミュニケーション』で、有意義な価値提供ができていると分かりました」と説明した。
結果、他社モデルは60~80%の認識率であったのに対して、同社が提供する音声解析AI電話「MiiTel」では90%以上の認識率を示した。一方で、公開文書の読み上げなど、自由発話と異なる比較的、文章構成が整ったデータについては、は他社モデルとの大きな差異はみられなかった。
調査結果例は上図に示す通り、例えば「費用対効果」といったビジネス用語や、フィラー(「えーと」「あのー」といったつなぎ表現)や言い淀みも正しく認識できた点が認識精度の差につながっていることがわかる。
同社取締役 リサーチディレクターの橋本泰一氏は、「ディープラーニングベースの音声認識AIは、自信のない結果は出力しないという傾向があり、一見、誤りを探しづらいという特徴があります。今回の検証から、当社が現在ターゲットとしている『ビジネスコミュニケーション』で、有意義な価値提供ができていると分かりました」と説明した。