論文解説音声認識システムでの精度向上 - ITエンジニアノイのブログ

解説する論文

タイトル: Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

著者: Youyuan Zhang, Sashank Gondala, Thiago Fraga-Silva, Christophe Van Gysel

論文のURL: https://arxiv.org/pdf/2311.01398.pdf

論文発表日: 2022年11月

専門外の人でも分かる解説

この論文は、音声認識システムを搭載した仮想アシスタントにおいて、エンティティを含むクエリの認識精度を向上させる手法について検討しています。オンデバイスで得られた音声認識結果をサーバ側で再スコアリングすることで、ドメイン知識を取り込み認識精度を上げようとしています。NグラムやRNNなど複数の言語モデルを組み合わせることで、クエリの種類に関わらず認識精度が向上することを実験で示しています。

要約

この論文は、仮想アシスタントの音声認識において、エンティティを含むクエリの認識精度を向上させるサーバ側リスコアリング手法を提案する。オンデバイスで認識したNベストリストをサーバ側でドメイン知識を用いて再スコアリングする。Nグラム、RNN、Transformerなどの言語モデルを組み合わせることで補完的な効果が得られ、クエリの種類に関わらず認識精度が向上した。メディアプレイヤーのクエリデータセットを用いた評価実験では、単一の言語モデルによるリスコアリングで最大30%の誤り率削減効果が得られ、複数モデルの組み合わせではさらに30%の改善を達成した。

この論文の新しい点

仮想アシスタントのエンティティ認識向上を目的としたサーバ側リスコアリング手法の提案
Nグラム、RNN、Transformerなど複数の言語モデルを組み合わせることで補完的な効果を得ている点
ドメイン固有のデータで学習したモデルが大規模言語モデルを上回ることを示した点

課題点

リスコアリングの対象がメディアプレイヤーのクエリに限定されている
大規模な商用言語モデルとの比較が不十分
異なるドメインやタスクへの適用可能性が不明確

youtu.be

深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト第2版（EXAMPRESS） [ 一般社団法人日本ディープラーニング協会 ]

価格:3,080円
(2023/8/16 20:42時点)
感想(5件)