解説する論文
タイトル: Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants
著者: Youyuan Zhang, Sashank Gondala, Thiago Fraga-Silva, Christophe Van Gysel
論文のURL: https://arxiv.org/pdf/2311.01398.pdf
論文発表日: 2022年11月
専門外の人でも分かる解説
この論文は、音声認識システムを搭載した仮想アシスタントにおいて、エンティティを含むクエリの認識精度を向上させる手法について検討しています。オンデバイスで得られた音声認識結果をサーバ側で再スコアリングすることで、ドメイン知識を取り込み認識精度を上げようとしています。NグラムやRNNなど複数の言語モデルを組み合わせることで、クエリの種類に関わらず認識精度が向上することを実験で示しています。
要約
この論文は、仮想アシスタントの音声認識において、エンティティを含むクエリの認識精度を向上させるサーバ側リスコアリング手法を提案する。オンデバイスで認識したNベストリストをサーバ側でドメイン知識を用いて再スコアリングする。Nグラム、RNN、Transformerなどの言語モデルを組み合わせることで補完的な効果が得られ、クエリの種類に関わらず認識精度が向上した。メディアプレイヤーのクエリデータセットを用いた評価実験では、単一の言語モデルによるリスコアリングで最大30%の誤り率削減効果が得られ、複数モデルの組み合わせではさらに30%の改善を達成した。
この論文の新しい点
- 仮想アシスタントのエンティティ認識向上を目的としたサーバ側リスコアリング手法の提案
- Nグラム、RNN、Transformerなど複数の言語モデルを組み合わせることで補完的な効果を得ている点
- ドメイン固有のデータで学習したモデルが大規模言語モデルを上回ることを示した点
課題点
深層学習教科書 ディープラーニング G検定(ジェネラリスト)公式テキスト 第2版 (EXAMPRESS) [ 一般社団法人日本ディープラーニング協会 ] 価格:3,080円 |