Hierarchical Classification of Error Sources in Spoken Dialogue Systems and Its Applications to Generating Guidance for User Utterances

Abstract

1. はじめに 本研究では,音声によるコミュニケーションエラーの 階層性に着目し,適切なヘルプ生成によりユーザ発話を 誘導する対話管理手法の開発を目的としている.これに より,事前教示を与えないユーザに対しても新たな音声 認識誤りを防止し,タスク達成率の向上を狙う. この背景として,音声対話システムにおける,インタ フェースとしてのアフォーダンス [1]の欠如が挙げられる (図 1).つまり音声は,メディアの特性として大量の情 報を一度に出力するのに適さず,またシステムが受理可 能な情報を暗黙に伝えるのも困難であるにもかかわらず, 現状では音声認識誤りが生じた際のユーザへのフィ ドー バックが不十分である.実際,著者らが京都市バス運行 情報案内システム [2]を一般に公開して実ユーザから得 たデータの中には,自分の発話が正しく認識されなかっ た場合にその原因がわからず,発話を適切に修正できな い場合が多く見られた.本研究では,システム側での対 処だけでなく,インタラクション相手であるユーザの発 話にも影響を与えることで,対話を通じた音声認識誤り への包括的な対処を目指す. 本研究では,音声対話システムにおけるコミュニケー ションエラーを大きく 4つの階層として定義し,これら を検出してヘルプメッセージを生成することで,ユーザ 発話をシステムの受理可能な範囲内へと誘導する.Clark は,言語の使用は参加者間の共同行為であり,かつ話 し手及び受け手の行為には 4つのレベル (Conversation, Intention, Signal, Channel)があることを提唱した [3].本 研究では,これに対応させて音声対話システムのエラー を階層的に分類し,それぞれを検出し対処を図る.この 4階層を図 2に示す.従来から扱われる音声認識誤りは, ここでの Signal Levelの誤りに相当する. 本稿では,Conversation Level 及び Intention Levelの エラーの検出を報告する [4, 5].Conversation Level及び Intention Levelのエラーは,ユーザの発話がシステムの 受理できる範囲外であることに起因する(想定外発話). まず想定外表現を含む発話を検出できれば,音声認識誤 りの誤受理が防げる.さらにこの場合,音声認識結果は 信頼できないため,詳しい応答生成に有用な情報を取得 するために,トピック推定や発話検証技術を導入した.

Cite this paper

@inproceedings{Fukubayashi2008HierarchicalCO, title={Hierarchical Classification of Error Sources in Spoken Dialogue Systems and Its Applications to Generating Guidance for User Utterances}, author={Yuichiro Fukubayashi and Satoshi Ikeda and Tetsuya Ogata}, year={2008} }