Statistical sequence-to-frame mapping techniques for voice conversion

Abstract

あらまし 話者変換の目的はある話者の声を別の話者の声に変換することである。これは二つの話者区間において音 声時系列のマッピング関数を求めることとして考えられる。GMMを用いた統計的マッピング方法 [1], [2]は話者変換 のタスクにおいてよく使われている。ただし、GMMを用いた変換技術はフレームからフレームへのマッピング関数を 使用しているので、音声時系列のコンテキスト情報が十分には使われていない。HMMは音声時系列の有効なモデル であり、音声認識や音声合成においてよく使われている。本研究は HMMを用いた音声変換を研究対象とする。我々 は HMMを用いた回帰、シーケンスからフレームの変換関数を導出した。先行の HMMを用いた音声変換方法 [3]~ [5]は強制切り出し (forced alignment)によって音声を分割し、各区間に対して変換を行う。それらの方法と異なって, 我々の変換関数は線形変換の重みつけの和として導出される。重みは各フレームの HMM事後確率である。変換パラ メータを推定するために、我々は最小2乗誤差基準及びと最大尤度基準を提案した。実験結果は提案手法の有効性を 示した。 キーワード 音声変換、線形回帰、シーケンスからフレームへ変換、HMM,

Cite this paper

@inproceedings{Qiao2009StatisticalSM, title={Statistical sequence-to-frame mapping techniques for voice conversion}, author={Yu Qiao and Daisuke Saito and Nobuaki Minematsu}, year={2009} }