多様な音声合成

アップル社のSiri,NTTドコモのiコンシェルなどのバーチャルエージェントや,ソフトバンクのPepper などの人間型ロボットでは,ユーザと音声でコミュニケーションをとります.アシスタントのように様々な情報を伝えてくれるのでとても便利です.しかし,そのしゃべり方はどうでしょう?無味乾燥な印象ではないでしょうか?コンピュータにしゃべらせる技術を音声合成と言います.現状では,ニュース文などを音声に変換して,情報を得るには十分な品質を達成できています.しかし,状況にあったしゃべり方や,感情移入したしゃべり方は実現できていません.音声の優れた点が欠落していると言えるでしょう.我々は,より人間に近い多様なしゃべりの実現を目指して研究しています.
  • Tadashi Inai, Sunao Hara, Masanobu Abe, Yusuke Ijima, Noboru Miyazaki and Hideyuki Mizuno, “A Sub-Band Text-to-Speech by Combining Sample-Based Spectrum with Statistically Generated Spectrum,” Interspeech 2015, pp. 264–268, Dresden, Germany, Sept. 2015.
  • 稻井禎,原直,阿部匡伸,井島勇祐,宮崎昇,水野秀之,“高域部への素片スペクトルとHMM生成スペクトルの導入によるHMM合成音声の品質改善の検討,” 2015年日本音響学会春季研究発表会, pp.383–384, 2-Q-36, March 2015
  • 最終更新: 2019/01/22 17:03