三輪俊貴の卒業研究への道

履歴

題目:
ディープラーニングを用いた日本語音声合成
目的:
音声をNeural Source Filter (NSF)法で学習させ、滑らかな日本語音声を出力する
動機:
- 音声認識の技術が確立されてきており、機械音声を感じさせない自然な音声であればもっと使いやすくなると思ったため。
- リアルタイムで声を入力とし、自分のなりたい声になるとおもしろいと思ったため
新規性:
- 従来手法であるWaveNet法から生成された音声よりも品質の高い音声を作り出すこと
- NSF法で日本語音声合成を実現し、様々な言葉を出力
予想される困難:
音声生成できた際の評価システムが定まっていない
関連研究:
資料:
1. Xin Wang, Shinji Takaki, Junichi Yamagish (2018) Neural source-filter-based waveform model for statistical parametric speech synthesis. arXiv:1810.11946
道具、準備、学習
- 音源(データベース)は音声資源コンソーシアムを予定
研究計画
1. 春休み期間
  - 音声合成に関する技術について学習
  - 従来手法であるWaveNetについて学習
  - 機械学習における分類手法の復習
2. 春学期
  NSF法について学習
  NSF法を利用し、プログラム作成
3. 秋学期
  システムの評価・まとめ
評価方法:
波及効果: