音声合成

音声合成(おんせいごうせい、: speech synthesis)とは、人間音声を人工的に作り出すことである。音声情報処理の一分野。音声合成器により合成された音声を合成音声(ごうせいおんせい)と呼ぶ。典型的にはテキスト(文章)を音声に変換できることから、しばしばテキスト音声合成またはText-To-Speech (TTS)とも呼ばれる。なお、歌声を合成するものは特に歌声合成と呼ばれる。また、音声を別の個人あるいはキャラクターの音声に変換する手法は声質変換と呼ばれる。

歴史

現代的な信号処理手法が発明されるずっと以前から、西アフリカトーキングドラム等のように音声を模倣する試みがなされてきた。

1779年には、クリスティアン・クラッツェンシュタインにより母音を発声できる機械が製作された[1]。この流れはふいごを使った機械式音声合成器を作ったヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文[2]を発表し、その機械について説明している。この機械はをモデル化しており、母音だけでなく子音も発音できた。1837年チャールズ・ホイートストンがフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年には、M. FaberがEuphoniaを製作した。ホイートストンの機械は、1923年にPagetが再現している[3]

1930年代、ベル研究所のホーマー・ダドリー(Homer Dudley)は通信用の電子式音声分析・音声合成器であるボコーダー(vocoder、voice coderの略)を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型の音声合成器であるvoderを製作し、ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる。1940年代には、ハスキンズ研究所のフランクリン・S・クーパー(Franklin S. Cooper)らがPattern playbackという機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン(Alvin Liberman)らは、これを音声学の研究に利用した。

コンピュータを使った最初の音声合成器は1950年代終盤に開発され、最初のテキスト音声合成器は1968年に開発された。1961年、物理学者のJohn Larry Kelly, Jr.とLouis Gerstmen[4]は、ベル研究所IBM 704を使った音声合成を行った。そしてデイジー・ベルという歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていたアーサー・C・クラークはこのデモを聴いて感銘を受け、2001年宇宙の旅HAL 9000が歌うクライマックスシーンが生まれた[5]

1999年には、東京工業大学のチームにより統計的な生成モデルを用いた音声合成の先駆けである隠れマルコフモデル音声合成が提案された。2013年にはGoogleのチームにより深層学習(ディープラーニング)に基づいた音声合成が提案され、2017年にはテキスト処理部が不要なend-to-endテキスト音声合成が提案された。

用途

音声合成は様々なサービスで利用されている。例えば、コールセンターの自動応答、ATM複合機などの電子機器、工場などでの構内放送、防災無線[6]バスターミナル空港などでの車内放送や案内放送[7]カーナビゲーション電子辞書[8]家電[9]スマートフォンスマートスピーカーなどのアプリケーション[10]や音声アシスタント[11][12][13][14][15]エンターテインメントロボット[16][17]アニメ[18]テレビ番組[19][20]コミュニティ放送[21]ハイウェイラジオ[22]などの放送分野、電子書籍の読み上げ[23]などである。そのほか、音声合成は視覚障害者あるいは読字障害(ディスレクシア)者などのためにスクリーンリーダーとして使用されている。また、病気やその治療などのために発声または音声発話が困難な人が、自分の声の代わりに使用することもある[24][25]

理論

音声合成の中でもテキスト音声合成は、テキスト(文章)を音声に変換するものであるが、この変換は以下のような問題と捉えることができる[26][27]

テキストとそれに対応する音声波形の組があるとき、任意に与えられたテキストに対応する音声波形を求めよ。

この問題の解き方としては様々なものが考えられるが、現在よく用いられる手法である統計的手法では、大規模な音声データベースコーパス)に基づいて、この問題を確率的な枠組みで解いている。また、同一話者が同じ文を何回か読み上げたときに、全く同一の波形が得られることは極めて稀である。このような音声生成過程および音声信号の非決定的な性質を扱うためにも、確率的な枠組みは有効である。この枠組みでは、音声データベース(コーパス)に存在するテキストおよび音声波形をそれぞれおよび、与えられた任意のテキストを、合成すべき音声をとしたとき、の予測分布から推定し、この予測分布からをランダムサンプリングすればよいことになる[28]。 しかし、予測分布を計算することは困難であるため、実際には補助変数と近似を導入して、いくつかの副問題に分解する。すなわち、音声信号の性質を表す音響特徴量を(データベース)および(合成)、テキストの性質を表す言語特徴量を(データベース)および(任意に与えられたテキスト)、言語特徴量が与えられた際の音響特徴量の生起確率を表現するパラメトリックな音響モデルをとしたとき、予測分布は以下のように分解できる。

あとは補助変数について周辺化を行えばよいが、これを補助変数の同時確率を最大化する点で近似すると、予測分布は以下のように近似できる。

ただし、

である。

しかし、同時確率の最大化もなお困難であるため、さらに逐次最適化で近似すると、以下の6つの副問題をそれぞれ最適化することになる。すなわち、音響特徴量の抽出)、言語特徴量の抽出)、音響モデルの学習)、言語特徴量の予測)、音響特徴量の予測)、音声波形の生成)を、それぞれ最適化する。ただし、近年ではこれらの副問題を統合して最適化する手法も提案されている。

手法

音声合成の手法は、主に3つに分けることができる。

規則合成
音声生成に関する知識を元に定めた規則に基づいて音声を合成
波形接続型音声合成
録音された音声の素片を連結して合成
統計的パラメトリック音声合成
統計的に学習したパラメトリックな生成モデルの出力を元に音声を合成

それぞれの手法は特徴をもっており、利用目的に合わせて手法が選択される。特徴は音質、計算量、リアルタイム性など様々である。

規則合成[29]

研究を通じて得られた音声生成に関する知識を元に規則を定め、その規則に基づいて音声を生成する。歴史的には比較的古く、現在では用いられることは稀である。

例えば以下のようなものがある。

フォルマント音声合成

スペクトルや基本周波数などのパラメータを調整して音声を合成する。音の欠損がなく高速に発声させても明瞭に聞き取れる、統計的手法のような音声データベースを必要としないために合成器のサイズが小さくなる、イントネーションや音色を(規則の範囲内で)自由に変えることができるなどの特徴がある。一方で、合成された音声はロボット的なものであり、人間の音声らしさは乏しい。

かつては組み込みシステムでよく使われた。例えば、1970年代末にテキサス・インスツルメンツが発売した玩具・Speak & Spell、セガ1980年代に開発したいくつかのアーケードゲーム(Astro Blaster、Space Fury、Star Trek: Strategic Operations Simulatorなど)がある。

調音音声合成

人間の声道の構造をモデル化して、それを元に音声を合成する。商用でも使われた例があり、NeXTで使われていたシステムは、カルガリー大学の研究チームがスピンオフして作ったTrillium Sound Research Inc.が開発したものである。Trilliumはこれをフリーなgnuspeechとして公開しており、GNU savannah siteで入手可能である。

波形接続型音声合成

録音された音声の素片を連結して合成する。録音された音声の素片を利用するため、入力テキストに近いものが録音された音声中にあれば肉声に近く自然な合成音声になるが、そうでなければ接続部分などで自然性を損なうことがある。また、発話速度や声の高さを多少調整することはできるものの、それ以外の音声の柔軟な加工は原理的に困難である。あまり変化の激しい音声の合成は技術的に困難であり、そのため話し方はニュートラルなものがほとんどである。

例えば以下のようなものがある。

単位選択型音声合成[30][31]

コーパスベース音声合成とも呼ばれるが、生成モデル型音声合成でもモデルの学習にコーパスを使用する。データベースの作成では、音声を録音し、その録音した音声に対して、文・フレーズ・アクセント句・形態素音素・アクセントなどを表すラベルを付与するとともに、音声認識や人手での調整により、ラベルと音声区間の対応を取る。音声を合成する際には一般に、まず入力テキストをテキスト解析器により解析し、そのテキストの文・フレーズ・アクセント句・形態素・音素・アクセントなどの情報(言語特徴量)を得る。次いで、得られた言語特徴量から基本周波数や音素継続長などを予測し、それに最も合致する(ターゲットコスト)音声素片を、接続部分の滑らかさ(接続コスト)も考慮しつつ、データベース中から選んで接続する。これにより、肉声に近く自然な音声を合成することを可能としている。しかし、あらゆる入力テキストに対してより自然に聞こえる音声を合成するには、想定される入力テキストに応じて録音する音声を増やす必要があり、その分データベースが巨大になる。波形接続型音声合成では合成器が音声素片を保持しておく必要があるため、容量の小さな補助記憶装置しか持たないシステムではこれが問題になることがある。

ダイフォン音声合成

音声データベースに目的言語のダイフォン(diphone、音素のペア)を保持し、それを使用して合成する。ダイフォンの個数はその言語の音素配列論により決まる(例えば、スペイン語なら約800、ドイツ語なら約2,500のダイフォンを持つ)。ダイフォン音声合成では、データベースは1つのダイフォンにつき1つの音声素片を保持しておけばよいので、データベースの大きさが単位選択合成と比較して圧倒的に小さくて済む。音声を合成する際には、ダイフォンを並べたものに線形予測分析法(PSOLA、MBROLAなど)のようなデジタル信号処理を施して韻律を作る。合成された音声は、単位選択型音声合成と比べて音質が劣る。単位選択型音声合成の発展などのため、近年では使われることが少ない。

分野限定音声合成

録音された単語や文節を連結して音声を合成する。これは特定分野のテキスト読み上げ、例えば駅の案内放送などで用いられる。この方式は分野を限定しているので、自然に聞こえる音声を合成するのは簡単である。しかし、どのような入力テキストでも合成できるわけではなく、特定の合成器を別の分野で使用するのは極めて困難である。データベースが保持している単語や文節しか合成できないため、入力テキストはそれらによって限定される。新しい入力テキストに対応する場合(例えば、新駅が設置された場合など)は、追加の録音を行う必要がある。また、フランス語におけるリエゾンなど、前後の単語などとの関係で発音が変わるのを再現するのは難しい。この場合、文脈を考慮して録音および合成を行う必要がある。

統計的パラメトリック音声合成

録音された音声から音声の特徴を学習したパラメトリックな生成モデルを作り、その生成モデルの出力を元に音声を合成する。生成モデルから人工的に音声波形を生成するために従来は肉声感に劣っていたが、2013年以降、深層学習(ディープラーニング)を利用することにより急速な改善が見られている。波形接続型音声合成では条件次第で合成された音声の滑らかさに問題が生じうるが、統計的音声合成では基本的には常に滑らかな音声を合成することが可能である。また、手法によっては例えばAさんの声とBさんの声の中間の声を合成するなど、音声を柔軟に加工することが可能である。また、比較的変化の激しい音声も合成可能であり、ニュートラルな話し方だけでなく、感情を込めた話し方など多様な表現が可能である。

主な手法は以下のとおり。

隠れマルコフモデル音声合成

隠れマルコフモデル (Hidden Markov Model; HMM) を生成モデルに用いた音声合成。統計的パラメトリック音声合成の先駆けであり、東京工業大学のチームによって1999年に提案された[32]。比較的少数のパラメータで音声の特徴を表現でき、モデルの大きさや、モデルの学習および音声の合成に要する計算コストは比較的小さい。携帯電話(フィーチャー・フォン)や電子手帳など、ハードウェアの制約が比較的大きい端末でも十分に動作が可能である。また、必要な録音時間も(商用の)単位選択型音声合成に比べて一般に短くて済む。隠れマルコフモデルは音声波形そのものを出力するのではなく、メル周波数ケプストラム係数 (Mel Frequency Cepstral Coefficients; MFCC) や線スペクトル対 (Linear Spectral Pairs: LSP) といった音声のスペクトルを表現する特徴量、および基本周波数などの特徴量系列を出力し、それをボコーダーによって音声波形に変換する。統計モデルの単純さからスペクトルが人間の音声と比べて平滑なものになりがちであり、このため合成された音声は肉声感に乏しい。また、基本周波数の軌跡も単純なものになりがちである。

ニューラルネットワーク音声合成

ニューラルネットワーク音声合成はニューラルネットワークを音声合成モデルに利用した音声合成である。言語特徴量から音響特徴量への(決定論的な)非線形変換をニューラルネットワークでモデル化する、言語特徴量で条件付けられる音声波形確率分布(生成モデル)自体をニューラルネットワークでモデル化する等の方法がある。

Googleのチームから2013年に最初の論文が発表された[33]。ニューラルネットワークモデルは隠れマルコフモデルに比べて表現力が高く、より自然な音声合成が可能である。一方、モデルのパラメータ数、学習・音声合成計算コストは大きい。そのため実用段階ではサーバにおける合成が行われていたり、非GPU環境(一部のスマートフォンなど)での動作を可能にするための様々な研究が行われている。

隠れマルコフモデル音声合成と同様、ニューラルネットワークモデルは音響特徴量を出力する。さらにWaveNet(Google, 2016)[34]をきっかけとして音声波形を直接モデル化・出力する手法が登場した。これら波形生成モデルは限られた条件下では人間の音声に極めて近い(あるいは同等の)品質の音声を合成できる。WaveNetの登場と商用化を背景に、同等の声質をより速く、軽く、シンプルなモデルで実現するための様々な研究が行われてる(WaveNet Vocoder[35]、Clarinet[36]、WaveGlow[37]、WaveRNN[38]、RNN_MS[39]など)。

また従来はモデル入力に(入力テキストをテキスト解析器によって解析した)言語特徴量が用いられていた。2017年には言語特徴量(テキスト解析器)を不要としたChar2Wav[40]、Deep Voice[41]、Tacotron[42]などのいわゆるend-to-end音声合成が提案され、活発な研究開発が行われている。

表. ニューラルTTS
モデル名 入力 出力 モデル 出典
Tacotron 2 テキスト メルスペクトログラム Autoregressive arxiv
FastSpeech 2 音素 メルスペクトログラム Transformer[43] arxiv
FastSpeech 2s 音素 波形 Transformer[43] arxiv

このように、設計された言語・音響特徴量を用いたパラメトリックな音声合成(統計的パラメトリック音声合成)は、特徴量によらない波形生成すなわち統計的音声波形合成(statistical speech waveform synthesis / SSWS)へと範囲を広げつつある[44]

分類

音声合成はいくつかの観点から分類できる。

生成元

  • テキスト: テキスト音声合成text-to-speech
  • 音声: 音声変換Voice Conversion
    • 歌声: 歌声変換(Singing Voice Conversion)
  • 脳活動: Brain-Machine Interfaceの一種[45]
  • (音響特徴量: ボコーダー。しばしばテキスト音声合成や音声変換に組み込まれる)

課題

テキストの読み方の正しい推定

テキスト音声合成においては、入力されたテキスト(文章)の読み方を正しく推定することが必要である。一般には規則・辞書・統計的手法などを組み合わせて行う。しかし、これには様々な困難がある。例えば日本語では、漢字の音読み・訓読みの区別(あるいはそれぞれが複数ある場合にどの読み方か推定する)、同形異音語の区別、アクセントの推定、人名地名の読み方の推定などを正しく行うには困難が伴う。

品質の客観評価

音声合成の品質のうち、合成音声の自然性を客観的に評価するのは困難である。専門家の間で共通して有効であると認識されているような客観指標は存在しない。目的話者との類似性や、目的の発話スタイルの再現性などについても同様である。

性能の公平な比較

音声合成の手法は研究者によってそれぞれ独自のデータセットを用いてモデル学習を行い、かつ独自の課題により評価することが少なくなく、性能を公平に比較することが困難な場合がある。そこで、音声に関する国際学会であるInternational Speech Communication Association (ISCA) のSpeech Synthesis Special Interest Group (SynSIG) では、2005年より毎年Blizzard Challenge[46]という競技会を行っている。この競技会では、共通のデータセットを学習に用いた音声合成システムを、共通の課題により評価することで、性能の公平な比較を可能としている。

なお、特に商用の音声合成システムではその目的に応じたデータセットを用いることでその目的に特化した性能向上を図ることがあり、これは各社のノウハウとなっている。

音声合成システム

クラウドコンピューティング

様々な音声合成がクラウドコンピューティングを通じて利用可能であり、多数のAPIが提供されている。

オペレーティングシステム

現代では、様々なパーソナルコンピュータ向けあるいはスマートフォン向けなどのオペレーティングシステムに音声合成機能が搭載されている。

Mac OSmacOS

1984年、アップルはMacintoshに音声合成機能MacInTalkを追加した。また、音声認識も導入しており、これらの機能を統合したPlainTalkは視覚障害者のためのサポートプログラムであった。Mac OS X v10.4以降にはVoiceOverという音声合成機能が搭載されている。また、音声アシスタントのSiriでも音声合成が使用されている。

iOS

Siriで音声合成が使用されているほか、テキスト読み上げ機能がある。

Microsoft Windows

SAPIという音声関係のAPIを用意していた。Windows XPにはNarratorという音声合成プログラムが追加された。現在は、音声アシスタントのCortanaで音声合成が使用されているほか、スクリーンリーダーが搭載されている。

Android

音声アシスタントのGoogleアシスタントで音声合成が使用されているほか、テキスト読み上げ機能がある。Googleの提供するテキスト読み上げ機能の音声は、一部の言語でGPUを持たないスマートフォン上でも深層学習に基づく音声合成を行っている。また、Googleアシスタントの音声には、一部の言語でWaveNetが使用されている。

その他

  • TI-99/4Aには音声合成機能をオプションで追加可能であった[47]
  • PC-6001は音声合成カートリッジが追加でき、PC-6001mkIIには音声合成機能が内蔵されていた。後継のPC-6001mkIISRやPC-6601では歌うことも可能であった。
  • FM-7/FM-77シリーズには音声合成ボード (MB22437/FM-77-431) がオプションとして用意されていた。
  • MZ-1500/2500/2861にはオプションとしてボイスボード (MZ-1M08) が存在した。五十音と、いくつかのフレーズを外部チップにサンプリングされROMとして焼きこまれており、制御によって再生するものである。

オープンソースソフトウェア

  • Festival Speech Synthesis System
  • gnuspeech
  • HMM-based Speech Synthesis System (HTS)
  • Open JTalk(HTSに基づいたシステム)
  • MaryTTS

学術雑誌・学会

音声合成の研究について議論されている学術雑誌学会には、以下のようなものがある(太字は一部または全部の論文について査読を行っているもの)。

学術雑誌

  • European Association for Signal Processing (EURASIP)
    • Speech Communication(ISCAと合同)
  • IEEE
    • IEEE Transaction on Information and Systems
    • IEEE Transaction on Signal Processing
  • International Speech Communication Association (ISCA)
    • Computer Speech and Language
    • Speech Communication(EURASIPと合同)
  • シュプリンガー・サイエンス・アンド・ビジネス・メディア
    • International Journal of Speech Technology

国際学会

  • Asia Pacific Signal and Information Processing Association (APSIPA)
    • APSIPA Annual Summit Conference (APSIPA ASC)
  • IEEE
    • International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
    • Spoken Language Technology (SLP)
  • International Speech Communication Association (ISCA)
    • INTERSPEECH
    • Speech Prosody
    • Speech Synthesis Workshop (SSW)

日本国内の学会(日本語で議論が可能)

  • 日本音響学会
    • 音声研究会(SP。電子情報通信学会と合同)
    • 日本音響学会研究発表会
  • 電子情報通信学会
    • 音声研究会(SP。日本音響学会と合同)
  • 情報処理学会
    • 音声言語情報処理研究会 (SLP)

研究団体

音声合成の研究を行っている団体には以下のようなものがある。

大学(日本国内)

  • 宇都宮大学
    • 大学院工学研究科 システム創生工学専攻 森研究室
  • 京都大学
    • 大学院情報学研究科 知能情報学専攻 河原研究室
  • 熊本大学
    • 大学院自然科学教育部 情報電気工学専攻 緒方研究室
  • 神戸大学
    • 大学院システム情報学研究科 情報科学専攻 滝口研究室
  • 総合研究大学院大学国立情報学研究所の教員が指導)
    • 国立情報学研究所 コンテンツ科学研究系 山岸研究室
  • 東京大学
    • 大学院工学系研究科 技術経営戦略学専攻 松尾研究室
    • 大学院工学系研究科 電気系工学専攻 峯松・齋藤研究室
    • 大学院情報理工学系研究科 システム情報学専攻 システム情報第1研究室(猿渡・小山研究室)
  • 東京工業大学
    • 工学院 情報通信系 小林研究室
  • 東北大学
    • 大学院工学研究科 通信工学専攻 伊藤・能勢研究室
  • 名古屋工業大学
    • 大学院工学研究科 情報工学専攻 徳田・南角研究室
  • 名古屋大学
    • 大学院情報学研究科 知能システム学専攻 武田研究室
    • 大学院情報学研究科 知能システム学専攻 戸田研究室
  • 奈良先端科学技術大学院大学
    • 先端科学技術研究科 情報科学領域 知能コミュニケーション研究室
  • 山梨大学
    • 大学院総合研究部 森勢将雅
  • 立命館大学
    • 立命館大学 情報理工学部 メディア情報学科 山下研究室

公的研究機関(日本国内)

企業

その他

音声合成マークアップ言語 (Speech Synthesis Markup Language; SSML)

音声合成においてテキスト解析を100%正しく行うことは困難である。また、テキストからは解釈できない、特定の読み方をさせたいこともある。そこで何らかの方法により情報を指定する必要があるが、ドメイン固有言語により行う方法のほか、W3Cにより定義された音声合成マークアップ言語 (Speech Synthesis Markup Language; SSML) により行う方法がある。

脚注

注釈

    出典

    1. History and Development of Speech Synthesis (Helsinki University of Technology) - 英語
    2. Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine(音声の仕組みとしゃべる機械の解説)
    3. Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.
    4. http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事(NYタイムス)
    5. Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
    6. 防災無線が機械音声に 11月1日から本格開始 | 厚木 | タウンニュース」『タウンニュース』、2016年11月11日。2018年11月28日閲覧。
    7. “阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も” (日本語). CNET Japan. (2018年5月24日). https://japan.cnet.com/article/35119705/ 2018年11月28日閲覧。
    8. エクスワードに搭載された快適機能 - 電子辞書 - CASIO”. arch.casio.jp. 2018年11月28日閲覧。
    9. 音声対話 (日本語). AX-XW400 | ウォーターオーブン ヘルシオ:シャープ. 2018年11月28日閲覧。
    10. 音声ニュース配信 朝日新聞アルキキ (日本語). www.asahi.com. 2018年11月28日閲覧。
    11. Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple (英語). Apple Machine Learning Journal. 2018年11月28日閲覧。
    12. WaveNet launches in the Google Assistant | DeepMind”. DeepMind. 2018年11月28日閲覧。
    13. 5/30サービス開始!NTTドコモの新しいAIエージェント 「my daiz」にエーアイの音声合成AITalkが採用 株式会社AI(エーアイ) (日本語). 株式会社 エーアイ(AI). 2018年11月28日閲覧。
    14. エモパー|機能・サービス|AQUOS ZETA SH-01G|製品ラインアップ|AQUOS:シャープ (日本語). シャープ スマートフォン・携帯電話 AQUOS公式サイト. 2018年11月28日閲覧。
    15. “Amazon PollyでAlexaの音声をカスタマイズしよう” (英語). https://developer.amazon.com/blogs/alexa/post/0e88bf72-ac90-45f1-863b-32ca8e2ae197/amazon-polly-voices-in-alexa-jp 2018年11月28日閲覧。
    16. ロボホン (日本語). robohon.com. 2018年11月28日閲覧。
    17. CORPORATION., TOYOTA MOTOR. トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト (日本語). トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト. 2018年11月28日閲覧。
    18. テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート | ロボスタ - ロボット情報WEBマガジン」『ロボスタ』。2018年11月28日閲覧。
    19. VoiceTextホーム | HOYA音声合成ソフトウェア (日本語). HOYA音声合成ソフトウェア「VoiceText」. 2018年11月28日閲覧。
    20. NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん」『ITmedia NEWS』。2018年11月28日閲覧。
    21. “AIアナウンサー”がラジオ放送 Amazonの音声合成技術で」『ITmedia NEWS』。2018年11月28日閲覧。
    22. ハイウェイラジオのヒミツ 情報の早さ、エリアの細かさ、その仕組みは? | 乗りものニュース」『乗りものニュース』。2018年11月28日閲覧。
    23. Amazon.co.jp ヘルプ: 読み上げ機能を使用する”. www.amazon.co.jp. 2018年11月28日閲覧。
    24. “Remembering Stephen Hawking’s iconic synthesized voice” (英語). What’s next. (2018年3月19日). https://whatsnext.nuance.com/in-the-labs/stephen-hawking-famous-text-to-speech-voice/ 2018年11月28日閲覧。
    25. 受け入れ態勢は? 「筆談ホステス」当選の北区議会に聞いた|日刊ゲンダイDIGITAL (日本語). 日刊ゲンダイDIGITAL. 2018年11月28日閲覧。
    26. 徳田, 恵一 (2015). “統計的音声合成技術の現在・過去・未来”. 音声言語シンポジウム IEICE-115 (346). ISSN 0913-5685.
    27. 徳田, 恵一 (2017). “風雲急を告げる音声合成研究の最新動向”. 情報・システムソサイエティ誌 (電子情報通信学会) 21 (4): 10–11. doi:10.1587/ieiceissjournal.21.4_10. ISSN 2189-9797. NAID 130005312792.
    28. 全, 炳河 (2018). “テキスト音声合成技術の変遷と最先端”. 日本音響学会誌 74 (7): 387–393.
    29. Klatt, Dennis H. (1980). “Real‐time speech synthesis by rule”. The Journal of the Acoustical Society of America 68: S18.
    30. Andrew J., Hunt; Black, Alan W. (1996). “Unit selection in a concatenative speech synthesis system using a large speech database” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 373–376. doi:10.1109/ICASSP.1996.541110. ISBN 0-7803-3192-3. ISSN 1520-6149.
    31. 河井, ; 戸田, 智基; 山岸, 順一; 平井, 俊男; 倪, 晋富; 西澤, 信行; 津崎, ; 徳田, 恵一 (2006). “大規模コーパスを用いた音声合成システムXIMERA”. 電子情報通信学会論文誌 J89-D (12): 2688–2698. ISSN 18804535. NAID 110007380404.
    32. Masuko, Takashi; Keiichi, Tokuda; Takao, Kobayashi; Satoshi, Imai (1999-05-09). “Speech synthesis using HMMs with dynamic features” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 389–392. doi:10.1109/ICASSP.1996.541114. ISBN 0-7803-3192-3. ISSN 1520-6149.
    33. Zen, Heiga; Senior, Andrew; Schuster, Mike (2013-05-26). “Statistical parametric speech synthesis using deep neural networks” (English). 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE): 7962–7966. ISBN 978-1-4799-0356-6. ISSN 1520-6149.
    34. van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (2016-09-12). “WaveNet: A Generative Model for Raw Audio” (English). arXiv. arXiv:1609.03499.
    35. J. Shen, R. Pang, R. J. Weiss, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv preprint arXiv:1712.05884, 2017.
    36. W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018
    37. R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flowbased generative network for speech synthesis,” arXiv preprint arXiv:1811.00002, 2018
    38. N. Kalchbrenner, E. Elsen, K. Simonyan, et al., “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.
    39. Jaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal (2019) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING. Interspeech 2019
    40. Sotelo, Jose; Mehri, Soroush; Kumar, Kundan; Santos, Joao Felipe; Kastner, Kyle; Courville, Aaron; Bengio, Yoshua (2017-02-18). “Char2Wav: End-to-End Speech Synthesis” (English). ICLR 2017 workshop submission.
    41. Arik, Sercan O.; Chrzanowski, Mike; Coates, Adam; Diamos, Gregory; Gibiansky, Andrew; Kang, Yongguo; Li, Xian; Miller, John et al. (2017-02-25). “Deep Voice: Real-time Neural Text-to-Speech” (English). arXiv. arXiv:1702.07825.
    42. Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying et al. (2017-03-29). “Tacotron: Towards End-to-End Speech Synthesis” (English). arXiv. arXiv:1703.10135.
    43. We use the feed-forward Transformer block, …, as the basic structure for the encoder and mel-spectrogram decoder. arxiv
    44. Jaime (2018) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING https://arxiv.org/abs/1811.06292
    45. Gopala K. Anumanchipalli, et al.. (2019) Speech synthesis from neural decoding of spoken sentences [paper]
    46. Blizzard Challenge 2018 - SynSIG (英語). www.synsig.org. 2018年11月30日閲覧。
    47. Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002

    関連項目

    外部リンク

    This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.