音声分析合成

音声分析合成（英: Speech analysis/synthesis）は、音声信号を分析して特徴量を得てそれを基に音声信号を再合成する音声処理である^[1]^[2]^[3]。

概要[編集]

音声分析合成は「音声→音響特徴量→音声」という一連の信号処理を指す。すなわち、音声信号を特徴量へ変換する音声分析と特徴量ベースの音声合成を一体として理解した音声処理である。

音声符号化は圧縮・暗号化目的の音声分析合成と見做すことができ、分析はエンコード、特徴量は符号、合成はデコードと対応する。また音声加工では信号の直接加工ではなく音響特徴量の加工がしばしばおこなわれる。加工の影響（例: 歪み、ノイズ）は音響特徴量の特性と合成部の仕様に深く関連しているため、分析-合成を一体のシステムとして理解することに大きなメリットがある。このように音声分析合成は音響信号処理全般の基礎技術として重要である^[4]。

ボコーダー[編集]

音声分析合成システムは総称としてボコーダー（英: vocoder）と呼ばれる。

ボコーダー（vocoder）という語は音声符号化に関する Dudley (1939) の論文で「音声 (voice) を符号化しその符号 (code) から音声を再合成するシステム」という意味で作られた^[5]。「分析による特徴抽出とそれに基づく再合成」という意味でこれは音声分析合成システムであり、現在では音声分析合成システムの総称としてボコーダーという語が広く用いられる^[6]。

例[編集]

様々な音声分析合成システム（ボコーダー）が提唱されている^[7]。以下はその一例である。

表. ボコーダーとその特性
名称	音響特徴量	合成器	原著
チャネルボコーダ	fo・音量・サブバンド強度包絡^[8]		Dudley (1939)
フェーズボコーダ	複素振幅（STFT）	iSTFT
LPCボコーダ	励起信号・LP係数	線形予測（減算合成）
Spectral modeling synthesis^[9] (音響分析合成)	fo・振幅 / スペクトル	調波加算合成 / 雑音減算合成	Serra, Smith (1990)
TANDEM-STRAIGHT^[10]
WORLD^[11]	fo・スペクトル包絡・非周期性指標

手法[編集]

音声分析合成では音声分析・音声合成の様々な手法が採用される。さらに、分析と合成を一体で捉える利点を生かした、音声分析合成特有の様々な技法・枠組みが開発されてきた。以下はその一例である。

合成による分析[編集]

合成による分析（英: Analysis by Synthesis、AbS）は「合成音の評価に基づく特徴量の抽出（=分析）」という音声分析合成の枠組みである。

シンプルな音声分析合成では分析と合成を独立しておこなう。よってある入力に対してどのような特徴量が得られるかは分析器によって一意に定まる。一方 AbS ではまず暫定的な分析をおこない、得られた特徴量に基づいて再合成をおこなう。次にこの合成音の評価をおこない、これに基づいて「特徴量は音声を良く表現しているか」を判定する。もし不十分であれば暫定特徴量を更新（再分析）し、同様の合成-評価をおこなうことで分析がより良くなる。この「分析-合成-評価のループによる分析」という枠組みが AbS である。

AbSは合成器の存在が前提となっており、分析と合成を一体で捉える音声分析合成の特徴を生かした枠組みとなっている。

AbS では1つの特徴量を得るために多数のループを回す必要があるため、分析コストが大きくなるデメリットがある。最も原始的なAbSでは全特徴量候補から総当たりで合成をおこなって最良特徴量が得られるが、これは明らかにコストが大きい。実用されるAbSでは階層的な絞り込みや勾配法など、計算量を抑える様々な工夫がなされている。

AbSを採用した例として音声符号化におけるCELPが挙げられる。

歴史[編集]

音声処理の歴史自体は古く、20世紀以前から多様な音声分析と音声合成の研究が存在した^[12]。

音声の分析と合成を一体として捉える「音声分析合成」の歴史は Dudley (1939) から始まった。この論文では音声を基本周波数・音量・周波数バンド強度比に分割し、必要に応じて操作し、再合成できることを示した。

脚注[編集]

^ "SPEECH has been remade ... by analyzing a talker's speech for the fundamental speech information and then using this information to remake the speech with a synthesizing device" Dudley. (1939). Remaking Speech.
^ "音声分析合成は ... 音声を何等かの音声パラメータに分解し，音声パラメータ群から波形を生成する仕組みとして定義される。" 森勢. (2019). 話声の合成における基盤技術 —音声分析合成技術—. 日本音響学会誌, 75巻, 7号, pp. 387-392.
^ "音声波形の分析により特徴パラメータを抽出し、これを基に再び音声波形を合成する技術（音声分析合成方式）" 発見と発明の日本デジタル博物館. 音声分析合成方式の研究. 卓越研究データベース, 登録番号948. 日本学術振興会. 2022-11-28閲覧.
^ "音声分析合成技術は，様々な研究領域を支える基盤技術としての役割を担う。" 森勢. (2019). 話声の合成における基盤技術 —音声分析合成技術—. 日本音響学会誌, 75巻, 7号, pp. 387-392.
^ "The apparatus used has been called a 'vocoder' because it operates on the principle of coding the voice and then reconstructing the voice in accordance with this code." Dudley. (1939). Remaking speech. J. Acoust. Soc. Am., vol.11, no.2, pp.169-177.
^ "音声分合成系の近代化 ... Dudley に端を発する Vocoder 技術" 板倉. (2006). 音声分析合成の基礎技術とその音声符号化への応用. フェロー＆マスターズ未来技術研究会資料, FM06-2-1. 電子情報通信学会.
^ "such conventional high-quality vocoders as STRAIGHT ... and WORLD" Tachibana, et al. (2018). An Investigation of Noise Shaping with Perceptual Weighting for Wavenet-Based Speech Generation. doi: 10.1109/ICASSP.2018.8461332
^ "In the synthesizer two streams of sound are employed ... first sound streams ... by three properties: ... determined by fundamental frequency of vibration; ... determined by the total sound power; ... determined by the relative amount of sound power in various fixed frequency bands ... second sound stream ... by three properties: ... random frequency components with no true pitch ... determined by total sound power ... determined by the relative power in fixed frequency bands."
^ Xavier Serra; Julius O. Smith III (1990), “Spectral Modeling Synthesis: A Sound Analysis/Synthesis System Based on a Deterministic Plus Stochastic Decomposition” (英語), Computer Music Journal 14 (4), doi:10.2307/3680788, JSTOR 3680788
^ "TANDEM-STRAIGHTは ... 音声分析合成システムです．" STRAIGHT Library. (2013). STRAIGHT Library - Introduction. 山梨大学.
^ "WORLDは，Vocoderのアイディアを発展させた音声分析変換合成システムです" Morise. (2013). WORLD. 山梨大学.
^ "speech analysis ... speech synthesis ... these have separately been subjects of study by many workers in a wide variety of fields" Dudley. (1939). Remaking Speech.