ソース・フィルタモデル

ソース・フィルタモデル
ソース:  声門   (声帯)
フィルタ: 声道   (鼻腔, 口腔)
        放射特性 (唇)
[ソース]→[声道フィルタ]→[唇(放射)]→[出力]

ソース・フィルタモデル: Source-filter model)は人の声道で声が生成される過程音源と線形フィルタで表現した数理モデルである。音源フィルタモデル[1]音源フィルタ理論: Source-filter theory[2] とも呼ばれる。

概要

人の声道で声が生成される過程ではまず声門などで原音がつくられる。この原音が声道や口唇における調音を受けて音色が付与され、最終的な声となる。

これを信号処理の観点からみると、声道とは独立した原音すなわちソース(音源)があり、これがフィルタによる周波数成分増減を受けているとモデル化できる。このソースとフィルタによる音声合成過程モデルがソース・フィルタモデルである。

ソース・フィルタモデルは音声合成音声分析に使用される。このモデルは「ソースとフィルタの独立性」を仮定しており、この仮定を強調するならば「独立ソース・フィルタモデル」(independent source-filter model)[3]と呼ぶべきである。

このモデルは比較的シンプルで応用例が多数ある。程度の差こそあれ、異なる音素はその音源とスペクトル形状の特性によって区別できる。発声された音 (例: 母音) は、(少なくとも) 一つの音源 —— (たいていは) 声門の周期的励起 —— を持ち、それは時間領域ではインパルス列、周波数領域ではハーモニクスとして近似でき、また舌の位置や唇の突き出し具合に依存したフィルタ (調音) を持つ。他方、摩擦音は (少なくとも) 一つの音源を持つ —— 口腔を狭める事 (constriction) で生成される乱流騒音 (例: 正書法 (orthographically) で"s"や"f"で表現される音) である。有声摩擦音 ("z"や"v") は二つの音源を持つ —— 一つは声門で、もう一つは声門上部のくびれである。

ソース・フィルタモデルは線形予測 (linear prediction) と関連している。モデルの開発は、その大部分が Gunnar Fant(英語版) の初期の研究に拠っている —— もちろん他の人々、特に Ken Stevens(英語版) も音声の音響分析や音声合成の基礎となるモデルに潜在的には寄与しているが。

ソース・フィルタモデルでは、音源または励起信号は、有声音については周期的インパルス列で、無声音についてはホワイトノイズで、しばしばモデル化される。声道フィルタは、最も単純な場合には全極フィルタ (all-pole filter) で近似され、その係数は再生される音声信号の平均二乗誤差を最小とする線形予測により得られる。励起信号をフィルタの伝達関数畳み込む事で、合成音声が得られる。

出典

[脚注の使い方]
  1. ^ 高木, 一幸 (2022-11-21). “第2章 音声 2.1.1 音源-フィルタ理論”. 単語音声認識. 電気通信大学情報理工学研究科情報学専攻. p. 2-2. http://www.takagi.inf.uec.ac.jp/swr/pdf/studentbook2.pdf 
  2. ^ 荒井, 隆行. “音源フィルタ理論 (Source-fiter Theory)”. 上智大学理工学部情報理工学科 荒井研究室. 2023年4月16日閲覧。
    [参考] 本記事主題 Fant 1960 の先行研究、Chiba & Kajiyama 1941 への言及がある。
  3. ^ Martin Rothenberg (2008), “The Source-Filter Model Lives (if you are careful)” (PDF), Voice Foundation 37th Annual Symposium, May 28 to June 1, 2008, http://www.rothenberg.org/source-filter-lives/Source-Filter-Lives-paper-as-presented5.pdf 

参考文献

  • Chiba, Tsutomu; Kajiyama, Masato (1941). The vowel: Its nature and structure. Tokyo, Japan: Kaiseikan 
    • 千葉, 勉; 梶山, 正登 (2003). 母音 - その性質と構造 -. 杉藤 美代子, 本多 清志 (訳). 岩波書店. ISBN 9784000021074. https://www.iwanami.co.jp/book/b265648.html 
  • Fant, Garnner (1960). Acoustic theory of speech production. The Hague, The Netherlands: Mouton 

関連項目

  • 表示
  • 編集
スタブアイコン

この項目は、言語学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(ウィキポータル 言語学)。

  • 表示
  • 編集
モデル / 手法
エンジン
商用
  • AquesTalk
  • AITalk
  • ReadSpeaker
  • FineSpeech
  • RECAIUS
  • RubyTalk
  • VoiceOperator
  • CereProc(英語版)
  • IVONA(英語版)
  • Microsoft text-to-speech voices(英語版)
  • PlainTalk(英語版)
  • Syllaflow
  • Seiren Voice
フリー
  • eSpeak(英語版)
  • Gnuspeech(英語版)
  • Festival Speech Synthesis System(英語版)
  • Open JTalk
非OSS
  • MBROLA(英語版)
システム / API
商 用
フリー
  • FreeTTS(英語版)
ハードウェア
歴史的
  • DECtalk(英語版)
  • Pattern playback(英語版)
  • The Voder(英語版)
  • Wolfgang von Kempelen's speaking machine(英語版)
LSI
  • GI SP0256(英語版)
  • TI LPC Speech Chips(英語版)
娯楽
応用ソフトウェア
商用
  • VOICEROID
  • CeVIO
  • Megpoid Talk
  • A.I.VOICE
  • ボイスソムリエ
  • AOLbyPhone(英語版)
  • DialogOS(英語版)
  • Dr. Sbaitso(英語版)
  • Microsoft Agent(英語版)
  • Microsoft Narrator(英語版)
  • Voice font(英語版)
  • VOICEPEAK
フリー
サイト
アクセシビリティ
  • RIAS(英語版)
  • Silent speech interface(英語版)
  • Speech-generating device(英語版)
  • Spoken Web(英語版)
  • TuVox(英語版)
スクリーン
リーダー
(リスト)
商用
フリー
ハード
Self-voicing
商用
  • WordQ+SpeakQ(英語版)
フリー
  • Emacspeak(英語版)
音声ブラウザ
商用
ブラウザ拡張
フリー
  • Fire Vox(英語版)
  • Text to Voice(英語版)
サイト拡張
商用
  • BrowseAloud(英語版)
  • Readspeaker(英語版)
ボーカルシンセ
商用
フリー
シェア
非OSS
  • MBROLA(英語版)
ハード
応用
  • ぼかりす
サイト
サービス・サイト
  • Odiogo(英語版)
  • Quack.com(英語版)
プロトコル
開発者・研究者
  • Catherine Browman(英語版)
  • Franklin Seaney Cooper(英語版)
  • Gunnar Fant(英語版)
  • Haskins Laboratories(英語版)
  • ヴォルフガング・フォン・ケンペレン
  • Ignatius Mattingly(英語版)
  • Philip Rubin(英語版)
  • CereProc(英語版)
  • IVONA(英語版)
  • VoiceWeb(英語版)
  • ヤマハ
関連分野
カテゴリ カテゴリ