Vol.33 No.3 (1999.11) 発  行:視聴覚情報研究会(AVIRG) 代表幹事:伊 藤 崇 之      〒157-8510 世田谷区砧1-10-11      日本放送協会放送技術研究所      TEL 03-5494-2361      FAX 03-5494-2371 T.10月例会報告 「MDL基準を用いた音声認識単位の自動生成」 講演: 篠田 浩一 氏(NEC C&Cメディア研究所) 報告: 世木 寛之(NHK) 《概要と感想》  現在の音声認識は,観測された音声波形と単語と の音響的な類似度である音響スコアと,単語と単語 のつながりやすさを表す言語スコアを計算していき,こ の2種類のスコアの合計が最終的に最大となる単語 列を出力する.  そして,この音響スコアを計算するとき,HMM(Hidden Markov Model:隠れマルコフモデル)を用いる手法が 一般的である.  本講演では,音声認識を専門としていない人でも理 解できるようにHMMの初歩から説明があり,篠田氏ご自 身が行ったクラスタリングに関する研究までの報告が 行われた.  大語彙連続音声認識では,限られた学習データし か存在しないことと,HMMが大きくなってしまう(計算機の メモリに載りきらない)ことから,単語でHMMを作らずに, 音素と呼ばれる単位でHMMを作ることが多い.例えば, 入力である音声波形と「雨」という単語を比較するとき には,入力された音声波形と/a/,/m/,/e/という各 音素を比較することになる.  このとき,前後の音素環境を考慮したトライフォンを使 用すると,より正確な音響スコアを求めることができる. 例えば,同じ音素/m/でも,前述の「雨」の音素/m/と, 「網(ami)」という単語の音素/m/では,後ろの音素が 異なるので音響的な特徴が異なり,別々にモデルを 作ったほうが精度が良くなるのである.  トライフォンを扱うときに問題になるのが,学習データ が少なくなり統計的信頼性が低下することと,学習デ ータに出現しなかったトライフォンのHMMが作れないとい うことである.  そこで,トライフォンをいくつか集めてクラスターを作り, クラスター内のトライフォンを同じトライフォンとして扱うこと により,見かけ上の学習データを増やす手法がとられ てきた.その際,パラメータを制御することによりクラスタ ー数を制御するのだが,クラスター数を小さくしてしまうと データの音響的特徴を十分に表現できず精度が悪く なり,逆にクラスター数を大きくしてしまうと学習データ数 が少なくなってやはり精度が悪くなる.つまり,適当なク ラスター数を作るパラメータを求めるためには,いくつか のパラメータで実際にHMMを作成し,認識実験を行っ て認識率を求めなければならなかった.また,そのパラ メータは学習データの量や質が変われば使えなくなっ てしまうので,新たに求めなおす必要があった.  篠田氏は,このクラスタリングする際のパラメータを情 報量基準の一つであるMDL基準(Minimum Description Length Criterion:記述長最小基 準)から決めることを提案している.  MDL基準は,与えられたデータに対し最適なモデルを 選択する問題において有効であることが知られている. そこで,学習データに対するHMMの記述長を考え,この 記述長を最小とするHMMを求めることにした.これを考 慮すると,パラメータの推定式として,学習データの大 きさに依存する式が得られる.このことを使うと,学習デ ータに対し最適なモデルサイズを持つモデルを作成で きるパラメータを得ることができるようになる.  実際に,従来法でいくつかのパラメータでHMMを作り 認識実験を行った結果と,今回のMDL基準により推定 したパラメータでHMMを作り認識実験を行った結果を比 較すると,本手法の方が孤立発声単語認識実験で 2%程度良い認識率が得られている.  ただ,MDL基準の最適性を調べるために,MDL基準 により推定されたパラメータを数倍にしたいくつかのパラ メータでHMMを作り認識実験を行ったところ,MDL基準 により求めたパラメータの2倍の値が最高の認識率を 示している.このことから,MDL基準によりパラメータを推 定することは,最適ではないが,従来法に比べ非常に 効率よくパラメータを選ぶことができることが分かる.ま た,あらかじめMDL基準によりパラメータを推定しておき, その値付近のパラメータをいくつか試せば,従来法で パラメータをいくつか試すよりも少ない数ですむと予想 される.  ここ数年で音声認識は大変な進歩をとげ,ディクテー ションソフトやゲームなど実用的な製品にとりいれられ, また一方でニュース番組でのアナウンサーの音声をリ アルタイムで字幕化するのに使用する試みも行われて いる.音声認識がいろいろな分野に普及していくため には,現在の音声認識システムに存在する様々なパ ラメータを,今回の研究発表のように合理的な観点か ら効率良く推定していくことが必要不可欠のように思わ れる. 「音声認識のための精密かつ頑健な音響モデル」 講演: 中村 篤 氏(ATR音声翻訳通信研究 所) 報告: 黒岩 眞吾(KDD研究所) 《概要と感想》  限られた学習データを用い精密かつ頑健 なモデルを構成することは,人間の学習を 含め,学習の研究における永遠のテーマの 一つである.音声認識においても,最近で は数千から数万人の発声データを用いて音 響モデルの学習が行われるようになってき たが,自然の産物である人間の音声を認識 するには,それでもなお「限られた」学習 データに過ぎず,精密かつ頑健な音響モデ ルを構築するために,今日もなお多くの研 究努力が続けられている.  中村氏の所属するATR音声翻訳通信研究 所は,その前身であるATR自動翻訳電話研究 所時代を含め日本における統計的手法を用 いた音声認識研究の老舗の一つである.講 演では現在ATRの音声翻訳システムの主力 の音響モデルである隠れマルコフ網 (HM-Net)について,精密性と頑健性のバラ ンスをとりつつその構造を決定する手法に ついて,改良の歴史を含め紹介された.  HM-Netはその構造の学習法であるSSS  (Successive State Splitting)と共に,1991 年,ATRの鷹見氏と嵯峨山氏によって提案さ れた.SSSは従来,知識や経験等によって決 定していたHMMの構造を,1状態のHMMを出発 点としデータ駆動で最尤基準により逐次状 態分割を進めていくことで,精密かつ頑健 な音響モデルを得ようというものである [1].  音声認識においては,一般に音素(例えば 「か」は/k/という音素と/a/という音素か ら構成される)毎に3状態程度のHMMを作成 し,それらを連結することで任意の単語や 文に対するテンプレートを作成し入力音声 とのマッチングが図られる.このようなモ デルをさらに詳細化するためには,例えば 前後の音素によってモデルを分ける(akaの /k/とakiの/k/では,後ろの/a/や/i/に引っ 張られて舌の位置や口の形が異なり,音響 的にも特徴量が違ってくるため)ことが考 えられる(音素環境による分割と呼ぶ).し かし,あまり分割しすぎると状態あたりの 学習データが少なくなってしまうため頑健 性が低下するという問題が生じる.  そこで,SSSでは,(1)すべての状態の中 から分布の広がり(正確にはdivergence)が 最大の状態を選択する,(2)その状態を,時 間方向への2分割と音素環境による2分割 の組み合わせのすべての方法で分割を試み 最も尤度が上昇する2分割を行う,という 2つの操作を繰り返すことで,1状態のHMM から出発し,最終的には数百から千程度の 状態で構成されるHM-Netを構成する.本来 ならば,(2)の分割の試みをすべての状態に ついて行うべきであるが,計算量的に不可 能であり,(1)の近似を用いたことが本手法 を現実的なものとしている.このようにモ デルを構成した結果,特定話者に関しては 精密かつ頑健なモデルが実現された.  しかし,この手法を不特定話者のデータ に適用した場合,話者による分布の広がり でが原因で状態が選択され,音素環境で状 態を分割しても尤度がほとんど上昇しない という問題が生じた.これに対し1996年, ATRのSinger氏とOstendorf氏によって提案 されたML-SSS (Maximum Likelihood SSS)[2] では,上記(1)の方法を排除する代わりに, 音素環境による2分割をChouの最適分割ア ルゴリズム[3](K-meansクラスタリングやVQ コードブック作成時に空間を2分割するの と類似の手法)により行うことで,尤度最大 (正確には局大)条件で状態の選択および分 割を同時に行うことが可能となった.その 結果,不特定話者に関しても精密かつ頑健 なモデルの実現に至った.しかしながら, その後,このモデルを自然発話の大語彙音 声認識に適用した際,尤度の局所的な落ち 込みが生じ探索の過程で正解候補が枝刈り されてしまう場合があることを,本講演者 であるATRの中村氏が明らかにした[4].  大語彙音声認識では,演算量および記憶 容量の問題で探索処理の過程でどうしても 枝刈りを行わなくてはならず,部分的にで も尤度が下がってしまうことは誤認識の増 大につながる.この問題に対し中村氏は, 局所的に尤度を落ち込ませてしまうデータ に対し尤度が上昇するように状態間で分布 を共有する(分布を再構成する)ことを提 案した(HM-Netに限らず音声認識で用いる HMMの各状態は混合正規分布で表現するこ とが一般的である.共有は混合分布の1要 素を他の状態から借りてくることに相当し 状態を共有するわけではない).これは, ML-SSSでは2分割で状態を分割していくた め,2つの分布の重なりでそれなりに尤度 を保っていたデータが分割によって谷間に なってしまうことがあるからと氏は説明さ れた.(谷間以外の例として,例えば同じ「が (/g//a/)」の音もポーズの後では濁音,他 の音に続く場合は鼻濁音とアナウンサー等, 使い分けている人も多い.この音声で ML-SSSを行いモデルを作成した場合,前の 音素がポーズの/g/(濁音)と他の音素に続 く/g/(鼻濁音)で状態が分割される可能性 が高い.このモデルに対し,単語中の/g/ も濁音で発声する人の音声では,分割前は 尤度が高かったにも関わらず分割により尤 度が下がるという現象が生じるものと予想 される.)   以上の結果,ML-SSS+分布の再構成法に よるモデルを用いた現在のATR大語彙連続 音声認識システム(ATRSPREC)では,不特定の 人の自然な発話に対しても高い認識性能が 達成されている(95年当時40%を超える誤り 率があったものが,現在では27,000語彙の 自然発話で単語誤り率13.5%,また,文献[5] によれば朗読発声では誤り率7.2%と報告さ れている).  なお,文献[5]によれば現在用いている HM-Netの状態数は1,000から1,400となって いる.この状態数は開発用テストセットに より経験的に決定しているとのことである が,今後は,例えば前半の篠田氏の講演に あったMDL基準等により学習データ数やタ スクが変わっても精密性と頑健性のバラン スのとれた状態数を自動的に決定できる手 法の導入が望まれる.  以上のようにATRでは国内外の優秀な研 究者が集い,一つの手法に対しても様々な 視点から研究開発が行われ目覚ましい成果 を達成している.2001年にHAL9000程度の音 声認識が実現するか否かは微妙なところで あるが,海外のホテル予約が音声翻訳シス テムにより日本語だけでで行えることは, 既にSFの中のお話ではないようである. 《参考文献》 [1] 鷹見淳一,嵯峨山茂樹,“音素コンテキ ストと時間に関する逐次状態分割によ る隠れマルコフ網の自動生成”, 信学 技法SP91-88, pp.57-64, 1991. [2] H.Singer, M.Ostendorf,"Maximum Likelihood Successive State Splitting", Proc. of ICASSP 96, pp. 601-604, 1996. [3] Chou, "Optimal partitioning for classification and regression trees", IEEE Trans. PAMI, 13(4), pp. 340-354, 1991. [4] 中村篤,"ガウス混合分布の再構成によ る不特定話者音響モデルの改善",信学 技法SP97-18, pp.9-16, 1997. [5] 内藤正樹,他,"旅行会話タスクにおけ るATRSPRECの性能評価", 音響学会秋季 講演論文集, pp.113-114, 1999. U. 11月例会予定 AVIRG 11月例会は, 日時: 11月25日(木)14時〜17時 場所: 東京大学工学部6号館           3Fセミナー室A・B で開催いたします.テーマは,『マルチメデ ィア処理』です.講演者およびタイトルは 以下の2件を予定しております.奮ってご参 加ください. 「情報空間の知覚化」 講演者: 広池 敦 氏  (日立製作所中央研究 所) 我々が開発中の類似画像検索システムに ついて紹介する.我々のシステムの特色は, ユーザインタフェイス上での検索結果の表 現にあり,基本コンセプトは「なるべく多 くの画像をユーザに見せる」ことである. 実際の表現上では,2000件規模の検索結果 が,3次元空間中を群れを形成しながら運 動する.また,視覚表現のみではなく,ユ ーザインタフェイス上の音響効果について も論じたい. 《参考文献》 [1] 広池, 武者, 杉本, “VR空間を用いた 画像特徴量空間の可視化 − 画像デー タベースの検索・ブラウジングのため のユーザインタフェイス”,信学技報, PRMU98-86, pp.17-24, 1998. [2] 武者, 広池, “類似画像検索における 検索結果の可視化インターフェース - 可視化軸として意味軸を用いる方法 -”, 信学技報,PRMU99-57, pp.59-64, 1999. [3] Hiroike A., Musha, Y., Sugimoto, A. and Mori Y., "Visualization of information spaces to retrieve and browse image data", Third International Conference on Visual Information Systems, Springer-Verlag, pp.155-162, 1999. 「撮像面上に処理機能を統合したイメージセ ンサ」    講演者: 浜本 隆之 氏    (東京理科大学工学部電気工学 科) イメージセンサと処理回路を1つのチッ プに統合し,センサ上で直接画像処理を行 う,高機能イメージセンサについて発表す る.このような処理機能一体型イメージセ ンサは,スマートセンサ,コンピュテーシ ョナルセンサ,ビジョンチップ等と呼ばれ, 近年研究が盛んになりつつある.高機能イ メージセンサの大きな利点は,蓄積時間等 の撮像パラメータを直接制御できるという ことと,画像情報の2次元性を直接利用する ことで,高速並列処理を行なえる点にある. 画像システムの一部あるいは全部の処理を 撮像面上で行うことで,後段で必要とされ る情報のみを出力し,データ転送量を大幅 に削減できる.このような技術は,画像処 理システムの小型化,高速化,低消費電力 化に貢献するものと期待されている. 本発表では,高機能イメージセンサの研 究動向について簡単に述べるとともに, 我々のグループが検討している動画像圧縮 センサ,適応蓄積時間イメージセンサ等に ついて説明する. 《参考文献》 [1] http://www.eleceng.adelaide.edu.au/ Groups/GAAS/Bugeye/visionchips/index.html, "Vision Chips or Seeing Silicon", by A. Moini, third revision, 1997. [2] 相澤, 大野, 江木, 浜本, 羽鳥, 丸山, 山崎, 大竹, 小林, 大久保, 阿部, “動 画像圧縮イメージセンサ”,テレビ誌, Vol.50, No.2, pp.257-265 (1996) [3] 浜本, 大塚, 相澤, 羽鳥, “動画像圧 縮センサ--列並列処理構成による設計 と試作?”, 映情学誌, Vol.51, No.12, pp.2141-2148 (1997) [4] 浜本, 相澤, 羽鳥,“動き適応イメージ センサの試作と機能評価”,映情学誌, Vol.51, No.12, pp.2149-2157 (1997) [5] 大塚, 浜本, 相澤, 羽鳥,“空間可変サ ンプリングを撮像面上で行う新しいイ メージセンサの設計・試作”,映情学誌, Vol.53, No.2, pp.261-268 (1999) 〜会員登録情報の変更のお願い〜 AVIRG会員の御所属,会報送付先など登録情報に変更がありましたら,お手数ですが以下のいずれかにご連 絡ください. ◎ (財)日本学会事務センター 会員業務係 ◎ 電子メール(1999年度中) avirg-member@vision.STRL.nhk.or.jp (AVIRG幹事宛)  (注) 会員の確認のために,御氏名とともに,必ず会員番号を明記して下さい.      会員番号および学会事務センターの連絡先は会報郵送時の封筒に印刷されています. 2