Vol.33 No.2 (1999.9)
発　　行：視聴覚情報研究会(AVIRG)
代表幹事：伊　藤　崇　之
　　　　　〒157-8510 世田谷区砧1-10-11
　　　　　日本放送協会放送技術研究所
　　　　　TEL 03-5494-2361
　　　　　FAX 03-5494-2371


Ⅰ．7月例会報告


「画像中の図形が持つ階層構造の記述」
講演： 本谷 秀堅 氏（東京大学工学部）
報告： 影広 達彦（日立中央研究所）


《概要と感想》
画像認識における現状は，ある特定分野
（文字認識，工業検査，車のナンバー認識
等）において実用化されつつあるが，対象
物を限定しない汎用的な手法においては，
まだ決定打はない．本谷氏の研究は，画像
中の特徴の階層構造に着目し，画像認識に
有用な図形形状の記述を，対象物の先験的
知識なしに行うものである．
今回の本谷氏の講演では，３つの話題が
あり，
(1) 地図データからの文字行領域の抽出
(2) ぼかしを使った階層的特徴抽出[2]
(3) 輪郭線からの階層的形状抽出[1]
であった．
まず(1)は，対象を地図画像データに限定
した実用に近い話であった．この話は本題
への導入的な位置付けであったが，画像認
識の実用的な応用としては興味深かった．
地図画像データには，等高線や地図記号な
ど，文字以外のパターンが多数記載されて
おり，この中から正確に文字行領域を抽出
するのは困難な課題である．詳細な手法は
ここでは割愛するが，本谷氏は文字行領域
抽出の過程を木構造で表現し，領域生成の
安定した段階を記録しておき，この記録を
フィードバック処理の有用な情報として用
いている．ここで言う処理過程の安定した
段階が，本谷氏が本題で述べている画像中
の特徴を階層化して記述する概念と繋がっ
ていたと思われる．
次に本題である(2)の講演に入るが，ここ
では入力画像に対し，意味をもった形状を
抽出するには離散化された視野があるとい
う主張であった．ここで言う視野とは，画
像認識を行う際の対象物のスケールに対応
するであろう．画像データ中に対象物体の
スケールがミクロからマクロまで連続して
存在する訳ではなく，ある離散的な視野に
おいてのみ意味のある形状が抽出できる．
そして，この離散的な視野のサイズは，対
象物に対する先験的な知識からではなく，
画像データそのものから得る事が可能であ
ると述べていた．その方法としては，入力
された濃淡画像をぼかしていく過程を時間
軸にとり，画像の変化が大きく変化する瞬
間に意味のある形状を示していており，こ
の瞬間を決定するには画像データ中の主曲
率を観測している．本谷氏の手法では，ぼ
かしていく過程における画像の変化に着目
しており，対象物のスケールに関する知識
は必要ない．これは，画像データからの汎
用的な特徴の記述が可能であることを意味
する．実験として文字を含んだ実画像から
の文字領域抽出を行っていたが，この場合
でも文字のスケールを意識せず処理を行う
ことが可能である．本研究は基礎的な位置
付けであるため今後の課題となるであろう
が，入力画像に対するロバスト性や，本手
法で記述された形状特徴の使い方の検討や
提案を期待したい．
次に(3)の講演に入ったが，これは本谷氏
が述べるには現在進行中のテーマであった．
物体の輪郭線を，荒い形状の部分と細かい
形状の部分に分け，それぞれに対し輪郭線
を平滑化していく．この輪郭線を平滑化し
ていく過程を観測し，変動の大きい瞬間の
輪郭線をプリミティブという部分的な形状
として登録する．ここでも(2)と同様に対象
物体に対する先験的知識を一切必要としな
い．本手法により，物体の輪郭線から大局
的な形状と詳細な形状の情報を階層的に抽
出できれば，画像中における物体認識には
非常に有用であると思われる．本谷氏もサ
ンプルとして「鍵」の輪郭線を示していた
が，確かに対象物が「鍵」の場合，大局的
な形状情報から輪郭線が「鍵」であること
を認識してから，詳細な形状から何の「鍵」
であるかを認識するニーズがあると思われ
る．従来の物体認識の発想なら，「鍵」であ
ることの物体認識アルゴリズムと，何の
「鍵」であるかを判別するアルゴリズムは
分けて考えられることが多く，一貫した手
法による形状情報の獲得は難しい．この本
谷氏の手法では，どの程度詳細な情報が必
要かどうかを意識せず形状情報の抽出が可
能であり，パラメータ設定に悩むことは無
くなると思われる．ただし，実画像から物
体のエッジ抽出から生成した輪郭線には，
多数のノイズ，撮影方向による物体の歪み，
光源のムラなどの外乱が大きく影響すると
思われ，そのような入力における本手法の
挙動に興味がある．
本谷氏の研究発表は，昨今のマルチメデ
ィアブームのような華やかさはないが，画
像認識の根幹に関わる基盤技術として非常
に興味深かった．今後，コンピュータが提
供する様々なメディアにおいて双方向性を
求めていくと，画像認識の底力を要求され
るようになり，このような汎用的な認識基
盤技術へ大きな期待がかかると思われる．
本谷氏は，まだまだ計算時間が莫大である
と述べていたが，年々倍増するプロセッサ
ースピードはそれほど先ではない時期にリ
アルタイム処理を可能にするかもしれない．
また，質疑応答でも出ていたが，本谷氏の
述べている概念と人間の認知機構との関係
を調べることにより，より興味深い現象が
説明できるかもしれない．この人間の認知
機構との対応付けは，もしかしたら画像認
識における大きなブレイクスルーを産むか
もしれない．
《参考文献》
[1] 本谷秀堅，出口光一郎, “スケールス
ペース解析に基づく局所ぼけ変換を用
いた輪郭線図形のマルチスケール近
似”，情報処理学会論文誌,vol.35, No.9, 
pp.1722-1731，1994 
[2] 本谷秀堅，出口光一郎, “濃淡画像の
多重解像度解析に基づく図形に固有な
形状および大きさの抽出法”，情報処理
学会論文誌, vol.39,No.11, pp.3018-3026，
1998


「動画像からの3次元情報推定」
講演： 遠藤 利生 氏（富士通研究所）
報告： 木下　敬介 （ＡＴＲ人間情報通信研究
所）


《概要と感想》
画像から，3次元情報を抽出するという
のは，コンピュータビジョンの基本的な，
しかし，最も困難な問題の一つである．そ
こには，(1)画像間の対応点を求めなくては
ならない，(2)容易には精度の高い3次元情
報が得られない，といった問題が存在する．
本講演は，これらを解決した画期的な研究
である．
画像から，3次元情報を復元する方法は
様々あるが，広く知られているのは，動き
からの3次元情報復元(Structure from 
Motion)や，ステレオ視である．カメラの前
を，剛体の対象物体が運動した場合，画像
上で，オプティカル・フローと呼ばれるみ
かけの動きが生じる．本講演の最初のテー
マは，「オプティカル・フローから，いかに
精度良く3次元情報を獲得するか」である．
画像から抽出した情報には，必ず誤差が
含まれているが，そのような場合でも，3
次元情報を精度良く推定する方法が必要と
される．従来は，最適な推定方法として，
最尤推定法が用いられてきた．それは，最
尤推定法は，不偏であり，かつ，分散が最
も小さくなると信じられてきたからである．
しかし，本講演では，コンピュータビジョ
ンのいくつかの問題では，最尤推定法より
も分散が小さくなるような推定法があるこ
とが示唆された．たとえば，オプティカル・
フローからの3次元形状推定などの問題で
は，使用する点の数が増えると，それと比
例して変数の数が多くなり，また，オプテ
ィカル・フローに含まれる誤差は，オプテ
ィカル・フロー自身と比較して，とても大
きいので，統計的な推定問題に素直に帰着
させることができないのである．
最尤推定を含め，多くの推定問題では，
データに含まれる誤差の2乗項までしか考
慮しないが，先に挙げたような問題では，
誤差が相対的に大きいので，誤差の4乗項
を無視することができなくなる．しかし，
別の見方をすると，4乗項をうまく活用す
ることで，分散をより小さくできる可能性
がある．そこで，2乗項と，4乗項の重みづ
けを適応的に変化させることにより，不偏
なことはもちろん，ほぼ，クラメル・ラオ
の下界を達成するような推定法が考案され
た．この重みを計算するためには，対象物
体の表面がなめらかであるという拘束条件
を利用する必要があるが，普通の対象物体
なら満たしている，ごく一般的なものであ
る．最尤推定法と，提案手法とが，シミュ
レーション実験によって比較され，提案手
法の方が，分散が小さいことが明らかにさ
れた．
コンピュータビジョンにおける，もう一
つの困難な問題は対応点探索である．複数
の画像間で，一方の画像上の点が，他方の
どの点に対応しているのかを決定しなくて
はならない．これは，ステレオ視による3
次元復元方法の基本となるものである．本
講演の次のテーマは「対応点決定と3次元
情報復元を，同時に推定する」である．
各画像に，ガウシアン・ラプラシアン・
フィルタを施し，極大，あるいは，極小と
なる点を，特徴点とする．各画像の特徴点
のペアをランダムに選び（仮説），3次元空
間から画像への「投影」と，画像から3次
元空間への「逆投影」が矛盾しないかどう
かを調べる（検定）．矛盾のない組合わせを
見つけることで，カメラパラメータと，3
次元形状が同時に推定されるのである．
こうやって獲得した3次元形状と，対応
点情報を組み合わせて，対象物体の任意視
点からの映像を生成する方法が紹介された．
3次元形状がそれほど正確でなくても，近
傍の画像情報から補間することで，高品質
の映像を生成できる．対象物体をターンテ
ーブルの上にのせて撮影した全周囲画像か
ら，任意視点映像を生成するシステムがノ
ートパソコンで実演された．近年の計算機
の発達は目覚ましいが，身近にある計算機
で，数十秒待つだけで処理が終了してしま
うのは驚きである．この技術は，インター
ネット上での電子ショッピングのカタログ
閲覧や電子図書館などにも応用できるであ
ろう．
会場からは，前半の講演に対して，誤差
の4乗項を考慮しなくてはいけない場合と，
そうでない場合についての質問が出た．多
くのコンピュータビジョンの問題では，残
念ながら，4乗項まで考慮しなくてはいけ
ないようである．また，後半の3次元復元
と映像生成のシステムでは，対象物体の形
状を，相対精度0.1%で計算できているそう
である．また，カメラキャリブレーション
は必要だが，それほど厳密にする必要はな
い．
理論の導出から，画像処理，プログラミ
ングまで，すべてを一人でこなしているの
には敬服した．今後，このような，アプリ
ケーションも視野にいれた研究がコンピュ
ータビジョンの研究に必要になってくるで
あろう．しかし，行過ぎると，アプリケー
ションに特化した汎用性のない研究になっ
てしまう．今回の講演は，理論と応用のバ
ランスが非常にうまくとれていたように感
じた． 
《参考文献》
[1] Toshio Endoh, Takashi Toriu, and Norio 
Tagawa, "A Superior Estimator　to the 
Maximum Likelihood Estimator on 3-D 
Motion Estimation from Noisy Optical 
Flow", IEICE Transactions on Information 
and Systems,    Vol.E77-D, No.11, 
pp.1240-1246, 1994.
[2] Takashi Toriu, and Toshio Endoh, 
"Maximum Likelihood Estimator for 
Structure and Motion from Multiple 
Perspective Views", Proceedings of 
Second Asian Conference on Computer 
Vision, Vol. 2 of 3, pp.707-711, 
Singapore, Dec., 1995.
[3] 鳥生　隆，遠藤利生，“ランダムな仮説
検証に基づく多視点画像からの３次元
復元”，電子情報通信学会論文誌，
Vol.J82-DII, No.5, pp.909-918,　May, 
1999. 


Ⅱ． 10月例会予定


AVIRG 10月例会は，
日時： 10月7日（木）14時～17時
場所： 東京大学工学部6号館2Ｆ61号講義
室
で開催いたします．
テーマは，『音声認識・言語処理』です．
講演者およびタイトルは以下の2件を予定
しております．奮ってご参加ください．


「MDL基準を用いた音声認識単位の自動生
成」
講演者： 篠田 浩一 氏
(NEC C&Cメディア研究所)

現在、音声認識においては隠れマルコフ
モデル(Hidden Markov Model; HMM)を用いた
認識手法が主流であり、そこでは、通常、
triphone (前後の音素コンテキストを考慮
した音素)が基本認識単位として用いられ
ている。しかしながら、一般の言語に出現
可能な triphone の総数はたいへん多く、
学習データの不足による認識性能の劣化を
招く(data-insufficiency problem)。この問
題に対処するためには、モデルパラメータ
のクラスタリングがが有効であることが知
られており、様々な方法が提案されている。
しかしながら、従来、クラスタ数の最適化
のための有効な手法はなく、専ら、多くの
計算量を必要とする発見法的な手法が用い
られてきた。この講演では、HMMの状態の
クラスタリングにおいて、情報量基準の一
つであるMDL基準をクラスタ数の最適化に
用いる方法を開発したので紹介する。従来
手法と同等以上の認識性能を少ない計算量
で実現している。
※ 視覚研究者の方にも音声認識の問題をご理
解頂けるよう、背景説明にも十分時間を割く予
定です。
《参考文献》
[1] 韓 太舜, 小林欣吾, "情報と符合化の
数理", 岩波講座 応用数学, 岩波書店, 
1994.
[2] 篠田浩一、渡辺隆夫、"情報量基準を用
いた音声認識単位の自動生成", 日本音
響学会平成8年度秋季研究発表会, 
2-3-11, 1996.
[3] 篠田浩一、渡辺隆夫、"情報量基準を用
いた状態クラスタリングによる音響モ
デルの生成", 電子情報通信学会信学技
報 SP96-79, 1996.


｢音声認識のための精密かつ頑健な音響モ
デル｣
　講演者： 中村 篤 氏
(ATR音声翻訳通信研究所第一研究
室）

　音声認識において、音響モデルの性能向
上は認識性能を大きく左右する重要な問題
である。音響モデルとしては、現在、ほと
んどの音声認識システムにおいて、隠れマ
ルコフモデル（HMM）により音声スペクトル
パターンの挙動を確率的に表現する手法が
用いられている。HMMによる音響モデルは、
実際の音声データ（学習データ）に基づい
て、モデルパラメータの推定（学習）を行
なうことによって構築される。より正確な
音声認識のためには、精密なモデルが必要
であり、そのため、モデルパラメータ数を
増やしてモデルの表現力を高める必要があ
る。しかしながら、パラメータ数に対して
不十分な量の学習データで学習を行えば、
学習データに特化しすぎた頑健性の低いモ
デルとなり、逆に認識性能の低下を招いて
しまう。すなわち、音響モデルの構築にお
いては、その精密性と頑健性のバランスに
留意してパラメータ構造、及びパラメータ
数を決定する必要がある。
　ATRではこの問題に対して、尤度最大基
準に基づくパラメータ・クラスタリング・
アルゴリズムを中心とした手法を提案して
きた。本発表では、これらの手法について、
これまでの経緯や近年の成果を交えながら
紹介する。
《参考文献》
[1] Rabiner et. al., "Fundamentals of Speech 
Recognition",　Prentice-Hall, 
Englewood, Cliffs, NJ, 1993.
[2] Sagayama, "Hidden Markov network for 
precise and robust　acoustic modeling," 
In C.Lee et al., editor, "Automatic 
Speech　and Speaker Recognition: 
Advanced Topics," pp. 159-184, Kulwer　
Academic Publishers, 1996.
[3] Takami et. al., "A successive state 
splitting algorithm for　efficient 
allophone modeling," Proc. of ICASSP 92, 
pp. 573-576, March 1992.
[4] Nagai et al., "ATREUS: A comparative 
study of continuous　speech recognition 
systems at ATR," Proc. of ICASSP 93, pp. 
139-142, April 1993. 
[5] Ostendorf et. al., "HMM topology design 
using maximum　likelihood successive 
state splitting," Computer Speech and 
Language, 11, pp. 17-41, 1997.
[6] Chou, "Optimal partitioning for 
classification and regression　trees," 
IEEE Trans. PAMI, 13(4), pp. 340-354, 
1991.
[7] Nakamura, "A restructuring of Gaussinan 
mixture density functions　in speaker 
independent acoustic models," Proc. of 
ICASSP 98, pp. 649-652, May 1998.


～会員登録情報の変更のお願い～

AVIRG会員の御所属，会報送付先など登録情報に変更がありましたら，お手数ですが以下のいずれ
かにご連絡ください．
     ◎ (財)日本学会事務センター 会員業務係
     ◎ 電子メール（1999年度中）　avirg-member@vision.STRL.nhk.or.jp　(AVIRG幹事宛)
   　(注) 会員の確認のために，御氏名とともに，必ず会員番号を明記して下さい．
　　　　　会員番号および学会事務センターの連絡先は会報郵送時の封筒に印刷されています．


8