Vol.34 No.4 (2000.12) 発  行:視聴覚情報研究会(AVIRG) 代表幹事:伊 藤 崇 之      〒157-8510 世田谷区砧 1-10-11      日本放送協会放送技術研究 所      TEL 03-5494-2361      FAX 03-5494-2371 T.11月例会報告 「超高速映像検索と国際標準化:MPEG-7」                        講演:山田 昭雄 氏 (NEC)                        報告:川田 亮一 (KDD研究所) 《概要と感想》 本講演では,来年標準化が予定されている MPEG-7,およびこの標準化活動において講演 者山田氏が大きく寄与された画像の記述方 法,さらにはその応用例について,デモン ストレーションを交えながら,分かりやす い説明がなされた.  山田氏は,約15年前から画像の符号化を研 究されており,その後,画像解析,さらに 最近ではMPEG-7にも関係する画像検索など を研究テーマとされているとのことである. 本講演では,そのような氏の広い守備範囲 を背景としつつ,次の3トピックについて話 された. (1) MPEG-7規格 (2) 検索技術について (3) アプリケーション まず,MPEG−7についてである.この標準 化の主体は,ISO IEC/JTC1/SC29/WG11である. MPEG-7の目的は,オーディオビジュアルコン テンツの表記方法にある.ビットストリー ムをデコードすることなく中身を知る方法 といえる.しばしば誤解されるが,これま でのMPEG規格すなわちMPEG-1,MPEG-2,MPEG-4 に代わるものではなく,インターネットを 例に取れば,いわばブラウザとビットスト リームの掛け橋となるべきものである.  MPEG-7の重要な機能の一つとして,検索 がある.これには,次の3種類がある. (1) 信号レベルの検索.これは,画像の輝度 値や色差値などを元にマッチングを取 るもの. (2) 意味レベルでの検索.これは、キーワー ドなどにより検索するもの. (3) イベントレベルでの検索.これは,2よ りも詳しく,画像の中身まで立ち入るも のである. MPEG-7の機能には,この他、サーバーの制 御や,コンテンツに付加価値を与えること などがあげられる.  MPEG-7を使用した事業展開として考えら れているものは,次のようなものがある. (1) デジタルテレビにおけるEPG(電子番組 ガイド)のユーザごとのカスタマイズ (2) 放送局内でのデータベースマネジメン ト 特に,ポストプロダクション会社など外 部とのやり取りの多いこの世界では,こ の種の標準化の意義は非常に大きい. (3) 家庭内におけるホームサーバ上の検索 や,マニア向けのオーサリングツール (4) インターネットポータルサイトとして の応 用.すなわち,異なるサイト間でコンテ ンツ の記述方法を標準化することにより,検 索エ  ンジンの汎用性が広がる. MPEG-7の標準化スケジュールとしては今後, 2001年3月に標準化案が最終決定され,9月 から実際に使用可能となる予定である.そ の3月のシンガポール会合では,デモなどの イベントも予定されている. MPEG-7は,次の7要素からなる.基本はXML である. (1) System (2) DDL (3) Visual (4) Audio (5) MDS (6) RSW(フリーのリファレンスソフトウ ェア) (7) Conformance 本日の話の中心は,Visualである.MPEG-7 Visualでは,画像を時間空間で分割する. すなわち,まずシーンに分割した後,region に分割し,さらにそれをsub-regionに分割す る.また,画像の記述方法の種類として, 次の5種類が規定されている. (1) Color (2) Texture (3) Shape (4) Motion (5) Location このうちMotionの応用例としては,道路 監視映像からの動ベクトル検出により,交 通流量の多い画像と少ない画像の自動分類 法などがある.  山田氏のグループでは,家庭用の Personal video archive systemを最終目標に している.ここでは,いろいろなタイプの 映像が記録されるし,また,いろいろな機 能が要求される.そして,コンテンツの記 述が必須であることが分かっている.すな わち、MPEG-7との関連性があり,このこと が,氏がMPEG-7と関わることになったきっ かけとのことである.  MPEG-7の標準化活動において,NECからは, 合計3セット10提案がなされた.これには、 オーディオビジュアルプログラムのナビゲ ーション方法や,類似画像の検索方法など が含まれる.そこで,次に,山田氏らが提 案し,標準にも採用されたカラーレイアウ ト記述子について,類似画像検索への応用 の観点から,説明がなされた.  このカラーレイアウト記述子の大きな目 的は,信号レベルでのビデオコンテンツ管 理である.超高速検索や,ビジュアライゼ ーションへの応用を見越している.ディジ タルアーカイブの検索方法としては,ビデ オマッチング,静止画マッチング,スケッ チマッチングがある.いずれの場合も,計 算時間と検索パフォーマンスのトレードオ フが成立する.山田氏らは,このトレード オフカーブを押し上げるため,1画像あた り8バイトしか要しないカラーレイアウト 記述子を提案した.これにより,高速・高 パフォーマンスが達成された.例えば,24 時間の映像データから,平均0.1秒で検索が 可能である.具体的方法としては,映像デ ータのY,U,Vそれぞれにつき,8x8の縮小 画像を作成する.次に,それぞれをDCTし, 非線型量子化を行う.最終的には,合計12 係数だけを取りだし,記述子とする.  MPEG-7の標準化の場において、本記述子 を用いた検索方式は,独立グループ作成に よるグラウンドトルースデータ5500枚を使 用したコンペティションにおいて見事最高 の性能を示し,採用が決定した. 最後に応用システムの紹介があった.ま ず,インターネット映像ポータルのデモで は,サンプル画像やラフスケッチの画像か ら,類似している静止画や動画がほぼ問題 なく検索されることが示された.実システ ムの実装上は,動画の連続フレームなど, よく似たシーンに対する後処理が重要とな るとのことである. 次にCM自動調査システムについて,興味 深いデモンストレーションが行われた. CM調査は,実際にCMが契約どおりテレビ 局で放映されているかを調べるために行わ れている.現在は主に人間による人海戦術 で行われているが,これを自動化する試み である.方法としては,映像による方法, 音声による方法,ID信号付与による方法が ある.しかし音声による方法は,同一音声 で別映像というCMには対応できない.また, IDによる方法は,その付与作業が煩雑なの と,故意に違うIDを付与された場合に対応 できない.  そこで,山田氏らは,映像による手法を 検討している.具体的には,前述の記述子 を使用し,類似度をチェックし,その結果 をwebやmailで知らせるシステムである.テ ストシステムを構築して実験した結果,極 めて良好な特性が得られている.アナログ テレビ特有のDCの変動などがあるため,記 述子のうちDC成分に対する重みを小さくす るなどの最適化は必要であるものの,十分 実用に耐えられる性能となっている.この 理由としては,一般に静止画に比べ動画は 検索性能がよくなることや,CMは各社それ ぞれ独自性を出しているため,各CMはかな り異なっており混同の恐れが少ないことが 上げられる.本システムにおいては,検索 時に,そのとき放映しているのがCMか本番 組かの区別はしていない.これで誤検出や 検出漏れが0%というのは驚異的なパフォー マンスであると感じた.CM会社の調査依頼 には,十分使用可能であるといえる.  山田氏によると,本システムの適用分野 としては,この他,マーケティング調査, すなわちライバル会社が今どのようなCMを どこで放映しているかを調べるというもの がある.この場合は,まずCMのデータベー スを作成しなければならず,これを自動化 で行う場合はまだ20%ほど本番組をCMと誤 る場合があり,今後の課題とのことである. また,時間方向で長さや再生速度を変えた 場合への対応も,今後の課題とのことであ る.  以上のように,本講演は,今非常にホッ トな話題である画像検索やMPEG-7について, 実際に中心的活動をしておられる山田氏か ら直接お話を伺うことができ,極めて有意 義であった.大成功を収めつつあるDCTを応 用した記述子などは,符号化のバックグラ ウンドのある氏だからこそできた提案であ ると思われる.研究においては広い分野の カバレッジが独創につながるという格言を 再認識できた.  本講演でも言及されていたが,今後,画 像による監視などのアプリケーションが広 がると予想され,その場合にはコンテンツ レベルの記述子も重要になってくると考え られる.今後のこの分野の一層の発展を願 う. 「分身生成のためのマルチモーダル表情合成」             講演:森島 繁生 氏(成蹊大学工学部)             報告:近間 正樹(奈良先端大学 知能情報処理学講座) 《概要と感想》   本講演では,人物の表情のコピーを計 算機の中でリアルに表現する技術の最近の 成果についてデモ映像を交え講演していた だいた.  近年のバーチャルアイドルなどの登場に よってCGによるリアルな顔CGは身近なも のになってきたが,より微妙な表情、感情 までも表現できるようなCGが望まれてき ている.また,研究の対象としても,従来 は基本6感情の分類などがあったが,最近 では表情というノンバーバルな情報を伝え るためのモデル化という点で,ホットな領 域になってきている. しかし,現在の技術では合成した表情の CGと本物の表情とでは受ける印象が異なり, 明らかに合成したCGが不自然に見えると いう問題がある.これに対して,ハイスピ ードカメラによる撮影を行って,本物の笑 いの表情と合成した表情の違いを比べてみ たところ,眉の動きや口もとの動きの差は NTSCでの検出限界以下であることが分かっ た.氏のグループでは,この差が人間には 知覚でき不自然さを感じるのではないかと の仮説をたて,更に調査・実験を重ねてい るとの事である. 分身コミュニケーションを実現するため には,微妙な表情なども漏れなく伝える必 要があり,そのためのモデルや表出のため の適切なデバイスはどうあるべきかを考え なくてはならない.しかし,すべてを忠実 にコピーする必要はなく,例えば頭髪など は近似でも十分である.リアルタイム性を 保ちながら,近似でも良い部分はどこまで か,どこを忠実にコピーするか見極めが 重 要である.  次に,実際に顔をモデル化する手順を説 明された.  まず,Cyberware社のカラー3次元レーザ ーレンジファインダを使って得られたデー タをもとに,本人のワイヤーフレームモデ ルを作成する.このワイヤーフレームを制 御して動かす必要があるので,その整合を 取るためのツールを作成した.ワイヤーフ レームを作成するに際には,口元など表情 表出に重要な場所はメッシュを細かく割り 当てるなどの工夫をしたとのことである. しかしこのレンジファインダでは1回のス キャンに十数秒と時間がかかり,また装置 も高価であるという問題点があることから, 正面や側面などの複数視点から観測した顔 画像をもとに三次元モデルを構築する手法 も試みていて,視点を多くする事で精度を 向上させている.  表情のコントロールの方法にはPaul Ekman の FACS(Facial Action Coding System) に基づいており,左の唇をあげるなど44個 の AU(Action Unit) の組合せで制御してい る.しかし,この動きをマーカをつけて追 跡しようとしても十分な精度で追うことが できず,またAUを使うことが顔合成におい て正しい適切な方法かは疑問であり,今後 よりよい制御単位を提案していく必要があ る.現在のところは,AUを使った制御方法 で第3者の顔を変形させている.  ここで,このシステムをサイバースペー ス上の対話システムに応用したデモの紹介 があった.このデモでは音声と表情のパラ メータの情報をやりとりしており、現状で は4人がネットワークを介して同時に対話 できるという.  次に,口形の制御の方法について説明さ れた.口形状と音声は密接に関係しており, 6つの基本形状 (/a/i/u/e/o/ と 閉口) か らなっている.また,基本形状の補間を行 うことで,母音の口形を使って子音の口形 も表現可能である.  制御点としては,唇の左右両端,上唇, 下唇の上・下端,および顎の7つを使用し ており,これらの移動量をニューラルネッ トワークを使って学習している.このとき 入力は例えば'あ'の音(スペクトルパター ン)なら出力は'あ'の口の形でマッピング を行っている.音量の情報はまだ使ってい ないが,将来は口の大きさの制御を行おう と考えているとのこと.  このあと,SIGGRAPH で発表したプロトタ イプシステムをいくつか紹介していただい た.最初は95年のもので,リップシンクを 使った対話システムのデモであった.会場 に来た人の正面画像を取り込んで,コンピ ュータ上にアバターを作成し,表情制御や 入力音声に基づいてた口の動きを与えたア バター同士での会話を行うものである.  次は98年のインタラクティブ=シネマシ ステムで,これまでは口や表情だけしか動 かなかったものを,背景も動かしてやって みようということで,映画の主人公の顔の 1シーンを置き換えて楽しむシステムであ る.残念ながら著作権の問題でrejectされ てしまい,あまり知られていないシステム だそうだ.  99年にはHYPER-MASKという顔のトラッキ ングとプロジェクションを組み合わせたシ ステムで,人物にお面をかぶせ,そのお面 に顔画像を投影するというものである.プ ロジェクションができることで今回はお面 (マスク)に投影したが,例えばボールに投 影することで、インタラクティブなプレイ グラウンドにも応用の可能性を示した.  最近の研究として,ATRと共同で研究し ているVIDEO-Translaton(ビデオ翻訳)の紹 介があった.このシステムでは翻訳による 音声の吹替えと,それにあわせた口形の合 成を行っている.これによって,言語間の 音声の長さの違いも吸収している.合成は 口形のみで表情はオリジナルの映像をつか っているので,自然な合成顔が得られる. 合成音声はATRのCHATRを使用していると のこと.また日本語から英語へ,英語から 日本語へのどちらも適用可能である.  さらに話はよりリアルな表情認識の方法 について,解剖学的モデルを用いた制御方 法を導入する点に進んだ.1台のカメラの で3次元情報を取り出したい.そのために は解剖学的な顔面モデルを持つ必要がある ということで、Keith Waters が93年に提案 した顔の筋肉モデルを導入した.これは表 情筋をバネでモデル化したものである.  森島氏はこのモデルを拡張して,皮膚表 面,筋肉ノード,骨格ノードの3階層モデ ルを構築し,これを元にポリゴンを形成し 運動方程式を解いて表情を生成している. パラメータとしては,表情筋の強度のみを 指定してやるだけでよく,AUをパラメータ とするものに比べても精度がよくなる.  また,骨格情報が入ることによって,よ り自然な表情が可能になった.しかし,こ のパラメータを決定するのはたいへんなの で,実写画像からオプティカルフローを計 算して皮膚の動きを取り出し,そこから筋 肉パラメータを推定している.この方法で は喜びや怒りなどのカテゴライズを行わな いので,中間的な微妙な表情をうまく表現 できている.しかし、欠点として,推定に はニューラルネットワークを使うので,学 習データに依存してしまう.  次に,EMG(筋電位)波形を使った表情測定 法の紹介をされた.EMGは筋肉に電極を刺 して筋電位をはかるもので,これによって 表情筋の動きを測定しようというものであ る.しかし,この方法では顎の動き情報を 取ることはできないので,顎の動きを制御 する咀嚼筋と表情筋,それらと表情の関係 の解明はまだまだこれからという段階であ る. また,Watersの表情筋モデルを再構築する試 みも行われており,実際に解剖を何体か行って いる.それによると表情筋は個人によってかな り異なっており,筋肉のつきかた,発達,退化 の仕方はさまざまである.これが,表情の個人 差になるのではないかと推定しておられる.  最後に髪の毛のモデル化の話を紹介した.こ のモデルは,髪の毛1本で7つの制御点を持ち, Bスプライン近似を行った房モデルを仮定して いる.レンダリングは円筒形状にはりつけ,ま た髪の生え方は3種類のモデルを用意した. こ れらの運動方程式を解き,レンダリングを行っ たところ本人よりもボリュームのある表現にな った.つまり, 本物の髪は痛んでいているのだ. すると用途としては,CG合成で綺麗な髪を生や したり髪型を変えたりすることが考えられる. また,モデリングによって風になびく髪を表現 することもできるようになった.課題としては, 流れ場の導入,レイヤーの導入,衝突判定など がある.現在は風は顔をつき抜けているため, 多少不自然になってしまうとのことである.  余談として,自然な表情の撮影風景を納めた ビデオが紹介された.心理学で使われている嫌 悪や喜びを示す映像を部屋の中に被験者一人だ けに見せて,その様子を撮影している.自然な 嫌悪や喜びを表させるのは結構簡単だが,怒り の表情などはなかなかとれず苦労しているとの こと.また,表情が硬い人もいて,そういう人 には,フェイシャルエクササイズをしてもらい, そうすると普段は使わない筋肉が活性化して表 情が豊かになるそうである.  その他の課題として,目はテクスチャを張り 付けるだけでは死んだ目になってしまうので注 意が必要.目はコミュニケーションに重要な役 割を果たしているようだ.また、顔の皺を考慮 したモデル作りなどをあげて講演を締めくくら れた.CGの合成というエンターテイメント的要 素だけでなく,より深く人間を知ると言う意味 でも,表情の研究は重要かつ興味深いテーマで あると感じた. U.1月例会予定 2001年1月の例会は,  日時:1月18日(木)14時〜17時  場所:東京大学工学部 6号館 2F 63号講義室 で開催します. テーマは, 『初期視覚におけるテクスチャ情報処理』 で,以下の2件の講演を予定しています. 奮ってご参加ください. ● 「V4野における陰影テクスチャーの                 特徴抽出」 講演者:花澤 明俊 氏   (生理学研究所高次神経性調節研究部門)  物体表面のテクスチャーは,その物体を識別 したり,表面の材質,摩擦などの属性を判断す る上で有用な情報源である.テクスチャー特徴 の抽出にマカクザルV4野が関与するか否かを 調べた.コンピュータ画面上に,輝度勾配(陰 影)によって粒子状の細かい凹凸があるように 見えるテクスチャー刺激を提示し,要素の密度, 大きさおよび陰影の方向を変化させ,神経細胞 の応答を調べた.多くの細胞がこれらの刺激属 性に選択性を示した.それらの一部は空間周波 数選択性では説明のできない振る舞いをした. まず,要素の陰影の方向に対し1方向性の選択 性を示す細胞があった.上または下方向の陰影 に選択的な細胞が多く,陰影からの立体知覚に みられる偏りと対応していた.また,粒子状の テクスチャーのみに応答し,正弦波格子やバー 刺激に応答しない細胞があった.これらの結果 から,V4野が,陰影から復元される3次元構 造を含む,テクスチャーの特徴抽出に関与して いることが示唆された. 《参考文献》 [1] Ramachandran, V. S. Perception of shape from shading. Nature 331, 163-166(1988). [2] Lehky, S.R. & Sejnowski, T.J. Network model of shape-from-shading: neural function arises from both receptive and projective fields. Nature 333,452-454 (1988) [3] Gallant, J. L., Braun, J. & Van Essen, D. C. Selectivity for polar, hyperbolic, and Cartesian gratings in macaque visual cortex. Science 259,100-103 (1993). [4] Monkey V4 neurons integrating the direction of local luminance gradients in shaded 3-D textures. Hanazawa, A., Komatsu, H. Society for Neuroscience 29th Annual Meeting Abstracts 24, 370.3, (1999). [5] Extraction of texture features in macaque area V4. Hanazawa, A., Komatsu, H. Society for Neuroscience 30th Annual Meeting Abstracts 25, 357.18, (2000). ●「人間の初期視覚系における   テクスチャ画像の処理」  講演者:本吉 勇 氏  (NTTコミュニケーション科学基礎研究所)  入力画像からエッジを検出し,異なる領域に 分割することは,最も基本的な視覚処理の一つ である.人間の初期視覚系には,強度や波長に 限らず,運動,形状,両眼視差など画像に含ま れる様々な特徴の変化に基づいて,エッジを検 出したり領域を分割する仕組みが備わっている. 特に,細かな形状の違いに基づいてエッジを検 出したり,領域を分割するはたらきは,テクス チャ分凝と呼ばれる.そのメカニズムは,かつ てはシンボリックなトークンの比較とされてい たが,現在では、画像に含まれる方位・空間周 波数成分に選択的な線形フィルタ群の出力に対 する,二次のフィルタリングと考えられている. これを受けて,我々はテクスチャ分凝機構の諸 特性をシステム解析の観点から再検討し,その 実像に迫ろうとしている.今回の講演では,以 上の研究の流れをレビューするとともに,テク スチャ分凝機構が極めて優れた時間分解能をも つことを明らかにした,我々の最近のデータを 報告する. 《参考文献》 [1] Julesz, B. (1981). Textons: the elements of texture perception, and their interactions. Nature, 290 91-97. [2] Landy, M. S. & Bergen, J. R. (1991). Texture segregation and orientation gradient. Vision Research, 31 679-691. [3] Kingdom, F. A., Keeble, D. & Moulden, B. (1995). Sensitivity to orientation modulation in micropattern-based textures. Vision Research, 35 79-91. [4] Motoyoshi, I. & Nishida, S. (2000). Temporal-frequency characteristics of two subsystems involved in orientation-based texture segregation. IOVS, 41 S222. V.電子化検討の中間報告  2000年5月の総会決議に基づいて,AVIRG活動の一部電子化について検討を進め,前号の会 報でもご報告いたしましたように, avirg.org のドメイン名を取得しました.さらに以下の3点について,検討状況を中間報告させて頂 きます. (1) ホームページ開設 AVIRGのホームページを開設致しました.URLは, http://www.avirg.org です.内容は,AVIRGの紹介,会報,例会のお知らせ,関連イベント情報など,会員の 皆様にとって有益な情報を数多く掲載できるよう努力して参ります.ご意見,ご要望等 がございましたら kanji@avirg.org までお寄せください. (2) メーリングリスト 会員の皆様への情報提供手段として,また意見交換の場として,AVIRG会員のメーリン グリスト kaiin@avirg.org を開設いたしました.アドレスの登録,削除は,本文なしで以下のアドレスにメールを お送りください. アドレスの登録: To: kaiin-request@avirg.org Subject: subscribe アドレスの削除: To: kaiin-request@avirg.org Subject: unsubscribe なお現在,2000年4月の電子化アンケートに記入して頂いたアドレスが登録してありま す.登録不要の方はご面倒ですが削除をお願いします.また,アンケートにアドレスを 記入されなかった方あるいはアンケートを提出頂けなかった方で登録を希望される方 は,上記の手順で登録をお願いします. このメーリングリストに関連情報などを投稿 されたい方は, kaiin@avirg.org までお送りください. (3) 会則改正について AVIRG活動の一部電子化に伴い,会員の位置づけ,会の組織や役員の役割などについて, 鋭意検討を進めております.早々に改正案をまとめ,会報ならびにホームページに掲載 の上,会員の皆様のご意見をお伺いしたいと考えています.今しばらくお待ちください. 〜会員登録情報の変更のお願い〜 AVIRG会員の御所属,会報送付先など登録情報に変更がありましたら,お手数ですが以下のいずれ かにご連絡ください. ◎ (財)日本学会事務センター 会員業務係 ◎ 電子メール kanji@avirg.org (AVIRG幹 事宛)  (注) 会員の確認のために,御氏名とともに,必ず会員番号を明記して下さい.      会員番号および学会事務センターの連絡先は会報郵送時の封筒に印刷されています. 8