Vol.34 No.3 (2000.11)
発　　行：視聴覚情報研究会(AVIRG)
代表幹事：伊　藤　崇　之
　　　　　〒157-8510 世田谷区砧1-10-11
　　　　　日本放送協会放送技術研究所
　　　　　TEL 03-5494-2361
　　　　　FAX 03-5494-2371


Ⅰ．10月例会報告


「東芝の不特定話者音声認識技術とその応用」
　　講演：正井 康之 氏（㈱東芝 研究開発センター）
　　報告：松井 淳 （NHK）


《概要と感想》
　音声認識システムには，話者を特定して認識
精度を高めるものと，話者を特定せずに個人差
を許容するものとの２つのタイプがある．市販
のＰＣ用音声認識ソフトウェアをお持ちの方で
あれば，前者はお馴染みかもしれない．初回の
起動時に話者登録用のサンプル文を読み上げる
作業は，意外と骨が折れるものである．このよ
うな話者適応ゆえの操作に煩雑さを感じている
利用者は，案外と多いのではなかろうか．
本講演では，利用者の使い勝手の向上をテーマ
として研究・開発された，(株)東芝の不特定話者
音声認識の応用事例と，それらの要素技術が，
デモを交えてわかりやすく紹介された．
　まず，不特定話者音声認識技術の応用事例が
スライドで紹介された．

●電話音声認識応答装置（1982年）
　電話音声による銀行口座の残高照会システム．
　都市銀行で運用実績有り．
●行き先階音声登録エレベーター（1989年）
　ハンズフリー行き先階登録システム．
　センサーによるマイクスイッチ制御や，キー
　ワードスポッティングが特徴．
●音声認識券売機（1989年）
　世界初の音声認識券売機．難波の駅でフィー
　ルドテスト．
●マルチメディアＡＴＭ（1992年）
　音声認識，手書き文字認識，タッチパネルを
　併用したバリアフリーＡＴＭ．
●音声地図検索（1996年）
　音声で住所や目標物を入力することで，検索
　時間を大幅に短縮．(語彙サイズ：約11万)
●東芝音声システムver.2.0（1996年）
　音声認識，文規則合成合成を搭載した対話形
　エージェント．
●マルチメディア教育端末（1998年）
　音声認識，手書き文字認識，タッチパネルを
　利用したクイズ形式の教育端末．
●ディクテーション（1999年）
　東芝音声システムver.5.0．声の登録が不要
　なので，すぐに使用可能．
●音声認識ミドルウェア（1999年）
　RISCチップ向けミドルウェア．雑音環境下
　での高性能音声認識を実現（例：カーナビ）．
　　　　　　
　続いて，これら応用事例の実現にあたり開発
された幾つかの技術のうち，とくに代表的な次
の２つの技術について，詳しい説明があった．

　1. 複合音響特徴平面（ＭＡＦＰ）
2. 音声セグメント　

　複合音響特徴平面（ＭＡＦＰ）とは，入力音
声の分析パラメータについて，その時間-周波数
平面上での２次元的な変化を，複数方向の空間
微分オペレーターを用いて抽出する手法である．
分析パラメータの時間方向の変化を特徴量に加
える手法は，音声認識の分野では一般的になり
つつあるが，ＭＡＦＰでは更に周波数軸を含め
た計４方向の変化を特徴量に加えることで，よ
り高精度な認識を狙っている．講演ではＭＡＦ
Ｐによる認識性能の改善効果を裏付ける実験結
果が示された．
　また，音声セグメントとは，連続音声中に出
現する様々な音声現象（音素環境）を記述する
音声学的単位の一種である．講演では，話者に
よる声の違いを吸収させる目的で，この音声セ
グメントを中間表現として音声認識システムに
実装した例が紹介された．
　最後に，ノートＰＣによるディクテーション
と音声対話エージェントのデモが披露された．
正井氏本人による新聞記事の読み上げでは，ほ
ぼリアルタイムで良好な認識結果が得られてい
た．マシンの処理能力（Pentium II, 266MHz）を
考えれば，かなりの性能である．話者を交代し
ての実験では若干精度が劣化したようであった
が，利用者の操作の習熟度にも因るので，と正
井氏から説明があった．また，電子メールを想
定した比較的自由な発話スタイルについては，
現時点では技術的に難しい問題を抱えたタスク
であるが，非常に魅力的な今後の研究課題とし
ての印象を受けた．
質疑応答では，本講演のテーマともいえる使
い勝手に関するものから，技術的・専門的な内
容まで，多岐にわたる質問が寄せられ，音声認
識技術に対する参加者の関心の高さが窺われた．


「NHKニュース音声認識システム」
　　講演：今井 亨 氏（NHK）
　　報告：登内 洋次郎（㈱東芝 研究開発センター）

《概要と感想》


　パターン認識の中でも音声認識は近年大
幅な進歩を遂げており，実用化に向けた研
究が益々盛んになってきている．中でも，
大量の語彙を認識対象とするディクテーシ
ョンプログラムが各社から商品化されてい
る．ディクテーションプログラムを使えば，
キーボードの代りにマイクに向かって音声
で文章を入力することができる．音声認識
は，人間にはまだ及ばないものの，ようや
く実用化されつつある．

　ＮＨＫでは毎晩7時のニュースの一部で，
音声認識を利用した字幕放送を試行してい
る．これは，ディクテーションプログラム
と同じ音声認識技術を用いて実現されたも
のである．今回の講演で今井氏は，このニ
ュース音声認識システムについて説明され
た．まず，ニュース音声システムの全体の
概要を述べられた後に，それぞれの要素技
術について具体的に解説された．
　まず，ニュース音声システムの概要の説
明があった．このシステムは,生放送のスタ
ジオ・アナウンサーの音声をリアルタイム
で音声認識して，誤りがあれば即座に人手
で修正しつつ字幕を作成するものである．
平成12年3月27日より，毎晩7時のニュ
ースの一部で試行中であり，生放送として
は日本初，音声認識を利用したものとして
は世界初の字幕放送である． 字幕放送に音
声認識を用いているのは，あらかじめ用意
されたニュース原稿用に対してアナウンサ
ーは修正を加えてから読み上げるため，ニ
ュース原稿をそのまま字幕として表示する
ことはできないからである．ちなみに，ア
メリカでは，速記用のキーボードが普及し
ているため，生放送のニュースでは速記用
キーボードを用いて字幕を作成していると
いうことである．
　次に，音声認識手法についての説明があ
った．ＮＨＫのニュース音声認識システム
では，ＨＭＭ（隠れマルコフモデル）とい
う確率統計的な手法で認識を行う．音響パ
ラメータとして，短時間スペクトル分析を
用いてスペクトル包絡に関する39次元の
特徴量を求める．音響モデルは，大量のア
ナウンサーの音声データから作成する．男
性用，女性用それぞれの不特定話者のモデ
ルを作成する．母音，子音の合計42音素ご
とに連続ＨＭＭを用いてモデル化する．約
２500個のトライフォン（前後音素環境依
存）を3状態のLeft－To－Right型のHMMで
表す．状態共有化することで，約1500個の
状態で表現する．HMMの出力には8混合のガ
ウス分布を用いる．
　言語モデルは，過去のNHKのニュース原
稿9年分を用いて作成し，約2万単語のモ
デルを構築する．ただし，直前のニュース
原稿から作成する言語モデルを重み付けし
て上記モデルに加えている．これは，日々
変わっていくニュースの最新の話題に対応
するために行うものである．言語モデルに
は，N個の単語間の接続関係を確率的にモ
デル化したN-gramを用いる．最初に音響モ
デルとバイグラムで正解の候補をある程度
絞り込み，最後にトライグラムで詳細な探
索を行って認識結果を出力する．
　通常，ディクテーションプログラムでは，
1文単位で音声認識を行うため，文末まで
発声された後に結果が確定する．しかし，
生放送で流れる音声に対してリアルタイム
で字幕を送るのに，文末を待って音声認識
の結果を確定するのでは遅くなる．そのた
め，逐次2パスデコーダという手法を用い，
文の途中で探索をトレースバックして，安
定した単語列があれば逐次確定していく．
この処理で認識率は0.2％程度悪くなるも
のの，単語確定遅れを0.5秒に押えること
ができる．
　最後に、オペレータが音声認識の結果に
対して確認を行い，間違いがあればその個
所を修正する．放送中にリアルタイムで修
正するために，
2クルー（各2名で，タッチパネルによる
選択作業に1名，キーボード入力に1名）
が一文ごとに交代で確認及び修正作業を行
う．認識性能は，オペレータの修正前で95％
以上，修正後に99.5以上になる．認識時間
はオペレータの作業を入れて1～2秒の遅
れになり，実際画面に字幕が放送されるの
は，表示までのタイムラグがあるため，平
均10秒の遅れとなる．
　今回の講演では，実際に放送局で使われ
ているシステムについて，ニュース原稿が
出来上がってから，アナウンサーの音声を
認識して，字幕を放送する所までを，実際
の放送のビデオを交えて丁寧に説明してい
ただいた．そのため，放送局の内部を全く
知らない私でも，字幕放送ができあがるま
での過程がよくわかった。また，今井氏が
音声認識方式の中身をわかりやすい解説し
てくださったおかげで，認識方式について
もよく理解することができた．今回の講演
は，音声認識に携わる研究者はもちろん，
それ以外の研究者にとっても，とても興味
深い講演だったと思う．
　音声認識を含めパターン認識の研究では，
認識性能を上げることが重要である．しか
し，現状では100％の認識率を得るのは困
難であり，実際の問題で利用するためには，
用いる対象に即した形に認識システムをう
まく当てはめることが非常に重要である．
今井氏に発表して頂いたニュース音声認識
システムは，その意味においても非常に価
値があると思う．


Ⅱ．11月例会予定


11月の例会は，
　日時：11月30日（木）14時～17時
　場所：東京大学工学部 6号館 2F 63号講義室
で開催します．
テーマは，『マルチメディア情報処理』です．講
演は以下の2件を予定しております．奮ってご参
加ください.

●「超高速映像検索と国際標準化：MPEG-7」
                  講演者：山田　昭雄 氏
　　　　　　　　　　 　　　　　　（NEC）

 映像データの高速高精度検索に関する技術に
ついて，関連する国際標準化動向の解説を交え
て報告する. ISO/IEC-15938通称MPEG-7は，マル
チメディアデータのコンテンツ検索を目標とし
て1998年に標準化活動が開始され，現在標準化
終結を直前にむかえている.
 本報告ではNECから提案を行ない採用された高
速映像検索＆ブラウジング技術を中心に，最新
の映像検索技術についてそれぞれの技術内容，
特徴,用途などについて述べる.また高速映像検
索の応用例として，インターネット映像ポータ
ルサイトでのアーカイブシステム，インターネ
ット連動型高機能TVinPC，CM放送等のビデオコ
ンテンツをリアルタイム識別するシステム等を
とりあげ紹介する. 

《参考文献》
[1]	イメージからの超高速映像検索方式
画像ラボ2000年6月号 GA0004-05
[2]	Visual Program Navigation System based on 
Spatial Distribution of Color Proc. on 
ICCE2000, May 2000.
[3]	Multimedia-Content Filtering, Browsing, and 
Matching using MPEG-7 Compact　Color　　　 
Descriptors　Proc. on Int. Conf. on Visual 
Information Systems (Visual2000), Nov 2000.
[4]	NECテレビコマーシャル調査システム　　 
http://www.labs.nec.co.jp/cmsearch/

●	「分身生成のためのマルチモーダル
　　　　　　　　　　　　　　表情合成」
                  講演者：森島　繁生 氏
　　　　　　　　　　　（成蹊大学工学部）

音声，画像，センサー情報等を駆使して，人
物の特に表情のコピーをリアルに実現する技術
の最近の成果について，デモ映像を豊富に交え
て報告する．
顔モデルのカスタマイズ方法の提案．口の動
きに関しては，音声駆動の方法，テキスト駆動
の方法について述べ，前者の応用としてのネッ
ト対話システム，インタラクティブ映画の実例，
さらに後者の応用例としてビデオ翻訳システム
について紹介する．表情に関しては，表情筋モ
デルの提案と，これを利用して1台のカメラから
の情報で３次元の表情をコピーする方法，ＥＭ
Ｇを利用する方法を紹介．さらに表情以外の髪
型の表現方法とその運動制御方法についても述
べる．
さらに基礎技術として，音声への感情付加，
顔特徴点のトラッキング技術等についても述べ，
最後に最近のプロジェクトについてその現状報
告を行う．

《参考文献》
[1]	顔の認識・合成と新メディアの可能性　
第6回画像センシングシンポジウム論文集，
特別講演S-2，2000年6月.
[2]	顔の認識・合成のための標準ツール　
システム/制御/情報，Vol.44, No.3, 
pp.119-126, 2000年3月.
[3]	感情表現のリアリティを追求　
日経CG，2000年特集，pp.120-121, 2000年1
月.


ドメイン名取得のお知らせ


  6月の総会において承認されました2000年度活動計画（AVIRG会報Vol.34, No.1）に基づいて，会報
の電子化等を目的とするAVIRGのホームページ開設に向けて準備を進めております．
すでにドメイン名「avirg.org」を取得し，10月末よりInterNICにも登録されております．近々のう
ちにホームページを開設する予定です.ご期待下さい．
なお，ホームページのアドレスは
http://www.avirg.org

です．また，会報発行や例会開催，その他の重要なお知らせを会員の皆様にお届けしたり，議論の
場として使って頂けるメーリングリストも追って開設の予定です．その節は会報等でお知らせ致しま
す．
また，AVIRG幹事へのご意見・お問い合わせは以下のアドレスにお寄せ下さい．

幹事連絡先：kanji@avirg.org


～会員登録情報の変更のお願い～

AVIRG会員の御所属，会報送付先など登録情報に変更がありましたら，お手数ですが以下のいずれ
かにご連絡ください．
     ◎ (財)日本学会事務センター 会員業務係
     ◎ 電子メール　kanji@avirg.org (AVIRG幹事宛)
   　(注) 会員の確認のために，御氏名とともに，必ず会員番号を明記して下さい．
　　　　　会員番号および学会事務センターの連絡先は会報郵送時の封筒に印刷されています．


2