イラストで学ぶ 音声認識

荒木雅弘・著

イラストで学ぶ 音声認識

発行
2015/01/23
サイズ
A5判
ページ数
191
ISBN
978-4-06-153824-5
本体
2600円(税別)
在庫
在庫あり

書籍を購入する

本体
2600円(税別)

内容紹介

・読者の信頼が厚い荒木雅弘先生の渾身の労作!
・『イラストで学ぶ機械学習』『イラストで学ぶ人工知能概論』に続くシリーズ第5弾!

スマートフォンで爆発的に普及した音声認識技術は、実現困難といわれていた...。
では、なぜ、ここまで普及したのか。
音声認識技術の歴史から最先端キーテクノロジーまでを、イラストで明快に解説。
WFSTによる音声認識を詳しく解説した和書は本邦初! もう、買わずにはいられない!

目次

第1章 はじめに
 1.1 音声認識とは
 1.2 音声認識の歴史
 1.3 どこで役立つのか
 1.4 何が難しいのか
 1.5 本書のねらい
 1.6 まとめ

第2章 音声とは
 2.1 音声の科学
 2.2 どうやって声を作るか ―調音音声学
 2.3 声の正体とは ―音響音声学
 2.4 どうやって声を聴き取るか ―聴覚音声学
 2.5 まとめ

第3章 統計的パターン認識
 3.1 パターン認識とは
 3.2 統計的パターン認識の考え方
 3.3 生成モデルの学習
 3.4 識別モデルの学習
 3.5 統計的音声認識の概要
 3.6 まとめ

第4章 有限状態オートマトン
 4.1 有限状態オートマトンとは
 4.2 有限状態オートマトンが表現する言語
 4.3 さまざまな有限状態オートマトン
 4.4 有限状態オートマトンの性質
 4.5 まとめ

第5章 音声からの特徴抽出
 5.1 特徴抽出の手順
 5.2 音声信号のディジタル化
 5.3 人の聴覚をまねて ―スペクトル分析
 5.4 もうひと工夫 ―ケプストラム分析
 5.5 雑音の除去
 5.6 まとめ

第6章 音声の認識:基本的な音響モデル
 6.1 音響モデルの単位
 6.2 隠れマルコフモデルとは
 6.3 隠れマルコフモデルの確率計算
 6.4 状態系列の推定
 6.5 パラメータの学習
 6.6 まとめ

第7章 音声の認識:高度な音響モデル
 7.1 実際の音響モデル
 7.2 識別的学習
 7.3 深層学習
 7.4 まとめ

第8章 音声の認識:言語モデル
 8.1 文法記述による言語モデル
 8.2 統計的言語モデルの考え方
 8.3 統計的言語モデルの作り方
 8.4 まとめ

第9章 音声の認識:探索アルゴリズム
 9.1 音響モデルと言語モデルのギャップを埋める
 9.2 状態空間の探索
 9.3 木構造化辞書で無駄を省く
 9.4 ビームサーチで絞り込む
 9.5 マルチパス探索で精度を上げる
 9.6 まとめ

第10章 音声の認識:WFST の演算
 10.1 WFST の合成演算
 10.2 決定化
 10.3 重み移動
 10.4 最小化
 10.5 まとめ

第11章 音声の認識:WFST による音声認識
 11.1 WFST への変換
 11.2 音響モデルをWFST に変換する
 11.3 発音辞書をWFST に変換する
 11.4 言語モデルをWFST に変換する
 11.5 WFST の探索
 11.6 まとめ

第12章 意味・意図の解析
 12.1 意味表現とは
 12.2 規則による意味解析処理
 12.3 統計的な意味解析処理
 12.4 スマートフォンでの音声サービス
 12.5 まとめ

第13章 音声対話システムの実現に向けて
 13.1 音声対話システムの開発方法論
 13.2 規則による対話管理
 13.3 対話管理への統計的アプローチ
 13.4 まとめ

第14章 おわりに
 14.1 音声分析ツールwavesurfer
 14.2 HMM 作成ツールHTK
 14.3 大語彙連続音声認識エンジンJulius
 14.4 バーチャルエージェント対話ツールMMDAgent
 14.5 さらに詳しく学ぶには