注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)行業(yè)軟件及應(yīng)用聽覺信息處理研究前沿

聽覺信息處理研究前沿

聽覺信息處理研究前沿

定 價(jià):¥248.00

作 者: 黨建武,俞凱 等著
出版社: 上海交通大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787313222060 出版時(shí)間: 2021-05-01 包裝:
開本: 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  聽覺信息處理技術(shù)的創(chuàng)新能夠推動(dòng)實(shí)現(xiàn)高度智能化機(jī)器感知系統(tǒng)的發(fā)展,本分冊(cè)主要介紹了國(guó)內(nèi)外聽覺信息處理方面的研究現(xiàn)狀和階段性成果,通過對(duì)人類言語(yǔ)產(chǎn)生與聽覺機(jī)理,聽覺機(jī)理的計(jì)算理論與方法,語(yǔ)音信號(hào)處理,語(yǔ)音識(shí)別聲學(xué)建模,特殊場(chǎng)景語(yǔ)音識(shí)別,聲紋與語(yǔ)種識(shí)別,韻律、情緒及音樂分析,統(tǒng)計(jì)語(yǔ)音合成,口語(yǔ)對(duì)話系統(tǒng)等技術(shù)研究成果的闡述與分析,展示我國(guó)在這些研究領(lǐng)域的優(yōu)勢(shì)與特色,并提出未來的技術(shù)挑戰(zhàn)與發(fā)展方向。

作者簡(jiǎn)介

  俞凱,“國(guó)家杰青”獲得者,青年千人計(jì)劃入選者,上海市“東方學(xué)者”特聘教授,特別研究員,博導(dǎo),上海交通大學(xué)智能語(yǔ)音技術(shù)實(shí)驗(yàn)室負(fù)責(zé)人。研究領(lǐng)域:人機(jī)口語(yǔ)交互,獲“科學(xué)中國(guó)人 2016年度人物”,2014 年度“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”進(jìn)步獎(jiǎng),發(fā)表論文 50 余篇。黨建武,天津大學(xué)計(jì)算機(jī)學(xué)院教授,語(yǔ)音科學(xué)家,現(xiàn)兼任國(guó)立大學(xué)法人日本北陸先端科學(xué)技術(shù)大學(xué)院大學(xué)信息科學(xué)學(xué)院教授。他研發(fā)出的人的發(fā)音機(jī)制及控制的生理計(jì)算模型一直在該領(lǐng)域處于領(lǐng)先地位,并以此生理計(jì)算模型為基礎(chǔ)展開人腦在語(yǔ)音生成和感知方面的研究。他的研究室還進(jìn)行記憶的神經(jīng)生理模型及知識(shí)描述等研究。他組織和分擔(dān)過美日、中日多項(xiàng)國(guó)際合作研究開發(fā)項(xiàng)目。黨建武在JASA等科學(xué)技術(shù)雜志上發(fā)表了數(shù)十篇論文及二百余篇國(guó)際國(guó)內(nèi)會(huì)議研究。

圖書目錄

1 言語(yǔ)產(chǎn)生和聽覺的機(jī)理及其研究/黨建武 趙 彬 魏建國(guó) ………… 1
  1.1 言語(yǔ)產(chǎn)生和感知的機(jī)理 ………………………………………………… 3
1.1.1 有聲語(yǔ)言產(chǎn)生的條件 …………………………………………… 3
1.1.2 語(yǔ)音產(chǎn)生的機(jī)理 ………………………………………………… 5
1.1.3 語(yǔ)音感知的機(jī)理 ………………………………………………… 7
  1.2 聲源的產(chǎn)生與聲道的調(diào)制 …………………………………………… 13
1.2.1 聲源產(chǎn)生機(jī)理與感知 ………………………………………… 13
1.2.2 聲道的調(diào)制機(jī)理 ……………………………………………… 18
  1.3 言語(yǔ)產(chǎn)生與感知的相互作用 ………………………………………… 24
1.3.1 言語(yǔ)鏈 ………………………………………………………… 24
1.3.2 言語(yǔ)感知運(yùn)動(dòng)理論 …………………………………………… 26
1.3.3 言語(yǔ)感知機(jī)理研究的發(fā)展與挑戰(zhàn) …………………………… 27
1.3.4 鏡像神經(jīng)元和言語(yǔ)聽覺 運(yùn)動(dòng)整合 …………………………… 28
  1.4 言語(yǔ)的腦功能研究 …………………………………………………… 30
1.4.1 言語(yǔ)的腦認(rèn)知研究發(fā)展 ……………………………………… 30
1.4.2 言語(yǔ)的認(rèn)知神經(jīng)機(jī)理 ………………………………………… 33
1.4.3 言語(yǔ)功能障礙及康復(fù)訓(xùn)練 …………………………………… 42
 1.5 語(yǔ)音信號(hào)處理方法簡(jiǎn)介 ……………………………………………… 47
1.5.1 基于產(chǎn)生機(jī)理的信號(hào)處理方法 ……………………………… 48
1.5.2 基于感知機(jī)理的信號(hào)處理方法 ……………………………… 52
  參考文獻(xiàn) ……………………………………………………………………… 55
2 語(yǔ)音增強(qiáng)與麥克風(fēng)陣列信號(hào)處理/付中華 ……………………………… 69
  2.1 信號(hào)模型………………………………………………………………… 71
2.1.1 時(shí)域信號(hào)模型 ………………………………………………… 71
2.1.2 頻域信號(hào)模型與短時(shí)傅里葉變換技術(shù) ……………………… 72
  2.2 評(píng)價(jià)方法………………………………………………………………… 74
2.2.1 主觀評(píng)價(jià)方法與指標(biāo) ………………………………………… 74
2.2.2 客觀評(píng)價(jià)方法與指標(biāo) ………………………………………… 76
  2.3 單聲道語(yǔ)音增強(qiáng) ……………………………………………………… 78
2.3.1 時(shí)域維納濾波器增強(qiáng)原理 …………………………………… 80
2.3.2 頻域維納濾波器增強(qiáng)原理 …………………………………… 81
2.3.3 噪聲功率譜的估計(jì) …………………………………………… 84
2.3.4 基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng) …………………………………… 87
  2.4 麥克風(fēng)陣列語(yǔ)音增強(qiáng) ………………………………………………… 92
2.4.1 固定波束 ……………………………………………………… 93
2.4.2 自適應(yīng)波束 …………………………………………………… 106
2.4.3 后置濾波技術(shù) ………………………………………………… 113
  參考文獻(xiàn) ……………………………………………………………………… 119
3 語(yǔ)音識(shí)別聲學(xué)建模/俞 凱 徐 波 戴禮榮………………………… 123
  3.1 統(tǒng)計(jì)語(yǔ)音識(shí)別概述 …………………………………………………… 125
  3.2 基于隱馬爾可夫模型的經(jīng)典聲學(xué)建模方法 ……………………… 127
3.2.1 HMM……………………………………………………………… 127
3.2.2 GMM HMM在語(yǔ)音識(shí)別中的使用 ……………………………… 130
3.2.3 模型改進(jìn)及問題分析 ………………………………………… 132
3.2.4 自適應(yīng)技術(shù) …………………………………………………… 132
3.2.5 鑒別性訓(xùn)練技術(shù) ……………………………………………… 136
  3.3 結(jié)合深度學(xué)習(xí)的聲學(xué)建模方法……………………………………… 138
3.3.1 深度學(xué)習(xí)基礎(chǔ) ………………………………………………… 138
3.3.2 CD DNN HMM混合建模……………………………………………149
3.3.3 深度學(xué)習(xí)在聲學(xué)建模中的綜合應(yīng)用 ………………………… 152
3.3.4 深度學(xué)習(xí)訓(xùn)練加速 …………………………………………… 162
3.3.5 深度學(xué)習(xí)自適應(yīng)技術(shù) ………………………………………… 167
3.3.6 深度學(xué)習(xí)框架下的序列鑒別性訓(xùn)練 ………………………… 171
3.3.7 端到端聲學(xué)建模 ……………………………………………… 174
  參考文獻(xiàn) …………………………………………………………… 179
4 特殊場(chǎng)景語(yǔ)音識(shí)別(抗噪、低資源)/謝 磊 張鵬遠(yuǎn) 錢彥旻
杜 俊 ………………………………………………………………………… 191
  4.1 魯棒語(yǔ)音識(shí)別前端 …………………………………………………… 193
4.1.1 噪聲魯棒性語(yǔ)音識(shí)別方法 …………………………………… 193
4.1.2 魯棒性特征 …………………………………………………… 194
4.1.3 信號(hào)域增強(qiáng) …………………………………………………… 195
4.1.4 特征增強(qiáng)/ 補(bǔ)償方法 ………………………………………… 207
  4.2 環(huán)境表達(dá)與聲學(xué)模型自適應(yīng)………………………………………… 209
4.2.1 自適應(yīng)與魯棒性 ……………………………………………… 209
4.2.2 基于保守訓(xùn)練的自適應(yīng) ……………………………………… 210
4.2.3 基于線性變換的自適應(yīng) ……………………………………… 212
4.2.4 基于環(huán)境感知的自適應(yīng) ……………………………………… 213
4.2.5 參數(shù)結(jié)構(gòu)化自適應(yīng)及自適應(yīng)訓(xùn)練 …………………………… 216
  4.3 多語(yǔ)種聲學(xué)與語(yǔ)言建模 ……………………………………………… 217
4.3.1 基于知識(shí)共享的多語(yǔ)言聲學(xué)建模技術(shù) ……………………… 217
4.3.2 小語(yǔ)種語(yǔ)言模型建模技術(shù) …………………………………… 221
  參考文獻(xiàn) ……………………………………………………………………… 224
5 聲紋識(shí)別與語(yǔ)種識(shí)別/王龍標(biāo) 李 明 鄭 方 程星亮 李藍(lán)天
………………………………………………………………………………… 237
  5.1 聲紋識(shí)別與語(yǔ)種識(shí)別簡(jiǎn)介 …………………………………………… 239
5.1.1 傳統(tǒng)方法 ……………………………………………………… 241
5.1.2 深度學(xué)習(xí)方法 ………………………………………………… 242
5.1.3 遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)及多數(shù)據(jù)庫(kù)聯(lián)合學(xué)習(xí) ……………… 246
  5.2 聲紋識(shí)別經(jīng)典算法 …………………………………………………… 246
5.2.1 特征提取 ……………………………………………………… 246
5.2.2 GMM-UBM-MAP ………………………………………………… 249
5.2.3 i-vector ……………………………………………………… 252
5.2.4 PLDA………………………………………………………………256
  5.3 魯棒性聲紋識(shí)別算法 ………………………………………………… 261
5.3.1 復(fù)雜環(huán)境聲紋識(shí)別 …………………………………………… 262
5.3.2 時(shí)變聲紋識(shí)別 ………………………………………………… 265
5.3.3 短語(yǔ)音聲紋識(shí)別 ……………………………………………… 267
5.3.4 防聲紋假冒闖入對(duì)策 ………………………………………… 270
  5.4 基于深度學(xué)習(xí)的聲紋及語(yǔ)種識(shí)別算法……………………………… 275
5.4.1 廣義統(tǒng)計(jì)量 …………………………………………………… 276
5.4.2 Tandem及Bottleneck特征…………………………………… 278
5.4.3 典型模型結(jié)構(gòu) ………………………………………………… 279
  5.5 評(píng)價(jià)指標(biāo)、數(shù)據(jù)庫(kù)及工具包 ………………………………………… 283
5.5.1 評(píng)價(jià)指標(biāo) ……………………………………………………… 283
5.5.2 數(shù)據(jù)庫(kù)及工具包 ……………………………………………… 284
  參考文獻(xiàn) ……………………………………………………………………… 285
6 韻律、情緒及音樂分析/陶建華 李愛軍 李 偉 …………………… 305
  6.1 言語(yǔ)韻律 ……………………………………………………………… 307
6.1.1 言語(yǔ)韻律基本概念與理論 …………………………………… 307
6.1.2 韻律分析與建模 ……………………………………………… 313
6.1.3 韻律標(biāo)注系統(tǒng) ………………………………………………… 317
6.1.4 漢語(yǔ)韻律研究的挑戰(zhàn) ………………………………………… 320
  6.2 情感語(yǔ)音 ……………………………………………………………… 322
6.2.1 情感語(yǔ)音的聲學(xué)特征 ………………………………………… 322
6.2.2 語(yǔ)音的情感分類與識(shí)別 ……………………………………… 324
6.2.3 情感語(yǔ)音合成 ………………………………………………… 331
  6.3 音樂內(nèi)容分析理解 …………………………………………………… 336
6.3.1 音樂和語(yǔ)音的關(guān)系 …………………………………………… 336
6.3.2 音樂旋律分析 ………………………………………………… 340
6.3.3 音樂節(jié)奏分析 ………………………………………………… 344
  參考文獻(xiàn) ……………………………………………………………………… 349
7 統(tǒng)計(jì)語(yǔ)音合成/凌震華 陶建華 ………………………………………… 355
  7.1 語(yǔ)音合成概述 ………………………………………………………… 357
  7.2 基于隱馬爾可夫模型的統(tǒng)計(jì)語(yǔ)音合成方法 ……………………… 359
7.2.1 隱馬爾可夫模型 ……………………………………………… 359
7.2.2 基于HMM的統(tǒng)計(jì)參數(shù)語(yǔ)音合成 …………………………… 361
7.2.3 基于HMM的統(tǒng)計(jì)參數(shù)語(yǔ)音合成關(guān)鍵技術(shù) ………………… 363
7.2.4 基于HMM的語(yǔ)音合成靈活性 ……………………………… 366
7.2.5 基于HMM的統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法的優(yōu)缺點(diǎn) …………… 372
  7.3 結(jié)合深度學(xué)習(xí)的統(tǒng)計(jì)語(yǔ)音合成方法………………………………… 374
7.3.1 深度學(xué)習(xí)關(guān)鍵技術(shù) …………………………………………… 374
7.3.2 基于深度學(xué)習(xí)的聲學(xué)建模方法 ……………………………… 379
7.3.3 基于深度學(xué)習(xí)的頻譜特征提取與頻譜生成后濾波 ………… 391
7.3.4 基于神經(jīng)網(wǎng)絡(luò)的波形生成方法 ……………………………… 394
  7.4 基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成前端處理………………………………… 399
7.4.1 基于深度學(xué)習(xí)的字音轉(zhuǎn)換 …………………………………… 399
7.4.2 基于深度學(xué)習(xí)的韻律邊界預(yù)測(cè) ……………………………… 400
  7.5 基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成端到端建模方法 ……………………… 402
  參考文獻(xiàn) ……………………………………………………………………… 406
8 人機(jī)口語(yǔ)對(duì)話系統(tǒng)/俞 凱 陳 露 …………………………………… 415
  8.1 人機(jī)口語(yǔ)對(duì)話系統(tǒng)概述 ……………………………………………… 417
8.1.1 人機(jī)口語(yǔ)對(duì)話系統(tǒng)發(fā)展歷史及分類 ………………………… 417
8.1.2 任務(wù)型人機(jī)口語(yǔ)對(duì)話系統(tǒng)的基本架構(gòu) ……………………… 418
8.1.3 對(duì)話系統(tǒng)的評(píng)估 ……………………………………………… 420
  8.2 口語(yǔ)理解 ……………………………………………………………… 422
8.2.1 口語(yǔ)理解基本概念 …………………………………………… 422
8.2.2 口語(yǔ)理解算法前沿 …………………………………………… 427
8.2.3 口語(yǔ)理解中的不確定性建模 ………………………………… 437
8.2.4 上下文建模及領(lǐng)域自適應(yīng) …………………………………… 440
8.2.5 研究展望 ……………………………………………………… 445
  8.3 對(duì)話狀態(tài)跟蹤 ………………………………………………………… 446
8.3.1 基于部分可觀測(cè)馬爾可夫決策過程(POMDP)的對(duì)話管理
框架概述 ……………………………………………………… 446
8.3.2 對(duì)話狀態(tài)跟蹤 ………………………………………………… 447
8.3.3 對(duì)話狀態(tài)跟蹤挑戰(zhàn)賽 ………………………………………… 449
8.3.4 基于統(tǒng)計(jì)的DST模型………………………………………… 449
8.3.5 基于規(guī)則的DST模型………………………………………… 450
8.3.6 基于規(guī)則與統(tǒng)計(jì)相結(jié)合的DST模型………………………… 451
8.3.7 端到端的DST模型…………………………………………… 453
8.3.8 多領(lǐng)域DST模型……………………………………………… 457
  8.4 對(duì)話策略優(yōu)化 ………………………………………………………… 458
8.4.1 強(qiáng)化學(xué)習(xí)及其在對(duì)話策略優(yōu)化中的應(yīng)用 …………………… 458
8.4.2 深度強(qiáng)化學(xué)習(xí)在對(duì)話策略優(yōu)化中的應(yīng)用 …………………… 463
8.4.3 對(duì)話策略優(yōu)化的高級(jí)技術(shù) …………………………………… 466
8.4.4 用戶模擬器 …………………………………………………… 469
  參考文獻(xiàn) ……………………………………………………………………… 475
9 面向健康醫(yī)療的語(yǔ)音技術(shù)/賈 珈 ……………………………………… 489
  9.1 言語(yǔ)感知的腦機(jī)制 …………………………………………………… 491
9.1.1 言語(yǔ)感知機(jī)理 ………………………………………………… 491
9.1.2 言語(yǔ)感知障礙的腦機(jī)制 ……………………………………… 499
  9.2 助聽技術(shù)與聽障評(píng)估 ………………………………………………… 503
9.2.1 人工電子耳的構(gòu)成 …………………………………………… 505
9.2.2 人工電子耳語(yǔ)音信號(hào)編碼方案 ……………………………… 506
9.2.3 人工電子耳的當(dāng)前技術(shù)挑戰(zhàn) ………………………………… 507
9.2.4 聽障評(píng)估技術(shù) ………………………………………………… 507
  9.3 嗓音障礙產(chǎn)生機(jī)制與客觀評(píng)估技術(shù)………………………………… 510
9.3.1 嗓音障礙產(chǎn)生機(jī)制 …………………………………………… 511
9.3.2 嗓音障礙的聲學(xué)客觀評(píng)估方法 ……………………………… 512
  9.4 言語(yǔ)康復(fù)訓(xùn)練與學(xué)習(xí) ………………………………………………… 515
9.4.1 言語(yǔ)康復(fù)技術(shù)概述 …………………………………………… 516
9.4.2 可視化言語(yǔ)康復(fù)訓(xùn)練 ………………………………………… 519
  參考文獻(xiàn) ……………………………………………………………………… 525
索引 ……………………………………………………………………………… 529

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)