123,123

內(nèi)容簡(jiǎn)介

　　本書系統(tǒng)、深入講解了科學(xué)計(jì)算及企業(yè)級(jí)應(yīng)用的并行優(yōu)化方法與最佳實(shí)踐。第1章介紹了常見的并行編程基于的多核/眾核向量處理器架構(gòu)。第2章介紹了如何在X86、ARM和GPU上優(yōu)化常見的線性代數(shù)運(yùn)算。第3章介紹了如何在X86和GPU處理器上優(yōu)化偏微分方程的求解。第4章介紹了如何在X86處理器和GPU上優(yōu)化常見的分子動(dòng)力學(xué)算法。第5章詳細(xì)介紹了如何在X86、ARM和GPU上優(yōu)化常見的機(jī)器學(xué)習(xí)算法。

作者簡(jiǎn)介

暫缺《科學(xué)計(jì)算與企業(yè)級(jí)應(yīng)用的并行優(yōu)化》作者簡(jiǎn)介

圖書目錄

序
前言
第1章多核向量處理器架構(gòu) 1
1.1 眾核系統(tǒng)結(jié)構(gòu) 2
1.2 眾核架構(gòu)的一致性 3
1.3 多核向量處理器架構(gòu) 5
1.3.1 Intel Haswell CPU架構(gòu) 6
1.3.2 ARM A15多核向量處理器架構(gòu) 10
1.3.3 AMD GCN GPU架構(gòu) 12
1.3.4 NVIDIA Kepler和Maxwell GPU架構(gòu) 15
1.4 Intel MIC架構(gòu) 21
1.4.1 整體架構(gòu) 22
1.4.2 計(jì)算單元 22
1.4.3 存儲(chǔ)器單元 24
1.4.4 MIC架構(gòu)上一些容易成為瓶頸的設(shè)計(jì) 25
1.5 OpenCL程序在多核向量處理器上的映射 26
1.5.1 OpenCL程序在多核向量CPU上的映射 26
1.5.2 OpenCL程序在NVIDIA GPU上的映射 28
1.5.3 OpenCL程序在AMD GCN上的映射 34
1.6 OpenCL程序在各眾核硬件上執(zhí)行的區(qū)別 39
1.7 眾核編程模式 42
1.8 眾核性能優(yōu)化 42
1.9 MIC和GPU編程比較 43
1.10 本章小結(jié) 43
第2章常見線性代數(shù)算法優(yōu)化 44
2.1 稀疏矩陣與向量乘法 44
2.1.1 稀疏矩陣的存儲(chǔ)格式 45
2.1.2 CSR 格式稀疏矩陣與向量乘法 46
2.1.3 ELL格式稀疏矩陣與向量乘 56
2.2 對(duì)稱矩陣與向量乘積 58
2.2.1 串行代碼 59
2.2.2 向量化對(duì)稱矩陣與向量乘積 60
2.2.3 OpenMP 并行化 60
2.2.4 CUDA 代碼 60
2.3 三角線性方程組的解法 63
2.3.1 串行算法 64
2.3.2 串行算法優(yōu)化 65
2.3.3 AVX 優(yōu)化實(shí)現(xiàn) 65
2.3.4 NEON 優(yōu)化實(shí)現(xiàn) 66
2.3.5 如何提高并行度 67
2.3.6 CUDA 算法實(shí)現(xiàn) 68
2.4 矩陣乘法 71
2.4.1 AVX指令計(jì)算矩陣乘法 72
2.4.2 NEON指令計(jì)算矩陣乘法 75
2.4.3 GPU計(jì)算矩陣乘法 77
2.5 本章小結(jié) 81
第3章優(yōu)化偏微分方程的數(shù)值解法 82
3.1 熱傳遞問題 83
3.1.1 C代碼及性能 84
3.1.2 OpenMP代碼及性能 85
3.1.3 OpenACC代碼及性能 87
3.1.4 CUDA代碼 88
3.2 簡(jiǎn)單三維Stencil 91
3.2.1 串行實(shí)現(xiàn) 92
3.2.2 Stencil在X86處理器上實(shí)現(xiàn)的困境 93
3.2.3 CUDA實(shí)現(xiàn) 93
3.3 本章小結(jié) 96
第4章優(yōu)化分子動(dòng)力學(xué)算法 97
4.1 簡(jiǎn)單搜索的實(shí)現(xiàn) 98
4.1.1 串行代碼 99
4.1.2 向量化實(shí)現(xiàn)分析 100
4.1.3 OpenMP實(shí)現(xiàn) 101
4.1.4 CUDA實(shí)現(xiàn) 102
4.2 范德華力計(jì)算 104
4.2.1 串行實(shí)現(xiàn) 104
4.2.2 向量化實(shí)現(xiàn)分析 105
4.2.3 OpenMP實(shí)現(xiàn) 106
4.2.4 CUDA實(shí)現(xiàn) 106
4.2.5 如何提高緩存的利用 108
4.3 鍵長(zhǎng)伸縮力計(jì)算 108
4.3.1 串行實(shí)現(xiàn) 109
4.3.2 向量化實(shí)現(xiàn) 111
4.3.3 OpenMP實(shí)現(xiàn) 111
4.3.4 CUDA實(shí)現(xiàn) 114
4.4 徑向分布函數(shù)計(jì)算 116
4.4.1 串行實(shí)現(xiàn) 117
4.4.2 向量化實(shí)現(xiàn) 118
4.4.3 OpenMP實(shí)現(xiàn) 118
4.4.4 CUDA實(shí)現(xiàn) 121
4.5 本章小結(jié) 126
第5章機(jī)器學(xué)習(xí)算法 127
5.1 kmeans算法 128
5.1.1 計(jì)算流程 128
5.1.2 計(jì)算元素所屬分類 129
5.1.3 更新分類中心 136
5.1.4 入口函數(shù) 140
5.2 KNN算法 142
5.2.1 計(jì)算步驟 142
5.2.2 相似度計(jì)算 143
5.2.3 求前k個(gè)相似度最大元素 144
5.2.4 統(tǒng)計(jì)所屬分類 145
5.3 二維卷積 146
5.3.1 X86實(shí)現(xiàn) 147
5.3.2 ARM實(shí)現(xiàn) 152
5.3.3 CUDA實(shí)現(xiàn) 155
5.4 四維卷積 162
5.4.1 X86實(shí)現(xiàn) 163
5.4.2 ARM 實(shí)現(xiàn) 169
5.4.3 CUDA實(shí)現(xiàn) 172
5.5 多GPU并行優(yōu)化深度學(xué)習(xí)軟件Caffe 176
5.5.1 為什么要使用多GPU并行Caffe 177
5.5.2 AlexNet示例 177
5.5.3 Caffe的主要計(jì)算流程 180
5.5.4 多GPU并行卷積神經(jīng)網(wǎng)絡(luò)的方式 185
5.5.5 多GPU并行Caffe實(shí)踐 187
5.6 本章小結(jié) 190

作　者：	劉文志
出版社：	機(jī)械工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	計(jì)算機(jī)/網(wǎng)絡(luò) 企業(yè)軟件開發(fā)與實(shí)施

ISBN：	9787111506287	出版時(shí)間：	2015-07-01	包裝：
開本：		頁數(shù)：		字?jǐn)?shù)：

科學(xué)計(jì)算與企業(yè)級(jí)應(yīng)用的并行優(yōu)化

購買這本書可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書目錄

本目錄推薦

數(shù)據(jù)清洗

Python編程與幾何圖形

數(shù)據(jù)的邊界

用Proteus可視化設(shè)計(jì)玩轉(zhuǎn)Arduin…

基于隨機(jī)場(chǎng)的水下聲吶圖像處理

多核處理器緩存優(yōu)化關(guān)鍵問題研究…

Anylogic建模與仿真

2049年中國(guó)科技與社會(huì)愿景：先進(jìn)…

R統(tǒng)計(jì)高級(jí)編程和數(shù)據(jù)模型：分析…

Linux服務(wù)器配置與管理