What are the opening hours?

Monday 09:00 - 18:00 Tuesday 09:00 - 18:00 Wednesday 09:00 - 18:00 Thursday 09:00 - 18:00 Friday 09:00 - 18:00

Redefine Innovation, 復興北路367號8樓, Taipei (2026)

19/04/2026

這兩天很多人出來發文嘲諷Jensen，發迷因把Jensen的頭放在一台汽車上，只因為他在過去那麼多正確的決策下有幾個不完美的決策。

如果你去看過去十年每一年的GTC大會，你就會知道很多事情Jensen的佈局和思考是看得很遠的。

但是，覺得很遺憾在NVIDIA已經在佈局下一個五到十年，針對下一個重要市場結構變化打造策略時，很多人還在用現在、甚至有點過時的市場資訊來評斷Jensen和NVIDIA的策略。

當很多人還覺得Inference Tokens只有成本一個指標時，市場已經開始演化出高階&中低階兩個不同的市場，也有不同的指標和適合的競爭策略。

市場正在演化到下一個新的結構，如果我們還在用舊的結構來去判斷NVIDIA的策略，自然沒辦法理解Jensen想要表達什麼。我想，任何一個能把公司能做到年成長超過70%的CEO，即便在所有CEO裡，都不能算是普通人、普通表現了吧？

30/01/2026

「Co-Packaged Optics (CPO) 的趨勢、技術與製程」

在2025年的NVIDIA GTC大會上，Jensen Huang宣布將在接下來的Networking晶片上，導入Co-Packaged Optics (CPO) 技術。而在2026年的CES，Jensen宣布導入CPO技術的Spectrum-X Switch (102T Scale-Out Switch) 即將隨著Vera Rubin GPU平台量產。

NVIDIA對CPO的導入，象徵了Co-Packaged Optics的技術，終於要邁向業界量產的階段。

做為半導體產業最新的技術發展之一，Co-Packaged Optics有機會提升AI Cluster的整體算力並大幅降低能耗，所以今天就來快速分享一下為什麼需要CPO，以及接下來可能的發展趨勢。

▌為什麼需要CPO (Co-Packaged Optics) ?

如果你有注意到的話，先進封裝和data傳輸的界線變得越來越模糊，因為如果能晶片做先進封裝的話，就能大幅增加data傳輸的速度並降低能耗。

目前，AI晶片和Server的能耗越來越高，而現在動輒10萬顆GPU起跳的Cluster，更是一個吃電怪獸。

因此，如何降低AI晶片Cluster的能耗，就變成是一個重要的課題。

在AI Cluster的能耗上，資料的搬運和傳輸其實佔了很大的一個部分，因此大家都在找解決方案。

而根據NVIDIA自己的計算，CPO能夠降低總體Switch的I/O能耗到原本的1/3以下，因此，導入這種整合先進封裝和矽光子技術的CPO技術，就變成接下來發展很大的一個重點。

▌CPO對半導體產業的影響是什麼？

前面我們提到，CPO的導入可以大幅降低AI Cluster的能耗，不過我們還沒提到，要達到接下來的要求，半導體產業會需要發展很多相關的光學微結構以及整合先進封裝的技術。

而接下來在NVIDIA大量導入後，先進封裝、Modulator、IO Coupler……等技術都會需要再持續發展。因此，我們會看到先進封裝與矽光子技術的持續發展和整合。

這樣的趨勢也會推動先進封裝技術的持續發展。

▌CPO發展趨勢

不過，我們會看到CPO的發展趨勢不只在先進封裝，如何將光子引擎 (Optical Engine, 如TSMC的COUPE) 能夠做得更小 (如NVIDIA導入MRM)，如何讓光子引擎中的頻寬增加，甚至是訊號雜訊更低，都會是光子引擎發展的重要技術方向。

而比較廣的，就是光通訊要如何和其他的晶片整合，可以是用先進封裝的方式將Photonic IC和別的晶片整合，甚至是將光波導做在載版或中介層上，大幅增加資料傳輸的速度和自由度。我們接下來將會看到更多半導體和矽光子的結合。

在AI Cluster仍然在快速變大的情況下 (Grok預估到2030年要再增加數百萬顆GPU，Stargate也是)，只要能降低晶片和晶片之間傳輸的能耗一點點，就會對整個Cluster產生及大的效益。因此，CPO的任何技術發展都有被快速放大其效益的機會。

而這也會是接下來半導體產業發展的重要方向之一，大公司如Broadcom、NVIDIA、TSMC，新創如Ayar Labs、Lightmatter……等都在大力的發展CPO技術。

因為最近有很多半導體產業同好要求的關係，我們特別去整理了最近CPO的技術和發展趨勢，做成一個Workshop給需要的人。

而為了讓大家能有一個更全面的了解，這個Workshop會串連較廣的CPO商業趨勢 (背後需求驅動)、CPO中主要的技術分析、還有CPO細部的Process Flow拆解，讓大家可以有一個全面的了解。

歡迎想要更深入了解半導體產業＆CPO最新發展的版友參加～

Workshop大綱和Workshop報名資訊如下：

▌「共同封裝光學 (CPO) 技術趨勢」Workshop大綱 (Workshop P3)

1. AI System Scaling Trends: The Importance of CPO

2. CPO Technology Trends

3. PIC技術拆解

4. CPO製程分析 (含Process Flow)

5. Competitions & Future Development

▌報名資訊：
- 講者：Redefine Innovation 顧問服務負責人 Vince Liu（前ASML荷蘭總部產品經理）

- 形式：線上課程（本活動已經上架線上課程平台，報名後1週內會收到線上課程平台權限，兩週內不限次數觀看）

- 價格：NT$3000 / 人 (包含講義及兩週回放複習影片）

- 報名截止時間：2026/2/8 (Sun.) 17:00

- 報名連結：
請見留言處

24/01/2026

「NVIDIA的AI運算系統演進 - 從晶片到系統層面競爭」

在2026的CES中，NVIDIA CEO Jensen Huang特別強調了”Extreme Co-Design”的概念，一次列出6大晶片，象徵著整體系統的疊代。事實上，這樣的系統不是一夕之間成形，而是經過NVIDIA多年的併購、開發新晶片而達成。因此，”Extreme Co-Design”不是一個新的概念，更像是NVIDIA這10年來發展的一個重大Milestone。

本篇文章，本來是想要簡介這樣從晶片到系統層級發展的一個典範轉移，沒想到，把需要的脈絡交代完以後就變成了一篇長文。因此，這會是一篇不短的文章，有興趣往下看的人請注意接下來會有不短的篇幅還有技術趨勢討論，請慎入。

本文開始。

如果你有持續觀察GPU晶片的整體發展的話，你可能會觀察到，整體GPU系統架構的演化，已經從單純串接更多顆GPU，到多種晶片特化。這讓我們發現到一件重要的事情：這些AI晶片在被設計時，關注的不只是單一晶片效能，而是如何達到「全域優化」，以整體系統的角度來設計所有的晶片。

因此，我們會注意到，系統算力提昇的重點，已經從之前電晶體密度的增加，到GPU/ASIC單一晶片的加速。而正在發生的，會是多晶片的特化＋整體系統的Extreme Co-Design，而不再只是單一晶片的發展。

從這邊，我們可以看到，NVIDIA的策略和ASIC策略的不同，不是NVIDIA因為覺得客製化晶片不重要，而是NVIDIA直接在系統層面上做特化。而且，我們也可以觀察到，Google、Amazon…..等公司也開始在往同樣的方向發展，比如他們都有在開發屬於自己的CPU和其他晶片。

目前的AI系統發展，正在進展到一個新的階段，也就是AI系統的整體重構。你會看到AI系統的四大面向：運算、記憶體、晶片互連、供電，都在重新被設計和建構。接下來的發展就會是以這幾個面向的整體重構作為主軸。

而這篇文章，我們會聚焦在運算部分的系統架構演進來描述近期的重要發展。運算系統的架構演進，主要可以分成四個重點來討論：Extreme Co-Design (6種以上特化晶片)、運算設計從GPU集中到「GPU集中運算＋局域分散運算」、Logic晶片和HBM的整合 (Custom HBM)、軟體層的發展。

就讓我們就這四個主要面向來討論。

▌1. Extreme Co-Design: 6種以上特化晶片

首先，我們需要理解一下，為什麼會需要這麼多種特化晶片來取代早期的CPU來做運算，而不單純只是用GPU？

因為，在所有的運算中，只有一部分是適合被平行運算替代的工作，而不是所有運算都能被平行化放入GPU的運算工作，而其他傳輸相關和系統相關的運算，也正在被放進獨立的特化晶片中。

所以我們會看到，CPU和GPU之外，還發展出另外好幾顆特化的晶片，來offload CPU或GPU的傳輸或運算，增加整體系統效率。因為CPU和GPU比較常見，所以我們就不多加介紹，以下就以系統的角度分介紹其他幾顆晶片，並讓大家更了解整體系統的運作與設計：

➤ NVSwitch - 保證GPU Server Rack內GPU高速互連

首先，是晶片和晶片互連的工作使用NVSwitch來執行，NVSwitch有兩個功用，主要的功用是傳輸，確保資料在大量GPU之間能以最高速度和最低延遲來傳輸。而第二個功用是整合了部分的運算工作，讓某些All Reduce和需要整合多個GPU資料的資料運算可以在NVSwitch整合後再分發到各個GPU，節省大量頻寬和部分在GPU內部的運算。

➤ BlueField - 卸載CPU的基礎設施管理

再來是BlueField晶片，BlueField 的核心目標是將原本由 CPU 負擔的「基礎設施任務」（如網路通訊、存儲管理、安全加密）卸載到專門的晶片上，讓 CPU 能專注於執行應用程式，GPU 專注於 AI 計算。

有很多重要的工作會在BlueField晶片裡完成，比如說：遠端記憶體存取 (RDMA / RoCE 支援)、處理乙太網路（Ethernet）或 InfiniBand 的資料包轉發、安全加密運算 (Security/Encryption)、存儲邏輯處理 (Storage Offload)、虛擬交換器管理 (vSwitch/vRouter)......等，包含了支援傳輸、儲存管理、加密運算......等功能。

而最新的功能則是NVIDIA所推出最新的KV Cache記憶體管理，由BlueField來主導，主要是讓BlueField晶片可以做超大規模 KV 快取共享 (Pod-scale Sharing)、SSD記憶體中的上下文預讀、硬體加速 KV 快取放置 (Accelerated KV Placement)、海量情境資料的索引與標籤......等原本可能會耗用大量CPU資源的工作，來讓整體系統的運作更有效率。

➤ ConnectX - 確保高效GPU Rack互連

ConnectX晶片負責處理Scale-Out領域的資料傳輸和運算，它主要是GPU Rack和其他Rack的高速、低延遲通道，可以讓數萬顆或以上的GPU同時順暢運作。

它和NVSwitch有類似的功能，不過在工作範圍上區分得很明確。NVSwitch主要是處理Server Rack內部的晶片互連，如NVL72內部的GPU和GPU互連，而ConnectX主要是處理Rack以外GPU和GPU Rack間的互連，還有和SSD Storage的串連。

ConnectX和BlueField之間的分工就是，BlueField負責分派要如何傳輸，ConnectX負責達成高速、低延遲傳輸。

從前面的討論我們可以發現，NVIDIA把各種不同類型的傳輸和運算獨立出來，分別特化成不同的晶片。相對於一顆晶片來處理各種不同的運算來說，獨立特化成不同的晶片，一來可以比較有效率，二來也可以根據所需的晶片數量去做不同的數量分配，達成更好的資源優化。

所以你覺得NVIDIA比較偏一般平行運算，沒有做特化的晶片？實際情況可能跟你想得不一樣。

▌2. 運算設計從GPU集中運算到「GPU集中運算＋局域分散運算」

從前面的解說我們可以發現，其實整個加速運算的工作，從原本的單顆GPU負責所有的平行運算，到後面延伸出NVSwitch、BlueField、ConnectX、Spectrum等晶片，除了負責晶片之間的資料傳述、卸載CPU的部份工作外，還開始將一部分較簡單或是可以在局部先執行的運算，下放到這些原本主要是處理資料傳輸的晶片上。

這個跟整個系統的發展有關。早期GPU都是以單顆運算為主，到了2016年時，NVIDIA推出配置8顆GPU的DGX-1，搭配NVLink，解決GPU之間互連速度的問題。到了2018年的DGX-2，GPU的數量增加到16個，因此發展出了NVSwitch，讓GPU可以達成任意對接 (Any-to-Any) 的目的。

而到了NVSwitch 3，正式的加入SHARP In-Network Computing Controller，SHARP含運算單元，可以直接在NVSwitch裡面處理一些簡單的運算和資料整合，這樣可以將一些簡單的運算在NVSwitch內直接完成，不需要什麼都要傳到GPU運算再傳回來，大幅降低GPU的loading和資料的來回傳輸。

而ConnectX也可以作類似的In-Network Computing，因此，我們會發現，NVIDIA開始將運算作全域的優化，也就是將運算分散在CPU、GPU、BlueField、NVSwitch、ConnectX…..等晶片，最優化系統的效能，不見得要全部都放到GPU上面作運算。

我們可以看做是從GPU延伸到整個系統運算的演進。

▌3. Custom HBM: Near Memory Computing正在發生

而如果對AI模型有研究的人，可能會知道，HBM除了容量以外，頻寬在AI模型運算中佔了很重要的地位，模型吐出Token的速度，和HBM的頻寬有著很大的關係，模型越大，就越吃HBM頻寬。因此，我們會看到HBM的頻寬和容量在每一代都快速增加中。

而HBM和GPU之間的資料傳輸，一直都是整個系統資料傳輸和能耗的大宗，因此，大家都在想辦法盡量增加頻寬，且縮小運算晶片和記憶體之間的距離。

Custom HBM是接下來HBM發展的一個重要方向，而且象徵著運算晶片和記憶體有更深度的整合。

因為Custom HBM將原本HBM最底下的Base Die從記憶體廠自己製造的晶片，換成邏輯晶片廠提供的Logic Base Die。而且，對於Function的配置，也有調整。將原本放在GPU或AI晶片中的HBM Controller，移到HBM的Base Die中。

這表示Custom HBM有一個整體性的改變，除了將原本放在GPU/ASIC裡面的HBM Controller移到HBM Base Die裡面可以清出更多空間放GPU/ASIC運算單元外，也會將邏輯晶片和HBM的距離拉近。因為，有一些較簡單的計算，可以在HBM Base Die處理完以後再傳回GPU/ASIC，不需要傳回GPU/ASIC後再處理。

所以，Custom HBM的演進，也代表了Logic和Memory整合性的提高，也會發現，Base Die的演變也代表Near Memory Computing的概念正在發生。

▌4. 軟體層的發展: 運算資源最佳優化

最後，硬體層優化之後，軟體層能精準的調動分配資源，就變得非常重要了。

因此，我們看到NVIDIA發展出系統層級的資源調度軟體。由於這部份有很多面向，但比較具有代表性的就是NVIDIA在AI Inference使用上所開發出的Dynamo軟體。

首先，Dynamo根據大語言模型的不同階段 (Prefill - 預填充和Decode - 解碼) 做不同的資源配置，因為Prefill是屬於運算密集型（Compute-bound），Decode是屬於記憶體頻寬密集型（Memory-bound）。

單用一顆GPU時沒有辦法動態分配GPU運算和記憶體使用的比例，但是用多顆GPU時，就可以搭配不同的Task的不同階段，去動態分配適合的資源到不同的Task，可以大幅優化資源使用效率。因此，多顆GPU搭配Dynamo，可以比單顆GPU的運算效率高好幾倍。

當然，這只是一個例子，Dynamo還有動態資源調度 (GPU Planner)、高效 KV Cache 管理、智慧路由 (Smart Routing)......等功能，在各個不同的面向都能最大化資源調度效率。因此，軟體層變成NVIDIA GPU在發展到更大系統層級後，提昇效率的重要部分。

▌Conclusion - 從單晶片到系統層級競爭

整體來說，我們會發現，AI晶片的發展，已經從單純的GPU vs. ASIC的這種晶片層級的比較競爭，提升到系統層面的架構發展和競爭。

因此，關於未來晶片的發展，我們需要從系統層級來看這件事情。而這不再只是單一晶片的事，而是多顆特化晶片，互相配合，再加上軟體層優化資源調動。

如果仔細觀察，我們會注意到NVIDIA非常早就從系統的層次布局整個架構，這個也是NVIDIA非常擅長的方式。當AMD專注從先進封裝技術發展堆疊算力時，NVIDIA已經從更高層次的架構創新出發。

快速拉開差距後，我們會發現，半導體晶片的算力發展，從來都不只有電晶體和封裝層面的技術發展，架構的創新和運算資源配置的優化會是未來的重大趨勢 (也就是系統特化的趨勢)。

現在的半導體晶片發展，不只是單純增加電晶體的數量，而是電晶體數量和高效運算資源調配架構並重，並極度的根據AI演算法優化。

因此，我們可以預期，未來的AI晶片大戰，將會從單純的GPU vs. ASIC晶片層級競爭，變成多晶片的AI客製化晶片艦隊大戰，我們從Google、Amazon甚至AMD目前的晶片開發產品部屬，就可以嗅到這樣的趨勢了。

08/01/2026

「NVIDIA如何壓制其他競爭者：NVIDIA的多晶片策略」

如果你有關注NVIDIA發展路徑的話，你可能會發現，早期當大部分的IC設計公司都還在關注單一晶片技術，從先進製程慢慢延伸到先進封裝時，NVIDIA已經開始從更高維度的系統去佈局他們的策略了。

這幾年半導體產業有一個很大的典範轉移，電晶體密度已經不再是唯一驅動算力成長的重點，「垂直整合」和「系統瓶頸」才是算力成長的關鍵。

而NVIDIA觀察到了這點，2020年前後，當大家才剛開始討論先進封裝時，NVIDIA已經併購了Mellanox，開啟了他們的多晶片策略。

從那時候開始，他們的佈局聚焦在解決系統的瓶頸，比如說引入Grace CPU和大力發展NVLink，而不是只解決單一晶片的性能問題。在此同時 (2020年)，AMD還在跟Intel奮戰CPU市場，而Intel正在解決被超越的先進製程問題。

如果我們觀察NVIDIA這幾年的發展，我們不得佩服NVIDIA的先見之明。

因此，這一篇我們想要延續NVIDIA CES 2026的討論，來看一下半導體產業的典範轉移以及NVIDIA的多晶片佈局。

▌I. 大家忽略了什麼？- 專注比較晶片，忽略了系統典範轉移 (半導體產業從晶片到系統的極致轉型)

首先，我們從半導體產業的典範轉移開始看起，這幾年半導體產業經歷了從聚焦單一晶片算力到整體系統算力的極致轉型。

當大家還在比較誰的先進封裝技術比較好，ASIC和GPU誰性價比比較高時，Jensen Huang早就已經在佈局一個更高的維度，也就是整個系統的算力。

5年前，大家還在以摩爾定律為中心來看半導體產業，聚焦在電晶體密度提昇所帶來的算力提昇時，NVIDIA正在
- 併購Mellanox，用其BlueField DPU來offload CPU的運算負載
- 打造NVLink，消除晶片和晶片之間傳輸的瓶頸
- 打造Grace CPU，加速整體系統的Workload

這些都不是以單晶片的觀點來看半導體的發展，而是以系統的角度來最大化系統效能。從那時候開始，其實AI的運算、半導體產業已經開始從單一晶片到整個系統的極致轉型了。

而這樣轉型的核心，正是從NVIDIA的多晶片策略開始發起。

▌II. NVIDIA多晶片策略拆解

從這邊我們可以看得出來，NVIDIA的觀點其實跟傳統半導體發展的觀點有很大的不同。

傳統半導體的觀點，是整體系統的算力增長，來自電晶體密度的提升。因此，傳統的觀點是，算力的提升來自於每一代先進製程的發展。

但是，NVIDIA的觀點和Approach是，雖然先進製程還是很重要，但是更多算力的提升其實是來自於解決各種系統上的瓶頸。因為，雖然電晶體密度每一代可以有50%-70%的提升，但是要達到10倍的系統性能提昇，還是有很大一段差距。

剩下的9倍以上的算力提昇，其實是來自於解決掉許多系統性能的瓶頸，或是整體性的Extreme Co-Design來提升。

所以，NVIDIA在系統層級上的技術，做了很多的努力，而這就造就了多晶片策略的誕生。

前面我們已經提過了Grace CPU、BlueField DPU和NVLink的發展，而近期我們又可以頻頻看到NVIDIA大動作推出新的晶片產品，如Rubin CPX、CPO版本的Spectrum-X，每一顆晶片都有其特化的功能以及解決的系統瓶頸，再加上Rubin GPU，就組成了NVIDIA獨特的多晶片策略，市面上沒有任何競爭對手在系統上有這樣的成熟度。

下面就拆解一下NVIDIA每顆晶片的用途，還有其對系統層面的影響。

▌III. NVIDIA路徑選擇：晶片保持彈性，從系統架構層面創新

這邊最關鍵的，其實是NVIDIA在技術路徑上的選擇。NVIDIA選擇了在GPU設計上面保持彈性，但是在系統層級上，增加了很多特化的晶片來讓整個系統兼顧彈性與效率。

相比於其他ASIC晶片系統選擇了在晶片層級上去做特化，NVIDIA選擇了直接把需要特化的部份，拉出來變成幾顆特化的晶片來處理，是一個更高維度的競爭策略。

下面就重點解釋幾個重要晶片的特性，讓我們可以更了解NVIDIA的系統性創新。(NVIDIA在CES 2026提出6大晶片，我們拉出幾個重要的晶片出來討論)

1. Rubin GPU + HBM 4:

Rubin GPU是下一代系統最重要的核心，其中包含了新一代的Transformer Engine和NVFP4的數據格式，可以在大幅增加效率的同時降低記憶體的使用。

不過，GPU的另一個重點其實是HBM，在運算大模型上，Transformer非常吃記憶體的容量和頻寬，尤其是頻寬會大幅影響GPU產出Token的速度。因此，HBM的性能極為重要。而NVIDIA為全球第一個使用HBM 4的公司，且有全世界最大的HBM供貨戰略儲備，為NVIDIA的市場地位取得許多優勢。

2. NVLink 6 Switch:

NVLink的最主要重點，就是解決晶片和晶片間傳輸的問題。NVLink Switch讓整個GPU Rack (如NVL72 or NVL144) 內所有的GPU都可以被視為一顆超大的GPU，共用運算資源，系統性能不會卡在晶片交換資料上，這是使用PCIe互連系統的一大痛點。

3. Disaggregate Serving - Rubin CPX

再來，系統性特化的另一大重點，是2026年底會上市的Rubin CPX晶片，這象徵了AI的應用朝更長文輸出或輸入 (Long Context Window，如更大的軟體撰寫) 後，原本的GPU Rack會分化出另一個提供更大量記憶體的晶片Rubin CPX。

Rubin CPX額外搭載GDDR 7，象徵著整個AI系統對記憶體超強的需求，以致於延伸出更多的記憶體種類搭配。另一個觀察的重點是，Rubin CPX可以以一個額外的機櫃存在，象徵現在GPU的系統已經不再只是單純的一種GPU機櫃，而是開始延伸出特化的機櫃種類。

4. BlueField Inference Context Memory Platform

最後，在2026年的CES上，NVIDIA宣布了一個新的BlueField Context Memory Platform，用BlueField 4晶片搭配Spectrum-X Ethernet還有大量的SSD Storage，讓AI在回答問題時，可以不僅從HBM調用KV Cache，也可以從local SSD調用所謂的「溫資料」(Warm KV Cache) 和從Network SSD上調取「冷資料」(Cold KV Cache) ，大幅的增加Context Memory (KV Cache) 可以存取的量。

詳細的Memory Hierarchy可以參考我們附圖的”KV Cache Memory Hierarchy”。

▌Conclusion: 未來的AI晶片戰

觀察了NVIDIA的Roadmap發展後，我們會發現，現在的晶片競爭已經不再是單一顆GPU或ASIC的競爭，如果我們比較NVIDIA、AMD、Google……等公司的Roadmap，會發現，未來的晶片戰會轉往多晶片的系統性競爭。

而這象徵的是整個半導體產業這幾年產生了很大的轉變，已經從摩爾定律為主的單顆晶片發展，極致轉型成多晶片系統發展。因此，Jensen Huang近期一直提到的半導體系統多晶片的”Extreme Co-Design”，會是半導體產業發展的主要重點。

而這不得不佩服NVIDIA Jensen Huang的提前戰略佈局，幾乎所有的策略，都是以十年為單位的策略佈局。

下一輪的AI晶片競賽已經開始，而這不再只是晶片層級的競爭，而是包含AI模型、多晶片AI系統競爭，以及晶片硬體技術發展的競爭。你可以發現，不僅是NVIDIA，Google、AMD、Amazon…..等巨頭也都在朝這這個方向佈局。

如果你想要看懂多晶片AI系統的發展、AI模型的發展是怎麼驅動下一代晶片系統的設計，還有未來可能的方向的話，我們最近整理了一個滿完整包含趨勢和AI晶片底層技術的發展的分析。

主要會講解以下內容：
1. AI大模型的基本原理介紹
2. AI模型如何驅動下一代AI晶片設計的底層邏輯
3. AI晶片系統發展的硬體瓶頸和技術趨勢
4. TPU vs. GPU的技術比較
5. Extreme Co-Design / STCO (System Technology Co-Optimization)
6. 未來的新AI應用 (下一代模型、機器人......) 和其對下一代AI晶片設計的需求分析

如果你想要更深入的了解下一代AI晶片系統發展趨勢的話，歡迎參加！

報名資訊如下：

▌Workshop S1：「2026 - AI晶片系統的最新發展」報名資訊：

- 講者：Redefine Innovation 顧問服務負責人 Vince Liu（前ASML荷蘭總部產品經理）

- 形式：線上課程（報名後一週內會收到課程，包含講義和兩週回放複習影片，講義可永久保留）

- 最後報名時間：2026/1/11 17:00

- 價格：NT$3500 / 人

- 報名連結：
請見底下留言處

04/01/2026

「2026年半導體關注重點 - AI模型演進、供應鏈資源控制、關鍵技術創新」

大家新年快樂，近期一直在思考接下來半導體產業發展的重點，也藉著新年開始的第一週跟大家分享我們的想法和看點。

就不廢話，直接開始。

隨著AI晶片生態系的發展，系統性的趨勢開始浮現，接下來，我們覺得AI & 半導體產業的關鍵重點，會以以下的價值鏈條來看：

AI巨頭搶佔市場和模型話語權 (Scaling Law或模型典範轉移) -> 要搶占市場，需要控制半導體晶片戰略性物資 -> 算力需求遠大於供給，因此需要半導體供應鏈產能＆瓶頸創新 -> 半導體晶片產能＆新技術發展，成為AI巨頭稱霸的關鍵

因此，順著上面的邏輯鏈條，接下來半導體產業趨勢會有幾個關鍵領域發展，是值得我們關注的重點：

▌1. Scaling Law是否延續＆AI模型典範轉移 - 決定半導體硬體的需求走向

現在晶片需求要大幅擴充的假設都基於一個關鍵假設：Scaling Law會延續，因此，不管是OpenAI CEO Sam Altman，或是xAI Elon Musk大砸錢擴充GPU，都是因為他們認定AI Scaling Law會持續延續 (就是放越多算力和資料，模型就會越聰明)。

因此，我們會看到xAI的Grok 5預計達到6Trillion Parameters，比前一版的模型3 Trillion再翻倍，OpenAI大舉融資 (Stargate & 循環投資) 要買更多的晶片，都是基於這個假設。

不過，因為目前主流的Transformer AI大模型有一個很大的缺點，就是極為消耗記憶體和算力 (是輸入輸出Token的平方增加，輸入2倍資料，需要4倍資源)，因此，目前有很多專家在研究是否能夠用不同類型的AI模型來取代。

而目前有一個大家覺得較有可能的AI模型架構：Mamba，獲得了很多關注。原因是因為，Mamba模型的特性，所需要的資源是線性增長 (輸入2倍資料，只需要2倍資源)。因此，Mamba的架構獲得很大的關注。

但是，Mamba架構有一個缺點，就是推理能力和”大海撈針”的能力沒有Transformer架構那麼優秀，因此，目前較熱門的方向是「混合架構」(Transformer + Mamba)。

我們可以看到，NVIDIA、Google…..等大廠都有推出相關的混合架構，AI21 Labs也有推出”Jamba”混合架構。據說，Grok 5會加入部分的Mamba架構，可以讓AI模型的Context Window大幅提昇到200萬Tokens。

因此，接下來的AI模型看點有兩個方向：
A. Scaling Law是否可以延續 - 是否需要倍數的砸AI硬體晶片投資
B. AI模型是否會發生典範轉移 - 能否大幅提昇AI模型的效能，從Transfomer這個資源需求怪獸移到更有效能的模型典範

▌2. 誰能控制半導體戰略性物資供應

從前面的討論我們可以知道，如果AI巨頭要訓練出更好的模型＆搶占更高的市佔率，那他們就會需要更大量的晶片。

如果無法取得更多的晶片，就沒辦法訓練更好的模型。而且，在模型上市以後，也沒辦法服務更多的客戶，導致市佔率無法提昇。

因此，誰能控制半導體晶片供應鏈的產能，誰就能夠有更大的話語權。

因此，從這個角度看，我們就更能理解為什麼NVIDIA、Google、AWS、OpenAI、Anthropic……都拼命的想要鎖定產能。

但是，從目前的角度來看，NVIDIA在這個部分還是有優勢，因為他們佈局較早，而且長期的IC設計行業經驗，也讓他們對於半導體供應鏈相對於終端客戶更熟。

接下來，就看誰能更早更積極的佈局產能＆平衡風險，這個非常考驗每一家公司對於供給和需求兩端的掌握度，以及風險管理能力。

▌3. 半導體供應鏈產能＆創新的瓶頸 (Memory, CPO, Logic & 封裝)

最後，其實現在最大的瓶頸，其實是供應鏈的產能。

跟雲端軟體不同，半導體晶片以及硬體設備的產能是需要時間佈建，不像軟體可以根據需求快速擴張。因此，半導體供應鏈產能的擴張意願還有風險管理，變成是一個很大的重點。

另外，算力要大幅提昇，其實變成從單一的AI晶片，變成整個AI Cluster的整合，因此，不只是晶片本身，晶片和晶片互連也是需要很多技術上的突破。

現在的供應鏈上，有幾個主要的技術創新瓶頸，值得關注：
A. 下一代記憶體 (HBM, PIM, SRAM整合......)
B. 從銅線互連到CPO
C. Logic先進製程的發展 (能大幅降低能耗)
D. 先進封裝的尺寸持續擴大
E. 3D堆疊技術 (3D封裝、HBM…..都會用到Hybrid Bonding)

▌Conclusion: 從AI模型話語權->半導體戰略物資控制->半導體技術創新，為接下來的關鍵

總結來說，AI市場的發展，已經從讓大家開始嘗試AI，演進到AI模型市佔率的激烈競爭，而

1. 模型話語權的主導能力 (不管是維持Transformer或是到下一個典範)

2. 對於半導體供應鏈戰略物資的控制能力

3. 以及與供應鏈合作達成更好的技術創新

變成是接下來最重要的三大重點。

以上幾點，是我們覺得AI&半導體產業接下來發展的一些最重要的關鍵，跟大家分享，也祝大家新年快樂！

28/12/2025

NVIDIA吸納Groq技術和人才這件事就很像，外面的人都會評斷柔術比較強？還是拳擊比較強？的二分法來比較GPU和ASIC，好像做GPU的人被外面的人規定不能做ASIC，做ASIC的也被規定不能做GPU。

很像柔術的人上拳擊擂台就被規定不能使用地板技一樣。

但是真正做GPU/ASIC的人&市場客戶腦中才沒有這種規定，哪種有威力就用哪種，合在一起用也沒有裁判會來判犯規😂 (真的買下來反托拉斯才有可能判犯規)

25/12/2025

搞不懂的事情第二彈 - 為什麼曝光機領域神級人物的林本堅院士，演講EUV / DUV影片的流量 (看的人) 竟然會遠少於講中國EUV的網紅？

要知道這領域的關鍵重點的話，看林院士的演講絕對是遠遠大於宣傳影片講彎道超車 or 彎道翻車吧？！

投資ASML的人寧願看一堆亂猜的內容，也不願意靜下心來看含金量超高的影片？

然後臉書又會說，放連結觸擊率會下降。就偏要放，給金子還看不出來的人也太傻了吧？難道不看這個要被新創Lithography新創 "Substrate" 什麼都講不清楚的宣傳故事騙？這世界上怎麼可能天天有改變世界的突破，神祕的事情99.9%以上是詐騙......

林本堅院士演講影片：
https://www.youtube.com/watch?v=kfzOoQRG3XY

23/12/2025

「TPU Sparse Core - 觀察Google的晶片設計哲學」

在Google TPU v4以後，我們會發現，裡面出現了一個新的設計：Sparse Core。

Sparse Core加快了整體系統的效率，也彌補了以矩陣運算為主的TPU不足的地方。

其實從TPU整體的設計，我們就可以看出其相對於GPU來說特別的方向。

從Sparse Core的設計，我們可以看出Google著重的面向和其策略方向。

拿來和GPU比較，就可以更清楚的理解TPU和GPU在策略上的差異。

所以這一篇，就讓我們從Sparse Core出發，來聊一下我們觀察到的一些新趨勢，最後再比較TPU和GPU的策略差異。

▌1. TPU的演進

其實從TPU的發展，我們就可以看得出來Google的哲學就是想要專門為他們的需求打造晶片，而拿掉所有不相關的功能。

因此，第一代的TPU就是非常純粹的從矩陣運算出發，而少了非常多在一般晶片裡會有的東西。

但是，後來可以觀察到，這些專門的運算其實還是需要有一些彈性或是非矩陣的運算，因此，又會看到TPU將一些比較一般運算會用到的數字和向量運算加回去。

而Google搜尋引擎中最重要的推薦系統，其實不只需要大量的矩陣運算，也會需要大量的資料查找的功能。

這些資料查找的功能原本都是用TPU內較非特化的向量運算和CPU共同合作來完成，但這對Google來說效率太低了，他們需要更有效率的方式來專門處理這樣的運算。

▌2. Google Recommendation System (推薦系統)

所以在這邊，我們需要先簡單介紹一下Google推薦系統的運算，才能討論需要設計怎麼樣的晶片來處理這樣的運算。

一般來說，Google的推薦系統會有三個步驟：
i. Retrieval
ii. Ranking
Iii Re-ranking

Re-ranking需要的算力和記憶體都相對少，因為是最後秀給使用者看之前的重排過程，不會耗用掉大量資源。

但是Retrieval和Ranking都會用到Embedding的查找運算，而Embedding的運算屬於查表運算，非常不適合使用TPU的Tensor Core進行密集矩陣運算。

而雖然在前幾代的TPU，並沒有設計特別的硬體去加速這部份的運算，但是Google知道需要一種特殊的硬體來做這種全球等級Search Engine的加速運算。

▌3. Sparse Core的誕生

因此，Google在TPU v4中推出了特別設計的Sparse Core，為了解決Embedding運算的痛點。

因為過去的Tensor Core主要的功能，是做密集矩陣運算。矩陣運算是大型語言模型 (LLM) 和卷積神經網路 (CNN) 中的核心運算，但是推薦系統中的Embedding運算是屬於稀疏運算。

推薦系統的模型通常包含巨大的嵌入表 (Embedding Tables)。例如，要把幾十億個用戶 ID 對應到幾十億個影片 ID。這些表格大到無法放入晶片內的快取 (SRAM)，必須放在外部記憶體 (HBM) 中。

這種「隨機記憶體存取」(Random Memory Access) 對傳統的GPU或TPU的MXU來說非常低效，因為它們喜歡連續、整齊的數據。以前這些工作通常由CPU負責，但CPU頻寬太低，跟不上TPU的運算速度。

所以，Sparse Core被設計成位於HBM (高頻寬記憶體) 和主要運算單元 (TensorCore/MXU) 之間的中介橋樑。

它的核心任務包括：

A. Scatter / Gather 操作：
- Gather (收集)：根據索引 (Index)，從 HBM 中分散的記憶體位置抓取數據 (Embedding Vectors)。
- Scatter (分散)：訓練過程中，將更新後的梯度 (Gradients) 寫回 HBM 中分散的位置。

B. 近記憶體運算 (Near-Memory Compute)： Sparse Core 內部擁有簡單的運算單元 (ALU)。當它從 HBM 抓取多個向量後，可以在本地直接進行加總 (Reduction) 或簡單處理，然後只把最終結果傳給 TensorCore。這大幅減少了晶片內部的資料傳輸量。

C. 直接記憶體存取 (DMA)：它可以獨立於主運算核心之外，自主管理記憶體存取，讓 TensorCore 可以專心做矩陣運算，不必等待數據讀取。

這樣的好處就是，Sparse Core可以釋放CPU負載、幫助訓練超大 (Trillion參數) 的推薦模型，而且比前幾代的TPU高出了好幾倍性能與能耗效率。

▌4. Google’s Dual Core Strategy: Tensor Core & Sparse Core

因此，我們會發現，TPU的特化晶片設計哲學，一開始雖然是以密集矩陣運算為主，但是這不代表TPU只能在密集矩陣運算上高效，在其他需要高速運算效率的非矩陣運算上，如果具有特殊形式且使用量非常大，Google可以把這類型的運算沈澱到硬體上。

我們從TPU上兩大主要核心Tensor Core和Sparse Core的發展上，就可以看出這樣的趨勢。

▌Conclusion - TPU vs. GPU：戰場選擇與策略上的差異

因此，雖然TPU相對於GPU來說在某些情境下缺乏彈性，但是，從Sparse Core的例子上來看，他可以將原本需要使用較為彈性的運算單元如CPU上面的運算，加速幾十倍 (TPU v4 Sparse Core vs. CPU)，因此，在推薦系統上的效率和能耗上會比GPU來得還要更好。

對比GPU的策略，GPU則是用更好的硬體規格和軟體來彌補這樣的效能差異，所以，雖然性能上GPU在跑這些運算的時候可能不會輸TPU，但是在能耗效能上，TPU就明顯的佔有優勢。

所以，從GPU和TPU的發展路徑上，我們可以看出兩種不同的哲學和發展路徑，雖然目的都是為了能夠做大型的AI模型運算，GPU更偏向幫自家較有彈性的硬體找到更多的使用場景，並用軟體層 (CUDA) 加速。而TPU更偏向從Google自家已經服務全球的應用出發，沈澱出這些大型應用中最重要的一些運算，變成高效的硬體放進TPU中。

15/12/2025

Intel打算併購AI晶片新創SambaNova。

Intel終於走在正確的方向上了，Lip-Bu Tan真的是一個不同等級的CEO。

就如我們前兩年在商周CEO 50跟學員們的分享，AI應用和晶片設計才是Intel能夠槓桿的差異化，和TSMC正面硬拼半導體製造真的不是一個明智的作法。

29/11/2025

Meta要買TPU炒得沸沸揚揚。
不過，Meta要買TPU，要多付三個重大成本：
1. 給Google的Margin利潤

2. 最大化TPU的能力因為Google的TPU是為了自家模型設計的，Meta用TPU就會損失很大一部份模型&硬體共同優化的部分

3. Meta要自己搞定軟體層來打造稱手的工具，他們有Pytorch，但整合還是需要蠻多成本的

這幾個都是要付很多成本，不是能照搬的。

28/11/2025

「從影像生成到World Model建立：下一代AI晶片系統會如何發展？」

最近，AI界的教母李飛飛推出了新公司的第一個AI World Model “Marble”，這是一個你輸入文字或影像就可以得到一個3D世界的AI模型。

World Model這件事，將AI模型的發展推到一個新的高度。

原本大家在討論的，是我們可以生成文字，可以生成影像。但是現在，我們已經開始可以用AI直接生成一個3D世界了。

其實不只是李飛飛的公司，Meta的V-JEPA 2、Google的Genie 3，或是NVIDIA的Cosmos，都是World Model的代表。

不過，因為這類的模型較現在產生文字和影像的模型更複雜，要求更高，是現行LLM的幾百倍 (據李飛飛的公司World Labs估計，產出一個4K的影片1小時就需要產出1億個Tokens)。因此，現在他們在做的，是先用較小版本的World Model來讓大家了解其可行性和用途。

不過，這無可否認的會是AI的最前沿發展，也會是機器人發展的重要基礎 (NVIDIA使用他們的World Model來訓練機器人模型)。因此，我們可以看到各家公司 (NVIDIA, Google, xAI……) 都積極佈局這樣的AI模型。

為什麼這件事情重要？因為，現在在設計的晶片應該會需要為了2027年以後的AI模型做考量了。

▌運算需求的推升

而在這過程中，半導體晶片的發展會是極為重要的，因為，AI模型要和半導體晶片共同優化，才能發揮最大的算力。

而從NVIDIA Rubin CPX的晶片佈局，主打能夠一次產出超過100萬Tokens的長Context Window應用 (影片生成和程式碼生成)，我們可以看得出來這將會是支援終極World Model的一個中間過程。

人們現在已經不只是用AI在回答一些簡單的問題了，人們開始用AI來做深度研究 (Deep Research)、繪圖 (Nano Banana)、製作影片 (Sora-2)，甚至快速製作軟體工具。

而接下來，產出物理空間模擬結果的World Model，應該會是下一個重要的方向。

前幾天，我們為了快速的了解TPU和GPU在晶片互連架構上的優劣勢，就快速用AI打造了一個模擬器軟體，幫助我們更快速的視覺化比較。

以往研發人員可能要花上好幾天甚至是好幾個月來打造一個模擬器，但是現在有AI的幫助可能1小時內就可以有一個像樣的東西。

不過現在的問題是，我們會需要耗用大量的算力。因為當我們想把模擬器或軟體做得越來越複雜精緻時，需要產生的Token數量就會指數增加。

這些例子都顯示，我們現在對算力的需求才在初始階段而已。

▌各家晶片佈局競爭開始

為了滿足算力的需求，各家公司開始全力佈局各自的晶片來滿足接下來可能的算力需求。

如OpenAI先前公布的與Broadcom的合作，要研發自己的客製化AI晶片。

如果你以為這個客製化晶片只是為了下一個模型的話，那你就錯了。這個晶片起碼要是為了兩代後的模型，有可能是GPT-7做的設計佈局。

而如我們之前所述，現在各家的半導體硬體設計，也會需要開始考慮2027年之後的需求。

比如接下來TPU的設計和GPU的Roadmap。從戰略的角度來說，接下來的半導體晶片硬體Roadmap需要要考量到之後的模型，並有可以調整的彈性，之後可以再用軟體去和模型共同優化。

所以，我們如果想要了解接下來的AI晶片設計和半導體技術需求的話，我們最少要問我們自己兩個問題：
1. 接下來AI模型的趨勢為何？
2. 這些模型的半導體硬體瓶頸會在哪裡？
(運算單元、記憶體、晶片間傳輸 or 整體架構？)

▌下一代AI晶片系統 - 支援物理世界模型

回到先前的問題，下一代的AI晶片系統會如何發展？

答案可能有很多，但是有一個很重要的，其實是發展能了解真實物理世界的能力。

目前的AI，主要還是只有了解文字與影像的能力，對於更多真實世界變化的規律的理解，其實還是很缺乏的。

因此，支援更多模態更多種輸入的模型，可能會是一個重大的方向。

更重要的，就是機器人要可以有智慧的和現實的環境互動，在從AI Agent發展到Physical AI的過程中，”World Model”會是一個重要的拼圖。

要支援這樣的模型，我們會需要一個AI晶片系統，在Training時會需要更大量的多模態資料輸入，在Inference時會需要更長的Context Window產出更多的Tokens (Cosmos使用了比Llama多600倍的訓練資料)。這些都會帶動更多半導體技術的發展。

因此，接下來的半導體發展，應該會朝向可以支援這樣的系統邁進。

而這中間還會有很多技術細節，為了更仔細的討論這個問題，我們在11/30下午會舉辦一個線上的Workshop。

在這個Workshop裡，我們會試圖更仔細的回答以下的問題：

1. 未來的AI模型需求是什麼？

2. 順著模型需求現在有什麼技術發展，比如說GPU的一些算力核心技術如Transformer Engine和整體的硬體配置的考量為何？
（比如運算核心發展和HBM之間的替代關係如何，還有哪些硬體瓶頸)

3. GPU和ASIC體系差異？

4. 未來的發展Roadmap，如從現在的影像生成到接下來的World Model (如李飛飛最新發佈的Marble Model)會驅動怎麼樣的半導體需求？

如果對這些議題有興趣的朋友，歡迎參加～

報名資訊如下：

▌Workshop S1：「2026 - AI晶片系統的最新發展」報名資訊：

- 講者：Redefine Innovation 顧問服務負責人 Vince Liu（前ASML荷蘭總部產品經理）

- 時間：2025/11/30 14:00 - 17:10

- 形式：線上直播（另有回放票選項，直播和回放選項活動後一週都會收到回放影片連結，兩週內不限次數觀看）

- 價格：NT$3500 / 人 (包含講義及兩週回放複習影片）

- 報名連結：
請見留言處

Redefine Innovation

19/04/2026

30/01/2026

24/01/2026

08/01/2026

04/01/2026

28/12/2025

25/12/2025

23/12/2025

15/12/2025

29/11/2025

28/11/2025

Address

Opening Hours

Website

Alerts

Contact The Business

Shortcuts

Share

Category

Monday	09:00 - 18:00
Tuesday	09:00 - 18:00
Wednesday	09:00 - 18:00
Thursday	09:00 - 18:00
Friday	09:00 - 18:00