인텔이 내년 전반기에 출시하는 아이비 브릿지는 기본적으로는 기존의 샌디 브릿지를 32나노에서 22나노로 공정을 바꾼 제품입니다. 인텔은 현재 Tick-Tock 모델로 새 CPU를 출시하고 있어, 2년 주기로 제조 공정을 혁신(Tick)하고 그 중간의 2년에 CPU 마이크로 아키텍처를 쇄신(Tock)하고 있습니다. 아이비 브릿지는 Tick에 해당됩니다.
Mooly Eden
그러나 샌프란시스코에서 개최된 Intel Developer Forum(IDF)의 키노트 스피치에서 인텔의 Mooly Eden 부사장(VP, General Manager PC Client Group, Intel)은 아이비 브릿지가 단순이 공정 미세화 버전이 아니라 Tick+에 해당한다고 설명했습니다. 미세화 뿐만 아니라 새로운 요소가 포함된 칩이 아이비 브릿지입니다.
그렇다면 아이비 브릿지에서는 무엇이 강화된 것일가요? 크게 확장된 것은 GPU 코어입니다.
인텔은 샌디 브릿지의 GPU 코어를 대폭 확장하고 그래픽 기능과 미디어 프로세싱 기능의 강화, 범용 컴퓨팅 기능을 추가하였습니다. 아이비 브릿지는 그 흐림을 더욱 추진하여 다이렉트 X 11을 지원함과 동시에 보다 범용성을 높여 미디어 처리 성능이 높은 코어가 되고 있습니다. 인텔의 마케팅 토크를 보면 인텔이 CPU에서 범용처리를 향상시키는 헤테로지니어스 구조 컴퓨팅에 적극적으로 나서진 않지만, GPU 코어의 아키텍처를 보면 그 적극성을 알 수 있습니다.
인텔은 IDF에서 아이비 브릿지의 동작 데모는 물론 아이비 브릿지 기반의 울트라북이나 아이비 브릿지의 다이 사진도 공개했습니다. 현재 공개된 아이비 브릿지는 4 CPU 코어 버전으로 4코어 버전 샌디 브릿지와 동일하게 GPU 코어나 PCI 익스프레스, 라스트 레벨 캐시, 링 버스 등을 갖추고 있습니다.
아이비 브릿지의 다이를 샌디 브릿지와 비교
아래 그림은 아이비 브릿지와 샌디 브릿지의 다이를 비교한 것입니다. 왼쪽이 아이비 브릿지, 오른쪽이 샌디 브릿지입니다. 인텔은 아이비 브릿지의 다이 사진이 정확하진 않다고 말하지만, 각 유닛의 사이즈 비교용으로는 쓸 수 있을 것으로 보입니다. 정확한 다이 사이즈는 모르기 때문에 샌디 브릿지와 아이비 브릿지의 CPU 코어 ㅡㅋ기가 거의 똑같이 보이도록 이미지 크기를 조정했으며, 실제로는 22나노 아이비 브릿지의 다이가 훨씬 작을 것입니다.
아이비 브릿지와 샌디 브릿지의 다이 레이아웃 비교
CPU 코어와 라스트 레벨 캐시 어레이 부분은 아이비 브릿지와 샌디 브릿지가 거의 비슷합닏. 코어 내부의 레이아웃도 비슷합니다. CPU 코어는 Tick 모델임을 알 수 있습니다. 다만 자세히 보면 아이비 브릿지가 CPU 코어가 크고 캐시 영역이 상대적으로 작아 보입니다.
캐시 SRAM 부분은 제조 공정을 개선하기 쉽지만 로직 부분은 그것이 어렵습니다. 인텔의 3D 트랜지스터 공정도 마찬가지일 것입니다. 덧붙이면 3D 트랜지스터는 채널 구성을 바꿀 수 있지만 캐시 SRAM은 싱글채널, 로직 부분은 멀티채널을 사용한 구성입니다. 멀티채널화를 통해 스위칭 성능을 높이고 있기 때문입니다.
싱글 채널과 멀티 채널의 3D 트랜지스터.
샌디 브릿지에서는 다이 아래부분에 배치되었던 DRAM 인터페이스를 다이 오른쪽으로 바꿨습니다. I/O 패드를 모두 바깥 부분에 늘어놓는 방식에서 바뀐 것으로 보입니다. 그 때문에 샌디 브릿지에서는 다이 위에 불필요한 공간이 있었던데 비해, 아이비 브릿지에서는 이런 공간이 사라지고 보다 컴팩트한 설계가 되고 있습니다.
아이비 브릿지와 샌디 브릿지를 비교하면 크기가 커진 GPU 코어를 쉽게 알아차릴 수 있습니다. 샌디 브릿지의 트랜지스터 수는 9억9500만개인 반면 아이비 브릿지는 14억8000만개입니다. 3D트랜지스터를 사용했다고 해도 트랜지스터 수를 세는 방법이 변하지 않았음을 염두에 둔다면 50% 늘어난 트랜지스터의 대부분은 GPU 코어에 할당된 것으로 보입니다. 비율로 따지면 샌디 브릿지의 2배 가까운 GPU 코어가 되고 있습니다.
아이비 브릿지의 GPU 코어를 보면 같은 코어 2개가 좌우로 배치되고 있습니다. 이것은 GPU 코어의 사이즈를 반으로 줄인 보급형 모델을 쉽게 만들 수 있도록 설계했기 때문인 것으로 추측됩니다. 샌디 브릿지에서도 아래 그림처럼 CPU 코어와 GPU 코어를 줄일 수 있었습니다.
샌디 브릿지의 구성
샌디 브릿지의 GPU 코어는 12개의 EU(Execution Unit)으로 구성되지만 아이비 브릿지는 기능 확장에 의한 EU의 대형화를 제외해도 최소 16개의 EU를 내장하고 있는 것으로 보입니다. 그 경우에는 8개가 1개의 그룹으로 묶였을 것입니다.
샌디 브릿지와 기본적인 구성이 같은 아이비 브릿지
다이의 구성이 비슷하니까 당연한 이야기지만, CPU 전체의 구성도 샌디 브릿지와 아이비 브릿지가 비슷합니다. 아래의 슬라이드는 IDF에서 아이비 브릿지에서의 변하지 않은 부분을 설명하는 슬라이드로서, 기본적인 부분은 대부분 그대로임을 알 수 있습니다. CPU도 샌디 브릿지의 코어 블럭에서 대부분 변화가없을 것으로 여겨집니다.
샌디 브릿지의 구성
샌디 브릿지의 블럭 다이어그램
아래의 2개 슬라이드는 아이비 브릿지가 샌디 브릿지보다 개선된 점으로, GPU 코어의 기능과 CPU 코어에서 약간의 명령 확장, IPC(Instruction-per-Clock)의 개선, 난수 생성 유닛의 내장, 전력 제어 확장(TDP 설정), 저전력 DDR3L 메모리 지원, 트리플 디스플레이 동시 출력 지원 등이 추가되었습니다.
아이비 브릿지와 샌디 브릿지의 차이
DDR3L 메모리는 기존의 DDR3이 1.5V를 사용했던데 비해 1.35V로 전압이 줄어든 저전압 버전으로서, 실제로는 저전압으로 작동하는 제품을 선별해낸 것입니다. DDR3L의 도입을 AMD가 적극적으로 나섰지만 인텔은 소극적이었으나, 아이비 브릿지부터 인텔도 지원하게 됐습니다. LPDDR3은 DDR3L과는 별도의 메모리로서, 2013년의 Haswell부터 지원하게 될 전망입니다.
일반적인 테셀레이션 파이프라인의 구현
GPU 코어의 확장점은 다방면에 걸쳐 존재합니다. 물리적인 확장 부분이라면 GPU 코어가 아이비 브릿지에서 제일 크게 바뀐 부분입니다. 그래픽 기능에서는 물론 다이렉트 X 11의 지원이 제일 큽니다. 다이렉트 X 11 지원의 하드웨어적인 특징인 테셀레이션 파이프라인도 구현되어 있습니다. GPU 범용 컴퓨팅 부분의 기능은 실제로 샌디 브릿지에서 구현된 것이 대부분이지만, 큰 확장중에 하나로 라이터 캐시가 GPU 내부에 구현되었습니다.
다이렉트 X 11의 지원
인텔의 GPU 처리는 가로 방향의 흐름을 사용합니다. 이것을 일반적인 GPU 블럭 다이어그램처럼 그래픽 파이프라인에 따라 위에서부터 아래 방향으로 흐름을 바꾼 것이 아래 그림입니다. 캐시의 접속 관계 등은 일부 추정이 포함되어 있습니다.
그래픽 파이프라인
인텔의 GPU 코어 블럭에서 쉐이더가 되는 부분은 실제로 프로세싱을 하는 유닛이 아닙니다. 쉐이더 프로세싱은 모두 EU에서 실행됩니다. EU를 제어하거나 데이터를 어셈블하기 위한 유닛이 인텔의 그림에서는 쉐이더로 표기되고 있습니다. 표기 방식은 다르지만 NVIDIA나 AMD의 GPU에도 동일한 유닛이 있으며 기본적인 구조는 공통됩니다.
위 그림을 보면 아이비 브릿지에서의 다이렉트 X 11 지원은 일반적인 구현임을 알 수 있습니다. 다이렉트 X 11 파이프라인에서는 테셀레이션 스테이지에 폴리곤을 분할하는 텔셀레이터 앞에 전처리를 담당하는 헐 쉐이더, 뒤쪽에는 포스트 테셀레이션을 위한 도메인 쉐이더를 위한 도메인 쉐이더를 배치하고 있습니다. 하드웨어적으로 보면 AMD와 NVIDIA 모두 단일 기능의 테셀레이터를 하드웨어적으로 구현하고, 앞뒤의 쉐이더는 쉐이더 프로세서군으로 소프트웨어 구현합니다. 인텔도 이는 동일하게 테셀레이터만을 고정 기능 유닛으로 구현하고 있습니다. 위 그림에 나타난 헐 쉐이더와 도메인 쉐이더는 모두 그 제어를 위한 유닛입니다.
캐시 계층이 바뀐 아이비 브릿지의 GPU 코어
인텔의 GPU 파이프라인은 샌디 브릿지까지의 전통적인 GPU에서 사용하는 읽기 전용의 상행 패스와 쓰기 전용의 하행 패스로 분리된 버스 구조를 가져왔습니다. 텍스처나 버텍스는 각각 외부 메모리에서 프로세서 방향으로 메모리-캐시-프로세서 코어라는 단방향 버스로 액세스합니다. 그 반대로 처리가 끝난 픽셀은 프로세서에서 메모리까지 하행 방향의 데이터 패스로 작성합니다. 캐시도 동일하게 분리되어 텍스처 캐시는 읽기 전용, 렌더러 캐시는 픽셀 오퍼레이션 유닛으로부터만 읽기/쓰기가 가능한 구조입니다.
인텔은 아이비 브릿지에서 이렇게 상하로 분리된 버스와 메모리 계층에 더해 라이터 캐시를 추가했습니다. 또한 쉐이더 로컬 메모리도 지원하고 있지만 이것이 구체적으로 어떻게 구현되는지는 알려지지 않았습니다. 메모리 계층은 GPU 다음으로 중요한 요소이며 인텔이 여기에도 손을 대고 있음을 알 수 있습니다. 라스트레벨 캐시는 샌디 브릿지 시절부터 CPU와 GPU가 공용으로 사용하고 있으며, 캐시 수준에서 CPU와 GPU의 데이터 교환도 가능합니다.
댓글 없음:
댓글 쓰기