|
Векторный процессор
опубликовал
milstar
5795 дней 6 часов 26 минут назад
Так я основал Cray Research. Я люблю начинать сначала и постоянно это делаю”.
Крей решил, что в его последующих суперкомпьютерах Сгау-3 и Сгау-4 высокая производительность будет обеспечиваться использованием новой элементной базы на основе арсенида галлия (GaAs). Сгау-3, выпущенный в начале 90-х годов, имел 16 процессоров, память 2048 млн. слов, длительность гакта — 2 не и пиковую производительность 16 GFLOPS. Суперкомпьютер Сгау-4 с 64 процессорами, как ожидалось, должен был иметь длительность гакта — 1 не и пиковую производительность 128 GFLOPS.
22 сентября 1996 года Сеймур Крей попал в автомобильную аварию и от множественных повреждений шеи и головы 5 октября он скончался
Но резкое увеличение производительности и активная разработка новых процессоров привели к вытеснению векторных процессоров со сферы повседневных процессоров.
В большинстве современных микропроцессоров имеются векторные расширения (см. SSE), кроме того современные видеокарты и физические ускорители можно рассматривать как векторные сопроцессоры.
http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80
######################################################
Ogranichenija exporta wisokix texnologij
http://www.bis.doc.gov/hpcs/app-wtpractitionersguidefeb22with-cover.pdf
Nize formula by the Wassenaar Arrangement i raschet realnogo kachestwa dlja ogr. exporta
Vektornie processori (oni toze ispolzujut parallrlizm) Cray i NEC W= 0.9
Wse ostal'nnie ,w tom chsile Cray na Apsheron ... W= 0.3
MAP processors are FPGA based with each MAP containing two Xilinx XC2VP100 FPGAs ... toze W= 0.3
Arxitektura vektornix processorow s vektornimi registrami w 3 raza lutsce po kachestwu
###############################################################
Sootw ., dlja kriticheskix primenenij s optimirowannim pod programmu hardware i progr .obespechenie
################################################################
razriw w realnom kachestwe budet esche wische
################################
Vektornie processori toze dopuskajut massivnij parallelizm processorov ,kachestwo kotorix wische
japonskaja texn. konza 2007 ,odin chip -odin processor -100 gigaflop ,0.065 microna
#http://www.nec.co.jp/press/en/0710/2501.html
This has resulted in the development of the world's fastest single-chip(!) vector processor with a computing performance of 102.4 GFLOPS(!) per single core, and a wide memory bandwidth of 256GB/s. With a single node incorporating up to 16 CPUs, computing performance in excess of 1.6TFLOPS is achieved. The product also realizes a large-scale shared memory consisting of a memory capacity of 1TB.
# Reduced TCO via high-density packaging and energy-saving technology
In addition to the newly developed CPU, the SX-9 combines large-scale shared memory of up to 1TB and ultra high-speed interconnects achieving speeds up to 128GB/second. Through these enhanced features, the SX-9 closes in on the PFLOPS*3 range by realizing a processing performance of 839 TFLOPS. - 839 teraflop = 839*10^12
kotorie nuzno ymnozat' na 0.9
dannie wsex ostalnnix kompjuterow na rinke na 0.3(w realnosti esche mensche )
Pozicija prawitelstwa USA
#################################
Bezuslovno eto ne deschewoe izdelie ,no est' rjad primenenij gosudarstwennogo znachenija ,gde eto
neobxodimo
The vector processor has been integrated into a single chip(!) by applying leading-edge CMOS technology with 65-nanometer Cu (copper interconnects) and the most advanced LSI design technology. The use of high-density packaging technology in which processor(s) and memory are implemented on a single module, and an effective design that provides optimum cooling functions, has resulted in a reduction in both space and power consumption of the SX-9. The new product is approximately one quarter the size of conventional models and uses about quarter the power.
Иллюстрация работы
Для иллюстрации разницы в работе векторного и скалярного процессора, рассмотрим простой пример сложения 10 чисел. При "обычном" программировании используется цикл, который берёт пары чисел последовательно, и складывает их:
повторить цикл 10 раз
прочитать следующую инструкцию и декодировать
получить первое слагаемое
получить второе слагаемое
сложить
сохранить результат
конец цикла
Для векторного процессора алгоритм будет значительно отличаться:
прочитать следующую инструкцию и декодировать
получить 10 первых слагаемых
получить 10 вторых слагаемых
сложить
сохранить результат
Реализация Cray (en:Cray) расширила возможности вычислений, позволяя выполнять несколько различных операций сразу. Для примера, рассмотрим код складывающий 2 набора чисел и умножающий на третий, в Cray эти операции осуществились бы так:
прочитать следующую инструкцию и декодировать
получить 10 чисел
получить 10 чисел
получить 10 чисел
сложить и умножить их
сохранить результат
Таким образом, математические операции выполняются гораздо быстрее, основным ограничивающим фактором становится время, необходимое для извлечения данных из памяти
|