Dicas HPC: julho 2013

segunda-feira, 29 de julho de 2013

Nvidia compra Portland Grupo para o compilador smarts

Magic Quadrant for Enterprise Backup / Recovery

Fabricante de chips gráficos Nvidia tem grandes aspirações para entrar em computação adequada com processadores ARM e co-processadores da GPU, e as suas chances em sua batalha contra o arqui-rival Intel pode ter acabado muito melhor agora que abocanhou O Grupo Portland.

Os termos financeiros da aquisição, o qual foi concluído, não foram divulgados.

IGP, como a empresa é conhecida, foi fundada em 1989 e expulso Fortran e C compiladores para processadores i860 RISC da Intel, dois anos depois. Ele tem sido uma força motriz para o desenvolvimento de compiladores Fortran paralelo ao longo dos anos.

Ele foi aproveitado pela Intel para fazer o Fortran para o ASCI Red supercomputador massivamente paralelo no Sandia National Laboratories, em 1996, ea primeira máquina a quebrar a barreira do desempenho teraflops.

IGP também fez os compiladores para o "Red Storm" máquina construída pela Cray usando processadores Opteron da Advanced Micro Devices ea "SeaStar" interconexão desenvolvido pela Cray a atacar-los juntos.

A empresa tem sido muito bom para ver e montar as mudanças na tecnologia de processador ou co-processador e saiu na frente com suporte para OpenMP para Linux, SSE / SIMD motores em processadores x86, 64-bit processadores x86.

Nos últimos anos, tem sido o fornecedor Fortran para o ambiente de programação GPU CUDA da Nvidia e criou um conjunto de compiladores que permitem CUDA para despejar código em vários núcleos e processadores x86 de vários segmentos.

Significativamente, PGI foi um dos parceiros que aderiram Nvidia na criação OpenACC , que está tentando estabelecer um padrão aberto para adicionar dicas directiva compiladores para ajudá-los em paralelo aplicativos para CPUs, GPUs, e qualquer outro tipo de mecanismo de execução paralela (tal como um Xeon Phi da Intel). A empresa também lançou no ano passado um compilador OpenCL para processadores de vários núcleos ARM.

Com Nvidia trabalhando em seu "Projeto Denver" processador ARM , essas habilidades ARM vão vir a calhar. E ao invés de apenas uma parceria firmemente com IGP, como Nvidia tem vindo a fazer, a empresa decidiu que ele precisa para controlar uma pilha compilador.

Isso faz sentido. IBM sempre controlou os compiladores em seus processadores proprietários e Poder, e Intel seguiu o exemplo e tem o controle de seus próprios compiladores também.

Ambas as empresas estão felizes de ter outros fazem compiladores para suas fichas, é claro, mas o importante é ter um conjunto de seus próprios compiladores que podem ser ajustados ao lado de batatas fritas como eles mudam. Em um mundo onde desempenho é tudo, o compilador é muitas vezes o fator decisivo. (E, às vezes, os fabricantes do compilador cativos colocar o polegar na escala e geralmente pego, também.)

Nvidia tem uma equipe de desenvolvimento de software que se estende por 2.400 engenheiros de software, e alguns deles trabalham em compiladores e outros aspectos do desenvolvimento de aplicações. Mas Buck diz que é difícil de extrair, que está trabalhando explicitamente em computação GPU, porque a equipe de software da Nvidia é "altamente alavancados" em todos os aspectos das GPUs.

"O que não temos é uma classe mundial equipe compilador HPC na escala e com o tipo de produtos que PGI está oferecendo", Ian Buck, gerente geral para a pilha de compilador CUDA da Nvidia, El Reg diz. "Ao trabalhar como uma empresa, podemos agora alinhar melhor nossos roteiros tecnológicos e esperamos acelerar a nossa inovação em torno da computação GPU "

Ele também enfatizou que a Nvidia iria continuar a trabalhar com TotalView, CAPS, Cray, Allinea e outros parceiros do compilador, e que nada iria mudar a esse respeito, na sequência da aquisição da IGP.

E ainda mais importante, com Nvidia fazendo seus próprios processadores ARM de classe de servidor e visando-os em trabalhos de computação de alto desempenho, ele vai precisar de bons compiladores para que o trabalho em chips ARM e pode descarregar trabalhar para co-processadores GPU.

"IGP tem experiência com ARM", disse Buck, "mas não há comercial compilador Fortran disponível -. Ainda"

Ele foi rápido em acrescentar que a Nvidia não foi pré-anunciando planos de produtos, é claro.

A equipe do IGP permanecerá em Portland, e que todas as 30 pessoas que trabalham em vários compiladores e ferramentas de desenvolvimento vai começar a receber seus salários a partir de Nvidia.

PGI continuará a ser uma subsidiária integral da Nvidia, como tem sido uma subsidiária da fabricante de chips STMicroelectronics desde 2000. IGP tem cerca de 5.000 sites de todo o mundo usando seus compiladores e ferramentas de desenvolvimento. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/07/30/nvidia_buys_the_portland_group/

domingo, 28 de julho de 2013

Bugs no modelo tempo beta utilizado para o lixo a ciência do clima

Requisitos Checklist para escolher um Cloud Backup e Recovery Service Provider

O trabalho de desenvolvimento de um modelo de previsão do tempo ainda-não-prime-time foi apreendido em uma prova de que os modelos climáticos não podem ser confiáveis.

O motivo? Pessoas que não estão interessados em mudanças climáticas descobri este papel na revista da Sociedade Meteorológica Americana, em que Hong Song-Você de Yonsei Departamento de Ciências Atmosféricas da Universidade da Coreia do Sul executa alguns testes ao longo de um modelo de tempo chamado GRIMS (Global / Regional Integrado Modelo).

Previsão do tempo (como é de modelagem climática, mas isso é uma história diferente) é uma das cargas de trabalho padrão de computação de alto desempenho, e consome uma fatia significativa dos tempos de processadores de supercomputadores do mundo a qualquer momento.

O Hong documentou, e que foi apreendida por Anthony Watts de Wattsupwiththat, é que o modelo GRIMS, quando executado em diferentes ambientes HPC, produz resultados diferentes. Como ele diz no resumo do trabalho:

"A dependência do sistema, que é o desvio padrão de 500 hPa geopotencial altura média sobre o globo, aumenta com o tempo. No entanto, a sua tendência fraccionada, o que é a variação do desvio padrão relativo ao valor propriamente dito, permanece praticamente zero com o tempo. Num quadro de predição sazonal, o espalhamento, devido às diferenças no sistema de software é comparável ao espalhamento devido às diferenças nas condições iniciais que são usados para a previsão conjunto tradicional ".

O motivo, diz ele, é devido à forma como lidar com diferentes ambientes de arredondamento - e que tem Wattsupwiththat particularmente animado: "Ele faz você se perguntar se algumas das projeções futuras catastróficos são simplesmente devido a um erro de arredondamento."

Watts reproduz a tabela abaixo como prova de como as coisas são ruins.

Smoking Gun? Não, apenas testando inacabadas modelos de previsão do tempo

em diferentes máquinas. Image: Uma Avaliação da

Software dependência do sistema de um modelo atmosférico global

Hong, et al

Como se observa William Connelly sobre a ScienceBlogs: "diferenças triviais nas condições iniciais, ou em métodos de processamento, vai levar a divergências nas previsões meteorológicas", que é algo que "remonta ao material original de Lorenz no caos".

Assim como interessante The Register é que um pouco de mais pesquisas sugerem que o modelo em teste em Song-Você jornal de Hong é relativamente novo. Aqui, por exemplo, é um documento que descreve o modelo, preparado para o Primeiro Workshop GRIMS em 2011.

Como resulta do presente trabalho (slides 5), a Hong está testando modelos foram concebidos pela primeira vez em 2008, ainda estão em desenvolvimento, e GRIM está previsto para utilização na previsão do tempo ... em 2015.

Em outras palavras, a razão para a realização de um teste como Hong parece ser que ele está trabalhando em um novo modelo, e está sendo testado em ambientes computacionais diferentes para identificar maneiras em que o código do modelo precisa ser polida para se certificar de que ela produz consistente resulta em diferentes ambientes.

Chris Samuel, um administrador de sistemas sênior HPC baseado em Melbourne trabalhando em Melbourne, disse ao The Register que não é incomum a querer testar com diferentes ambientes, pois ambientes complexos oferecem inúmeras oportunidades para divergências a rastejar em

Os autores estão trabalhando para ver se o programa produz os mesmos resultados em diferentes escalas, e Samuel observou que, no papel, Hong diz que os testes identificou um bug no código de tempo.

Divergência entre sistemas diferentes não é uma questão nova, disse ele. Ambos os administradores de sistemas e usuários, de fato, usar uma série de estratégias para lidar com isso.

Um deles é ter muitas instalações paralelas, utilizando diferentes versões de pacotes, bibliotecas e compiladores, de modo que "os usuários podem escolher o que querem construir contra", disse ele.

Outra defesa é escolher uma versão de código e ficar com ela. Ainda outra é para fazer testes em máquinas virtuais ", mas isso, é claro, não necessariamente jogar tão bem com os trabalhos clássicos de HPC".

E mesmo assim, "você tem distribuição OS churn embaixo tudo o que para complicar ainda mais as coisas."

Em um mundo tão fluido, testes parece prudente, pelo menos para The Register. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/07/29/weather_forecast_model_is_imperfect_qed_climate_science_is_rubbish/

sexta-feira, 26 de julho de 2013

Cray sacos de US $ 30 milhões para atualizar Edimburgo super petaflops de classe

Magic Quadrant for Enterprise Backup / Recovery

Não é uma grande surpresa, vendo como serviço de supercomputação nacional do Reino Unido na Universidade de Edimburgo é um cliente Cray de longa data, que eles voltariam para Cray para substituir seu sistema XE6 existente e substituí-lo por uma máquina petaflops de classe com base nas últimas interconexão Cray e tecnologia de processador Intel.

A nova máquina, a ser chamado de "Archer", será baseado no mais recente XC30 ferro da Cray, que processadores E5 Xeon de pares Intel com o "Aries" de interconexão desenvolvido pela fabricante de supercomputadores por meio de um contrato com a Defense Advanced Research Projects Agency dos EUA.

A Engenharia e Ciências Físicas Research Council está fornecendo a US $ 30 milhões em financiamento para o sistema de Archer, que inclui uma caixa de produção com cerca de três vezes o desempenho do sistema existente XE6, que tem mais de 800 teraflops de agregar glamour números impressionantes e é apelidado "Hector" - na verdade, eles feitiço que "HECToR", para High-End Computing TeraScale Resource, mas não vamos ser arrastados para tal tolice ortográfica.

Os detalhes de configuração precisos para o sistema não foram fornecidos pela Cray ou da Universidade de Edimburgo, muito provavelmente porque a máquina será baseada nos como ainda não anunciado "Ivy Bridge-EP" Xeon E5 da Intel. No início deste ano, Chipzilla disse esperar que os chips Xeon E5 para ser lançado no terceiro trimestre, e os primeiros embarques para a nuvem chave e clientes de supercomputadores para os Ivy Bridge variantes destes chips começou há vários meses.

O sistema é composto por Hector armários 30, que têm um total de 704 de quatro nós servidores blade XE6 da Cray. Cada nó na lâmina tem duas dezesseis soquetes "Interlagos" 6276 processadores Opteron rodando a 2.3GHz. Cada tomada na lâmina XE6 tem 16GB de memória principal, e com 2.816 nós de computação, que trabalha fora de 90.112 núcleos e 88TB de memória principal.

A lâmina XE6 tem quatro "Gemini" chips de interconexão do roteador, que implementam um toro 3D em todos os nós e deixe-a escalar até vários petaflops. A máquina Hector também tem um sistema de arquivos em cluster Lustre que as escalas para mais de 1 PB de capacidade.

Diagrama esquemático da produção Archer e sistemas HPC desenvolvimento

Esquema do desenvolvimento de Archer e sistemas de produção de HPC

O XC30 supercomputador, desenvolvido sob o codinome "Cascade" por Cray com financiamento do programa de Sistemas de Computação de Alta Produtividade da DARPA, começou uma década atrás. Que o financiamento veio em duas fases, com a quantia inicial de US $ 43.1m sendo usado para descrever como Cray iriam convergir diversas máquinas baseadas em x86, vetor, FPGA, e MTA processadores multithread em uma única plataforma. (GPU coprocessors não havia se tornado uma coisa ainda em 2003, quando o prêmio inicial DARPA saiu.)

Três anos mais tarde, a DARPA deu Cray um prémio de investigação US $ 250 milhões para desenvolver o sistema de Cascade e sua Carneiro Dragonfly interconexão, bem como o trabalho sobre a linguagem de programação paralela da Capela. Ninguém fora da Cray ou DARPA sabia disso na época, mas a segunda parte do contrato de DARPA HPCS originalmente chamado de Cray a dar seus processadores vetoriais multitransmissão (quase esquecido neste momento) e seus processadores ThreadStorm multithreads (no coração do aparelho de análise de gráfico Urika) e combiná-los em um superchip.

Mas em janeiro de 2010, a DARPA cortar US $ 60 milhões do contrato de Cascade e Cray focada no muito rápido e expansível interconexão Dragonfly. Todo o projeto custou US $ 233.1m para se desenvolver, e agora Cray tem o direito de vender ferro com base nessa tecnologia.

Cray tem mais US $ 140 milhões em abril de 2012 , quando vendeu a propriedade intelectual para o Gêmeos e Áries interliga a Intel. Cray retém o direito de vender a interconexão Áries e está trabalhando com a Intel no futuro interliga, possivelmente, de codinome "Pisces" e, presumivelmente usada no "Shasta" sistemas massivamente paralelos que Cray e Intel disse que eles estão trabalhando juntos como eles anunciaram a interconexão Carneiro venda.

O importante, tanto quanto a Universidade de Edimburgo está em causa é que o sistema XC30 tem montes e montes de espaço livre - na verdade, um XC30 totalmente carregado é projetado para escalar a bem mais de 100 petaflops. Mas o Reino Unido centro da HPC não vai estar empurrando os limites do XC30 em breve, com o sistema Archer ter um pouco mais de 2 petaflops de glamour. (Quase três vezes o desempenho da máquina Hector, como a Cray declaração explicadas.)

O plano para Archer, de acordo com os documentos de licitação , as chamadas para a universidade para obter um sistema de teste e desenvolvimento, bem como um sistema de produção muito maior, com duas caixas tendo nós de computação com memória padrão, mas com um subconjunto de ter configurações de memória mais gordos.

A 56Gb/sec InfiniBand links de rede para fora aos sistemas de arquivos Sonexion (que tem um total de 4.8TB de capacidade e 100GB/sec de largura de banda para o sistema) e os servidores de login que sentar na frente da máquina Archer produção. Uma rede Ethernet 10Gb/sec ganchos para outro local e armazenagem de arquivo de fita, bem como para outros serviços de rede.

O acordo Archer inclui o custo dos sistemas XC30 eo armazenamento Sonexion, bem como um contrato de serviços multi-ano, tudo vale a pena combinado de US $ 30 milhões. (Sim, este tipo de agregação torna muito difícil descobrir o que o sistema e hardware de armazenamento custa individualmente de serviços, e isso é absolutamente intencional). Archer está previsto para ser colocado em produção este ano.

Como mencionamos anteriormente, centro de HPC do Edinburgh é um cliente Cray de longa data, tendo instalado um sistema paralelo T3D em 1994 e adicionou um sistema T3E em 1996, que atingiu o pico fora em 309 gigaflops (você leu certo), quando foi aposentado em 2002 . ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/07/26/cray_archer_university_edinburgh_supercomputer/

quinta-feira, 25 de julho de 2013

Navios Adapteva kickstarted placas supercomputador do bebê

Nuvem de armazenamento: Menor custo e aumentar o tempo de atividade

Processador RISC Upstart e coprocessador designer de Adapteva é o transporte a primeira de suas placas de sistema Parallella, que sua Epifania processadores multicore com processadores ARM para criar uma corajosa e razoavelmente enérgico motor de computação híbrida que não custa muito e é muito eficiente de energia para certos tipos de processamento.

Não é barato para projetar e fab coprocessors ou fazer placas de sistema que fazem uso deles, assim co-fundador do Adapteva e CEO Andreas Olofsson despediu-se de um projeto de arrecadação de fundos Kickstarter local no ano passado para levantar o dinheiro para fab os chips, em vez de seguir o caminho tradicional de captação de recursos de risco e tentar obter vitórias projeto.

Enquanto Adapteva não cumpriu a sua pie-in-the-sky sonho de levantar US $ 3 milhões para financiar integralmente um conjunto de multi-núcleo RISC coprocessors epifania e placas de sistema Parallella que fazem uso deles, a empresa tem 4.965 apoiadores que prometeram $ 898921 e encomendaram mais de 6.300 placas com vários processadores Epiphany compensada com dual-core ARM Cortex A9 processadores ZYNC da Xilinx, que vende os chips ARM amassada com suas matrizes de portas de campo programáveis (FPGA).

O núcleo Epifania encarna a essência do Reduced Instruction Set Computing, com apenas 35 instruções, e tem um núcleo dual-edição com 64 registros. Tem uma unidade aritmética e lógica (ALU) e uma unidade de ponto flutuante, e uma memória RAM estática 32KB no outro lado daqueles registos. Cada núcleo tem também um roteador que tem quatro portas que podem ser estendidas para fora em uma matriz de 64x64 dos núcleos para um total de 4.096 núcleos.

Diagrama de blocos do chip RISC Epifania

O chip Epiphany-III é implementado em um processo de 65 nanômetros e 16 núcleos de esportes e da Epifania-IV é implementado em um processo de 28nm e dispõe de 64 núcleos. Este último chip de entrega cerca de 102 gigaflops de desempenho de 2 watts, ou 51 gigaflops por watt. (Adapteva escolheu GlobalFoundries como wafer padeiro, por sinal.)

A arquitetura de memória Epifania permite que qualquer núcleo para acessar a SRAM de qualquer outro núcleo no die porque a SRAM é mapeado como um único espaço de endereço através dos núcleos. Isso simplifica muito o gerenciamento de memória, e tem um acesso direto à memória (DMA) unidade que pode pré-busca de dados da memória flash externo.

Como os elementos de computação do conselho Parallella se reúnem

No momento, este suporte DMA não é estendido para InfiniBand ou adaptadores de rede Ethernet com Remote Direct Memory Access (RDMA) sobre esses dois protocolos de rede, mas Olofsson admite a El Reg que este apresenta um interessante conjunto de possibilidades para ligar vários co-processadores em um cluster Parallella juntos e ter a epifania coprocessadores compartilhar dados diretamente na rede como mastigar dados. (Você usaria o RDMA sobre Convergente Ethernet, ou RoCE, nos links Ethernet).

O conselho não tem uma porta SATA ou InfiniBand rápido ou link Ethernet, mas três das quatro portas de expansão 10Gb/sec pode ser encurralaram juntos para um máximo de 30Gb/sec de largura de banda para anexar outros tipos de portas para o conselho Parallella . Você teria que criar o cartão filha para fazer isso e escrever seus drivers.

O ARM-FPGA-Epiphany bordo híbrido triplo Parallella-16

O projeto Epiphany-IV é destinado a dimensionar a 64 núcleos de 1 GHz e queimar cerca de 25 miliwatts por núcleo. O chip atual é executado em 800MHz e entrega que 51 gigaflops de desempenho por watt sobre o trabalho números impressionantes mencionado acima. De 1 GHz, o Epiphany-IV pode fazer uma estimativa de 70 gigaflops por watt.

Se você participou do programa Kickstarter, você receberá uma placa Parallella-16 com um Zync-7020 processador da Xilinx, que tem dois núcleos Cortex-A9 que rodam a 800MHz e um FPGA no mesmo pacote com 85.000 células lógicas e 220 programável Fatias de processamento de sinais digitais. Esta placa tem um dos processadores Epiphany-III 16-core nele também, e esportes 1GB de memória principal SDRAM, um slot para cartão MicroSD, quatro conectores de expansão, uma placa de interface de rede Gigabit Ethernet e um conector HDMI.

Se você quiser comprar uma placa Parallella-16 e você não participar do programa Kickstarter, você pode obter um da loja on-line que Adapteva criou, mas você vai ter um processador Zync-7010 em vez disso, que tem apenas 29 mil lógica células e 80 DSP fatias na lateral do chip FPGA Xilinx.

Isso levará cerca de 12 semanas para cumprir essas ordens, porque não é Adapteva placas pré-fabricação. Isso vai custar US $ 99, assim como o nível de base do apoio Kickstarter fez. Você vai finalmente ser capaz de ordenar o chip Zync com o FPGA mais gordo, mas os preços ainda não está definido para este upgrade.

Um cluster de 42 nós de Parallella-16 placas de Adapteva

Se você não quer fazer muito trabalho em tudo e quer começar a jogar com um cluster de bebê dessas placas do sistema Parallella-16, Adapteva está vendendo as também por US $ 575. Que inclui quatro dos Parallella-16 cartões com conectores, quatro cartões SD de 16GB carregado com da Canonical Ubuntu Server 12.04, uma fonte de alimentação e 20 de metal impasse pernas para estragar as placas em uma torre de poder de computação. O cartão Parallella-16 é de apenas 3,4 polegadas por 2,1 polegadas.

O projeto Parallella necessário Epifania embalagem chip para ser redesenhado, Olofsson diz El Reg, e os drivers e SDK também foram melhorados e obrigadas a trabalhar melhor com os FPGAs sobre os chips Xilinx. Essa pilha inclui um compilador C, um depurador multicore, o Eclipse IDE, uma OpenCL SDK e set compilador e as bibliotecas de tempo de execução.

Apenas por diversão, Olofsson pegou dois switches Gigabit Ethernet de 24 portas e 42 das placas Parallella para criar um cluster de 42 nós que é aproximadamente do tamanho de um PC torre. Ele vai custar cerca de US $ 5.000 e queimar menos de 500 watts (em todos, incluindo os três tipos de processamento, memória, armazenamento flash e portas Ethernet).

Essa máquina proporciona cerca de 1,1 teraflops de glamour, e mudando para o 64-core Epiphany-IV que levaria até 4,3 teraflops. Isso não é um monte de teraflops, e um monte de co-processadores GPU pode combinar que, em um fator de forma muito menor para ter certeza. Mas o esmagamento RISC coprocessador é mais do que o dobro da eficiência de energia, de acordo com Adapteva.

Adapteva ainda quer ser um jogador de exascale na área de computação de alto desempenho, e como El Reg já relatado anteriormente, ajustou suas vistas sobre a criação de dois chips em 2018 para atingir suas aspirações exascale. Um chip de futuro Epiphany é um co-processador de entrada com mil núcleos em um dado que oferece 2 teraflops de desempenho em um envelope térmico 2 watt. O segundo é um chip enorme, com 64 mil núcleos com 1 MB de SRAM por núcleo que pode entregar 100 teraflops de coprocessamento de ponto flutuante com 100 watts. O plano é ter os dois chips oferecem um teraflops por watt usando os sete nanômetros processos de cozimento wafer que se espera estar disponível em 2018.

O programa Kickstarter para estes futuros chips Epiphany provavelmente exigirá algum apoio de grandes agências governamentais. E com esse tipo de desempenho e números térmicas, a Defense Advanced Research Projects Agency dos EUA é, provavelmente, farejando, e, talvez, o Departamento de Energia, também. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/07/25/adapteva_parallella_arm_fpga_epiphany_boards/