Dicas HPC: agosto 2014

domingo, 31 de agosto de 2014

Estudantes quentes, 'líquido refrigerante', gaitas de foles e Brasileiros: É um compo cluster, pessoas

Próxima segurança para data centers virtualizados gen

HPC Blog Tanto o Reino Unido ea América do Sul foram bem representada na recente 2014 Competição Cluster International Conference Supercomputing Student, realizado em Leipzig, na Alemanha. Por alguma razão, eu quero que a Google se cozinha na moda para ver se os restaurantes de fusão escocês brasileiros realmente existe. Mas eu tenho medo dos resultados possíveis - então vamos sim dar uma olhada de perto e pessoal com estas duas equipas ....

Universidade de Edimburgo: Esta é a segunda aparição ISC para a equipe de Edimburgo. Eles transformaram em um bom desempenho no ISC'13, em segundo lugar na parte LINPACK da competição. Este ano, eles retornam basicamente o mesmo time, mas elevaram consideravelmente a ante hardware.

Equipe de Edimburgo, trabalhando com patrocinador Boston Group, trouxe um dos conjuntos mais avançados que temos visto até agora na competição. Na superfície, as estatísticas do sistema não parece tão impressionante: quatro nós, 80 núcleos de CPU, memória de 64GB por nó (total de 256GB) e oito NVIDIA K40x GPUs.

Então, qual é o problema? É um equipamento de refrigeração líquida, com blocos de água no CPUs e GPUs, além de um grande radiador na parte superior. De acordo com a equipe, quando configurado para refrigeração de ar, cada um de seus nós de alto desempenho continha 10 ou 12 fãs.

Usando o líquido de refrigeração variante significa que a equipe poderia remover um monte deles, deixando apenas três ventiladores de baixa potência por nó para se refrescar a memória e placas-mãe desbloqueado-água.

Eles também foram capazes de remover um número considerável de fãs de refrigeração empurrando o ar através do radiador. A sua configuração de quatro nós, mesmo com oito GPUs rodando a passagem plena, só não geram calor suficiente para exigir a capacidade de resfriamento total do seu equipamento.

No vídeo, vamos dar uma olhada no seu sistema, falar com os meninos, e ter uma idéia de como eles fizeram com as aplicações de HPC. Eu incluí uma alma mexendo versão de "Scotland the Brave" como trilha sonora para a entrevista. Conseguiu amar aqueles gaitas de foles.

Youtube Video

Universidade de São Paulo: Team Brasil passou por algumas mudanças desde sua primeira competição de cluster na primavera clássico ASC'14 em Guangzhou. Enquanto os jogadores são os mesmos, o cavalo é um pouco diferente.

No ASC'14, a equipe estava usando um cluster Inspur com seis nós, 144 núcleos e seis Xeon Phi co-processadores. No ISC, a equipe está levando a uma nova besta SGI oito nó fantasia completa, com 192 núcleos de CPU, um TB de memória, e cinco Xeon Phi co-processadores.

Movendo-se para um outro sistema não é trivial, principalmente quando você está se movendo para um sistema a partir de um fornecedor como a SGI - que gosta de colocar um pouco de molho secreto na mistura. Como não havia muito tempo entre a ASC e competições ISC deste ano, a equipe ainda estava aprendendo os prós e contras da nova caixa quando chegaram em Leipzig.

Youtube Video

No vídeo, a equipe fala sobre as diferenças entre o ASC e competições do ISC, os desafios de ser a primeira equipe HPC do Brasil, e do milagre que é Infiniband, tudo acompanhado por um ritmo latino escaldante. ®

via Alimentação (Feed) http://ift.tt/1nj4DOY

sexta-feira, 29 de agosto de 2014

Eles não são uma banda de polca viajar, eles são crianças HPC alemães embalagem Big Iron

Próxima segurança para data centers virtualizados gen

HPC país blog Página Alemanha foi bem representada na recente competição Cluster Student 2014 no Internacional de Supercomputação Show, em Leipzig, na Alemanha.

Parte da tarefa para os alunos é encontrar um parceiro fornecedor e trabalhar com eles para montar o melhor conjunto para o evento. Naturalmente, o próximo bit difícil é ter certeza que o equipamento chega ao local de competição. Depois disso, é tudo sobre começar o cluster juntos e funcionando corretamente, o que pode acabar sendo uma aventura em si.

Dito isso, vamos dar uma olhada mais de perto as equipes ...

Equipe de Chemnitz: está fazendo sua segunda aparição no ISC14. Você deve lembrar-los a partir do ano passado, onde estreou a sua espantosa Coffee Table of Doom cluster, que foi alimentado por dezesseis (sim, dezesseis) aceleradores sedentos de poder.

Eles tomaram uma abordagem mais comedida neste ano, com seis nós (120 núcleos), memória de 768 GB, e oito aceleradores NVIDIA K40c. O que é inalterada desde o ano passado é a sua forma sistema fator: as estações de trabalho de torre com um telhado de mesa de café.

Esta é uma equipa divertida, como você vai ver no vídeo. Todos eles têm um bom senso de humor e HPC sólida smarts para corresponder.

Entrevista com a equipe Chemnitz. Eles se sentaram em volta de uma mesa, enquanto Dan pede-lhes perguntas e eles respondem.

Equipe Hamburgo: Esta é a primeira vez que vimos uma equipe da Universidade de Hamburgo. No vídeo, eles são confortáveis e bem apessoado, e negam que haja qualquer pressão sobre eles para defender sua terra natal.

Entrevista com a equipe de Hamburgo. Ele segue o mesmo formato como Team Chemnitz acima. Um da equipe parece ser do sexo feminino.

Hamburgo está rolando velha escola em ISC14 - apenas CPUs, GPUs nenhum ou outros aceleradores. No entanto, o sistema é um pouco Blingy de outras maneiras. Eles têm LEDs que brilham em cores diferentes, dependendo da força o seu sistema está funcionando.

O caso do cluster é interessante também. Para mim, isso se parece exatamente com o que uma banda de polca viajar usaria para abrigar seus melhores acordeões. Mas para Hamburgo, o caso carregado com nove Xeon E5-2660 alimentado nós de computação, cada uma com 128 GB de memória e uma interconexão InfiniBand.

Aproveite a entrevista com a equipe de Hamburgo, ea música polka alegre também.

Bootnote

A música de fundo no vídeo da entrevista com o Team Chemnitz é realizada por um membro da equipe de cluster Chemnitz. Seu grupo, Nachtwindneim, recentemente gravou um CD que ele me deu no show. Coisas boas de fato, e eu estou feliz em incluí-lo no vídeo.

via Alimentação (Feed) http://ift.tt/1ll7DPl

segunda-feira, 11 de agosto de 2014

Contemple primeiro ARM de 64 bits da AMD, Seattle: O chip de oito núcleos que quer em todos os seus centros de dados

A implementação da facturação electrónica global com a segurança jurídica garantida

Hot Chips 26 AMD vai lançar mais luz sobre o seu processador ARM-compatível "Seattle" 64-bit hoje na conferência Hot Chips em Cupertino, Califórnia.

Dê uma olhada neste novo Opteron A1100-series system-on-chip, e você vai perceber que é voltada diretamente servidores, em vez de a cena tradicional ARM de aparelhos portáteis e incorporado computing - embora isso era de se esperar: CEO da AMD, Rory Read disse isso em abril.

Como esperado, Seattle tem oito Cortex-A57 núcleos - projeto top-final da ARM rodando 64-bit ARMv8-A do código - e serão fabricados usando um processo de 28nm. Os núcleos funcionarão em 2 GHz ou mais.

O octo-core SoC Seattle terá 4MB de nível dois-cache e 8MB de cache de nível três; dois de 64 bits de memória DDR3 / 4 canais com ECC e dois DIMMs por canal correndo até 1866MHz, suportando até 128GB de RAM por chip; e controladores para oito portas SATA3 6Gbps, duas portas Ethernet de 10 Gbit e oito pistas de geração e três PCIe.

Seattle também usa memória Sistema de Gestão da Unidade de ARM ( SMMU ) para conectar as interfaces acima mencionadas para os A57 núcleos. O S em SMMU deve realmente estar para Super ou esteróides, porque o SMMU faz mais do que a tradução de endereços de e acesso a proteção de costume: permite hypervisors para definir as tabelas de conversão por hóspede OS, mantendo os clientes em grupos separados de RAM física. O projeto SMMU foi chutando em torno de alguns anos [ PDF ], mas a sua utilização em virtualização é especialmente relevante para este SoC servidor-grade.

E se você gosta de seus SoCs, AMD colocou um SoC dentro de um SoC: um processador de controle do sistema (SCP) embalagem um pouco core Cortex-A5 com 64 KB de memória ROM; 512KB de SRAM; temporizadores e um cão de guarda; o habitual SPI, UART e ² interfaces de C; Espaço de execução TrustZone; e uma porta de gerenciamento remoto de 1 Gbps Ethernet (RGMII).

A idéia do SCP é dar o boot, configurar e monitorar o processador principal, mantendo o seu próprio (em teoria) espaço seguro para executar código. Se o sistema em execução no processador principal cai, ou não precisa ser reiniciado a partir do zero, o SCP é necessário para estar na mão (e não comprometida) para desligar e ligar a máquina ou similar. O componente TrustZone do SCP deve garantir isso, garantindo que o sistema inicializar a partir de uma conhecida boa, estado de seguro de cada vez.

Seattle não é o único a ter um desses CPUs sidekick para mantê-lo no caminho estreito e apertado, mas vale a pena notar a sua presença.

O computador dentro do computador ... O seu chip de Seattle, na verdade, inclui dois sistemas, um meio que escondido

O SCP segue UEFI 2.4, em que ele começa a primeira quando a máquina é ligada, inicializa o SoC principal, começa seu próprio sistema operacional em tempo real, e então libera o núcleo A57 inicialização a partir de reposição para iniciar o firmware UEFI ARM.

O sistema operacional em execução no seu hypervisor rodando sob o sistema operacional ... Como Seattle é inicializado pelo SCP

Este processador sidekick também incluem um co-processador para acelerar algoritmos de criptografia, que é anexado ao SCP ou através de uma interconexão com a SMMU. Este co-processador inclui um gerador de números aleatórios, e pode executar compressão zlib e descompressão em hardware juntamente com AES, Elliptic Curve Cryptography, RSA e algoritmos SHA.

Bater os SoCs servidor off ... características do chip system-on-(clique para ampliar)

Mas por que usar uma CPU ARM-compatível no centro de todos os lugares de dados, você pode estar pensando.

Esse argumento foi dando voltas e voltas desde primeiro ARMv8 projetos de servidor de nível 64-bit surgiu. AMD afirma que um monte de centro de dados de elevação - acho que os servidores Web front-end - é inadequada para o bogglingly complexo processadores x86-64, e, assim, o trabalho deve ser passado para chips que são menores (de modo mais pode ser amontoados em prateleiras) e menos fome de poder (sempre a USP da família ARM).

Medidas de Seattle 27 milímetros x 27 milímetros e disse ter um TDP de cerca de 25 watts. O x86-64 oito núcleos de 2 GHz Intel Xeon E7-4820 v2, por exemplo, é 52 milímetros x 45 milímetros e tem um TDP de 105 watts, embora admito que não é uma comparação totalmente justo.

"Seattle é um processador de servidor densa para aplicações de data center. Desempenho por dólar por watt unidades designs atuais centros de dados", da AMD Sean White dirá Hot Chips de 05:30 de hoje, horário da Califórnia.

"Um número significativo de cargas de trabalho de data centers têm inerentemente baixa instruções por clock (IPC) e altas taxas de falha de cache. Para essas cargas de trabalho, processadores, como Seattle, com núcleos e caches menores, pode proporcionar o desempenho equivalente como processadores de servidores tradicionais, com grandes núcleos e caches, mas usando muito menos energia e espaço. "

A AMD também vai mostrar o seu sistema de referência Seattle que funciona como um $ 2999 kit de desenvolvimento: uma caixa de montagem em rack de 2U com um PCIe slot para x8 Gen-3 ou dois slots x4, portas para até oito unidades de disco rígido, uma placa-mãe microATX com um Seattle SoC, duas portas Ethernet de 10 Gbit, quatro I ² interfaces C, duas portas seriais e 64-bit ARM Linux na forma de uma distro Fedora, versões ARMv8-A de Jave 7 e 8, eo toolchain GCC habitual.

Hot Chips ... a placa de referência Seattle

O silício, fabricados pela GlobalFoundries, é devido ao navio no quarto trimestre de 2014 ®

via Alimentação (Feed) http://ift.tt/1oDioMI

quarta-feira, 6 de agosto de 2014

Fujitsu leva next-gen chip de HPC na estrada

Privacidade de dados Endpoint na nuvem é mais fácil do que você pensa

Fujitsu está se preparando para sua próxima tout silício supercomputador na próxima conferência Hot Chips, um follow-up para a primeira espiada dada em junho.

O silício planos de roupa para a próxima geração de ferro grande, o SPARC64 Xlfx, é a esperança da Fujitsu para a computação exascale: a 32-core, 1 TFLOP (precisão dupla) / 2 TFLOP (precisão simples) monstro projetado para trabalhar com a interconexão óptica Tofu2 .

Nesta apresentação a partir do final de junho, o vendedor diz que o Xlfx será a base de uma placa de memória 3-CPU, com 12 nós de CPU por 2 unidades de refrigeração água nós chassi e 200 por gabinete. Ligações inter-chassis serão fornecidos pela módulos ópticos Finisar, e cada um chassis irá incluir vários cubos de memória Micron híbridos (SGUM).

Em outra apresentação , Fujitsu diz que o sistema baseado em Xlfx vai entregar 100 Petaflops por gabinete, e terá 12,5 gigabytes / segundo links de comunicação bidirecional (que mais do que duplica o GB / s de velocidade de interconexão Tofu1 5 usado em computador K da empresa) .

Todos, diz a empresa, o sistema Xlfx embala vale um K computador do gabinete do grunhido de ferro em cada chassis, sendo binário compatível com o K e seu antecessor imediato, o PRIMEHPC FX10.

A pilha de software tem compiladores automáticas paralelização para Fortran, C e C ++, e suporta OpenMP, MPI, e XPFortran.

Hot Chips começa no Domingo, 10 de agosto ®

via Alimentação (Feed) http://ift.tt/1kJz0Cx

High five da AMD: Novo supercomputador GPU consegue no máximo 5,07 TFLOPS

Recomendações para simplificar a migração de sistema operacional

AMD aumentou a parada em sua batalha com a Nvidia para o centro de dados e os mercados de computação de alto desempenho (HPC), com o lançamento de duas novas placas GPU para os servidores.

Nova grande arma da empresa é o cartão FirePro S9150, que consegue no máximo um 5,07 TFLOPS de pico de precisão simples desempenho de ponto flutuante bolhas e 2,53 TFLOPS de pico de desempenho de precisão dupla.

AMD é rápido para comparar essas estatísticas a Nvidia top-of-the-line Tesla K40 placa do servidor, que "apenas" administra 4,29 TFLOPS de pico de desempenho de precisão simples e 1,43 TFLOPS de pico de desempenho de precisão dupla - tornando o S9150, para ouvir AMD diz que, a GPU mais poderoso já construído para HPC.

Nova FirePro S9150 da AMD picos em uma gritante 2,53 TFLOPS de desempenho de precisão dupla

"A sua configuração de memória, capacidades e desempenho por watt de computação são incomparáveis em sua classe, e pode ajudar a levar supercomputadores para o próximo nível de desempenho e eficiência energética", David Cummings, diretor sênior e gerente geral do grupo de gráficos profissional da AMD, disse em um declaração .

Como o cartão de estação de trabalho FirePro W9100, que a AMD lançou, em abril, o S9150 possui 16 GB de memória GDDR5 com uma interface de memória de 512-bit, produzindo a largura de banda máxima de memória de 320 GB por segundo.

Também como esse cartão antes, o S9150 chega embalagem de 44 da AMD Núcleo Gráfico Next (GCN) unidades de computação. Em 64 stream processors por unidade de computação, que perfaz um total de 2816 stream processors a bordo do novo cartão.

Enquanto o S9150 não torça-processamento de números tão grande quentura de seu hardware como o W9100, no entanto, ele também consome menos energia, chegando a um máximo de 235W, em comparação com 275W do W9100.

O S9150 suporta a tecnologia fluxo AMD e OpenCL 1.2 fora da caixa, e AMD espera vender OpenCL 2.0 drivers para ele no quarto trimestre de 2014, tornando-se a primeira linha de GPU servidor da empresa para suportar o novo padrão.

Enquanto isso, a AMD anunciou simultaneamente uma segunda placa de servidor de novo, a FirePro S9050, com um pouco menos, digamos, especificações desejáveis, visando a mais clientes preocupados com o orçamento.

Este cartão é construído usando 28 unidades computacionais GCN para um total de 1.792 processadores stream, e ele vem com apenas 12GB de memória GDDR5 de, em comparação com 16GB do S9150. Sua interface de memória de 384-bit é mais lento, também, fornecendo largura de banda máxima de memória de 264GB por segundo.

O S9050 é, sem dúvida nenhuma desleixo, no entanto. Ele pode fornecer uma única previsão de pico de desempenho vírgula flutuante de 3,23 TFLOPS e pico de desempenho de precisão dupla de 806 GFLOPS, tudo a um consumo máximo de 225W.

Em contrapartida, o S9050 suporta apenas OpenCL 1.2 até agora e que não soa como a AMD planeja lançar OpenCL 2.0 drivers para este cartão quando navios-los para a sua máquina mais potente irmão mais velho.

Tanto o S9150 eo S9050 são esperados para ir à venda no terceiro trimestre de 2014 AMD ainda tem que divulgar os preços, mas esperamos que desembolsar uma soma de quatro dígitos saudável para cada um. ®

via Alimentação (Feed) http://ift.tt/1lBedfh

HGST traz PCM para show flash, atordoa mundo + cão com 3 milhões de IOPS

Recomendações para simplificar a migração de sistema operacional

Em uma demonstração fantástica de a tecnologia errada para a Cimeira de memória Flash, HGST está mostrando uma mudança de fase do dispositivo de memória conectado à PCIe funcionando em três milhões de IOPS com 1,5 microssegundos ler latência.

Phase Change Memória (PCM) armazena dígitos binários como diferentes níveis de resistência, alterando o estado, ou fase, do material chalcogenide eles são feitos com de amorfa para cristalina e de volta.

Dispositivos PCM são ditas para oferecer dados muito mais rápidas velocidades de leitura do que flash e fornecer uma configuração de memória mais denso. Mas é uma tecnologia pós-NAND emergente, com IBM , Micron e outros que trabalham para desenvolvê-lo - e, definitivamente, não é intermitente.

Relativamente fora do azul, HGST está demonstrando um dispositivo PCM construído a partir de 45nm 1 Gbit PCM morre, fornecido pela Micron nós entendemos, e usando o seu próprio controlador com um DC Expresso protocolo que atravessa PCIe.

Este protocolo foi discutido durante o FAST '14 em fevereiro, em um artigo intitulado "DC Express: Shortest Latência Protocolo para leitura Phase Change Memória sobre PCI Express" e escrito por Dejan Vučinić, Qingbo Wang, Cyril Guyot, Robert Mateescu, Filip Blagojević, Luiz Franca-Neto, e Damien Le Moal de San Jose Research Center da HGST; e Trevor Bunker, Jian Xu, e Steven Swanson, da Universidade da Califórnia, em San Diego; e apresentado por Zvonimir Bandić, a partir de San Jose Research Center da HGST. Faça o download do papel aqui (PDF) .

Há um (carregamento lento) vídeo da apresentação disponível clicando na imagem vídeo abaixo:

Baixar vídeo clicando na imagem

DC expresso de forma muito grosseira trabalha por se livrar de conversas alheias protocolo PCIe. No trabalho, os pesquisadores demonstraram 700.000 IOPS de um conjunto de 5 x 1 Gbit chips de PCM com uma profundidade de fila de um. Nosso entendimento é que os três milhões de IOPS trata de mover-se a profundidade da fila a 4.

Micron fichas PCM

Os 3 milhões de IOPS foi exibido durante a leitura aleatória de 512 bytes de cada vez. O documento diz que a latência de escrita do dispositivo PCM é de 55 vezes a latência de leitura, o que significa 82,5 microssegundos, o que é na área de escrita latência do MLC NAND.

Não há nenhuma informação sobre a capacidade do dispositivo. A única discutido na apresentação RÁPIDO foi 5Gbits. HGST diz que a placa PCIe em seu dispositivo é uma demonstração de altura total, de corpo inteiro, gen 2.0, 4 pista um.

HGST está ficando animado com as possibilidades de memória de classe de armazenamento com o dispositivo - é ser mais de uma substituição DRAM baixo custo do que um flash-killer que pensa, mas é não-volátil. A tecnologia leva à pergunta "Quem precisa ULLtraDIMMs?" que devem exercer os engenheiros da SanDisk. Talvez morre PCM pode ser conectado para DIMMs de memória também?

Não está claro o quão longe esta demonstração HGST é de um produto liberado, talvez nove - 18 meses.

Um pensamento: se ele precisa de uma full-height, full-length placa PCIe com apenas 5Gbits de PCM sobre ele, então talvez um monte de necessidades de trabalho a fazer para diminuir a lógica do controlador?

Product-sábio que estamos procurando no início fase de desenvolvimento de um FlashMax IV placa PCIe PCM? Isso vai definir os outros fornecedores CSRD de flash PCIe tudo uma vibração. Se Micron é sério sobre sua tecnologia PCM o que poderia produzir um flash card PCIe também, embora ele precisaria de seu próprio protocolo mais rápido do que o PCIe Interface também, a perceber o potencial de velocidade.

Este pouco atraente do kit de memória de mudança de fase pode ser visto no estande 316 no flash Summit 2014 Memória, Santa Clara, CA, agosto 6-7. ®

via Alimentação (Feed) http://ift.tt/1owzlrA