Dicas HPC: setembro 2013

segunda-feira, 30 de setembro de 2013

A computação quântica começa recursiva

Relatório livre ESG: gerenciamento de dados sem emenda com Avere FXT

Quando um computador quântico pode produzir resultados que levaria milhares de anos para produzir a partir de um computador clássico, uma pergunta óbvia que surge é: se você tiver dado a resposta errada, como você sabe? Essa é uma pergunta para a qual boffins Universidade de Viena voltaram sua atenção.

A computação envolvendo um punhado de qubits pode ser verificado por um computador clássico, porque ele pode percorrer os estados possíveis de um por um. Alguns outros cálculos quânticos também são verificáveis no mundo clássico: por exemplo, se produzir um computador quântico com energia suficiente para fatorar chaves criptográficas muito longos, o resultado seria testável contra a mensagem original.

No entanto, boffins computação quântica nos asseguram que apenas 300 qubits deve representar mais estados possíveis do que átomos no universo visível, tornando o trabalho de entregar "comprovadamente corretas" resulta de um desafio. Algumas propostas para superar este ir tão longe a ponto de criar embaraços entre os computadores quânticos inteiros, algo que vai muito além de qualquer tecnologia atual.

A Universidade de Viena Philip Walther, Stefanie Barz e seus colaboradores, propôs um esquema chamado de "computação quântica cega" em um artigo na revista Nature, e agora, o mesmo grupo diz ter demonstrado a técnica em pequena escala.

A idéia básica é simples: o cálculo inclui as armadilhas, os passos intermediários em um cálculo para que a resposta "clássico" pode ser conhecido com antecedência.

Enquanto isso, o computador quântico, na verdade, realizando o cálculo não tem idéia do que está fazendo. Como explicado na revista Science: "Um computador quântico recebe qubits e completa a tarefa com eles, mas ele permanece cego para que a entrada e saída eram, e ainda que o cálculo é realizado ... O teste é projetado de tal forma que o computador quântico não é possível distinguir na armadilha de suas tarefas normais ".

A armadilha é projetado mostrar um erro enquanto o computador quântico está funcionando.

O truque é que os pesquisadores não incorporar suas armadilhas em um cálculo clássico. Em vez disso, eles usaram um computador quântico de quatro qubit como o verificador, para realizar um "teste de Bell cego" contra um segundo computador quântico. Em seu artigo da Nature, eles afirmam que o experimento "é independente da plataforma experimental quântico de computação usado".

É apenas uma experiência a este estágio. Como Scott Aaronson, do MIT, disse a Ciência ", este atualmente tem o status de uma demonstração divertida prova de conceito, em vez de algo que é diretamente útil ainda", mas tais manifestações são "medidas necessárias" para com os computadores quânticos úteis.

A Universidade de Viena é perfeitamente capaz de produzir "demonstrações divertidas" da computação quântica. No início deste ano, ele produziu uma visualização em tempo real do surgimento de emaranhamento. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/10/01/quantum_computing_gets_recursive/

quarta-feira, 18 de setembro de 2013

Fundação Apache abraça tempo grande triturador de dados real 'Storm'

Incremente sua infra-estrutura

A Fundação Apache votou para aceitar o "Storm" ferramenta de processamento de dados em tempo real em seu programa de incubadora, o primeiro passo para tornar-se uma parte oficial das ofertas de código aberto da Fundação.

Tempestade pretende fazer para o processamento de dados em tempo real o que fez Hadoop para processamento em lote: tarefas da fila e enviá-las para um cluster de computadores, em seguida, puxe tudo de volta em forma utilizável. Nathan Marz, cartaz do repositório GitHub Tempestade acredita que "A falta de um 'Hadoop de tempo real' tornou-se o maior buraco no ecossistema de processamento de dados."

Tempestade tenta preencher esse buraco com um software que "... expõe um conjunto de primitivas para fazer o cálculo em tempo real. Gosto de como MapReduce facilita muito a escrita de processamento em lote paralelo, primitivas de tempestade facilitar bastante a escrita de computação em tempo real paralelo. "

Sem tempestade, Marz escreve, seria preciso "construir manualmente uma rede de filas e trabalhadores para fazer o processamento em tempo real." Storm automatiza esse material, o que deve significar um melhor escalonamento: Marz já diz "um dos pedidos iniciais de tempestade processadas 1.000.000 de mensagens por segundo em um cluster de 10 nós, incluindo centenas de dados de chamadas por segundo, como parte da topologia ".

Tudo o que deve ter gente computação de alto desempenho animado.

Processo de incubação da Fundação Apache não é técnico. Um dos objetivos é garantir que qualquer software oferecido com seu logotipo de penas em conformidade com a sua licença de preferência, que não deve ser problemático como tempestade é oferecido atualmente sob a Eclipse Public License. A Fundação também gosta de garantir próprias comunidades nutrir software que ele oferece, e, novamente, que não deve ser uma luta determinada tempestade já tem usuários entusiastas, incluindo Yahoo!, Twitter e business-to-business tat bazar Alibaba.

Uma vez que a Fundação acrescenta seu aval à lista de depoimentos de usuários atual tempestade , essa comunidade vai crescer, sem dúvida. E a companhia de marketing de Big Data que ficar sem coisas para dizer sobre o Hadoop, embora eles vão, sem dúvida, logo afirmar Tempestade significa sizzzling insights de negócios são magicamente disponíveis em tempo real com tão pouca justificação para essa afirmação como para a tão repetida proposição de que o Hadoop + dados = conhecimentos altamente rentáveis em sua caixa de entrada todas as tardes. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/09/19/apache_foundation_embraces_real_time_big_data_cruncher_storm/

sexta-feira, 13 de setembro de 2013

Ambições exascale memória turva confusão da Intel

Relatório livre ESG: gerenciamento de dados sem emenda com Avere FXT

Tentativa nobre de IDF13 Intel para fazer um supercomputador capaz de uma exaflop até 2020 consumindo apenas 20 megawatts de energia está sendo executado em grandes problemas devido às leis traquinas da física.

Quando a Intel anunciou sua exaflop gol em 2011, a gigante de produção de chips falou-se de uma variedade de tecnologias que ele estava trazendo para suportar sobre o problema stupendously difícil de fazer as ordens de magnitude de computador mais poderoso do que hoje em dia bits violinistas e ao mesmo tempo tornando-se muito mais eficiente.

Algumas das tecnologias papai do Silício foi brincar com incluem ultra-chips de baixa potência processador VIA Near-Threshold Voltage (NVP), tecnologia de memória de empilhamento com sistemas como o Cubo de memória Hybrid, e sistemas de processamento heterogêneo utilizando tecnologia como Intel maciçamente multi- Phi plataforma Xeon de núcleo.

Mas, como a Intel aprofundava essas tecnologias que surgiu com inúmeros problemas que, embora não showstoppers, vai ser difícil para a empresa a superar.

"Há muitos de novas tecnologias em vôo. Estes vão ter um impacto profundo sobre a forma como nós construímos sistemas", disse o arquiteto-chefe da Intel para sistemas de exascale Al Gara em um discurso no Fórum de desenvolvedores da Intel.

O maior curinga é o tipo de memória Intel pode usar, disse ele. E o júri está muito fora.

"Quando eu olhar para direções que poderia ir com HPC e como a memória desempenha, eu vejo isso dividindo-se em duas direções: uma é o lugar onde nós estamos presos com DRAM e tem que viver com DRAM um longo tempo", disse ele, o outro é "Se uma dessas [novas] tecnologias de memória realmente evoluir, então as coisas mudam drasticamente."

Estas tecnologias mais recentes incluem coisas como memória torque de spin-transfer, nanomechanical RAM, memória de mudança de fase, e outras tecnologias emergentes de memória não volátil. Todos eles têm a promessa de um 5 a melhoria 10X no desempenho DRAM, e alguns têm novas possibilidades de computação também.

O problema é que a Intel não tem certeza se eles vão amadurecer no tempo para que ele seja capaz de escolher um novo padrão de memória, o trabalho para compreendê-lo e programa para ele e, em seguida, criar uma nova lógica para tirar o melhor proveito dele .

Pedimos Gara quanto tempo ele pensou que poderia ser até que a Intel poderia fazer uma aposta em qualquer DRAM ou um dos up-and-chegados, e ele disse que soubessem "durante o próximo ano e meio a dois anos. És vai vê-los se tornar real em que período de tempo. Eles não serão o que queremos para a substituição DRAM naquele momento, [mas] isso é quando você tem que verificar. "

"Até que essas tecnologias entrar nos mercados mais simples ou mais fácil de entrar não vamos realmente saber".

Isso significa sonho supercomputador da Intel está definido por duas possibilidades muito diferentes: um é que a DRAM continua sendo a melhor maneira de construir sistemas. Isso vai ser complicado, como "se nós estamos presos com DRAM, então o problema é por causa do aumento no desempenho de computação que vamos continuar a cair a capacidade de memória para o desempenho", diz Gara. "Nós vamos ser levados a um cenário de segmentação muito agressivo."

Isso exigirá a criação de vários novos métodos de programação que são implicitamente paralelo, e apoiada pela interconexão de alta velocidade e dados on-chip fotônico sistemas como interconexões, para tirar o máximo partido desta low-memory ambiente de alta computação vaivém.

Um mundo alternativo é o lugar onde uma dessas funções alterações da memória, e nesse ponto as coisas radicalmente diferentes. Se a memória spin-Torque viriam através de, por exemplo, então o cálculo pode ser feito de uma forma muito diferente.

"Nós podemos usar as propriedades magnéticas do material", diz Gara. Isso permite que você use as propriedades físicas da nova tecnologia de memória para substituir portas lógicas típicas e, portanto, ser capaz de circuitos de design que são cerca de 25 por cento menor, disse ele.

No entanto, se essa forma de memória vem através, em seguida, a Intel terá muito trabalho a fazer para tirar o máximo dele. "Esses sistemas de arquivamento [] são todos otimizados para quando os tempos de acesso são as dezenas de milissegundos, mas [com não-volátil] agora estão na casa das dezenas de nanosegundos," da Intel recentemente falecido chefe Lab Justin Rattner, disse-nos quando nós perguntei a ele sobre isso no IDF um ano atrás.

Apesar de memória coloca alguns problemas difíceis para a Intel, a gigante dos chips é mais esperançoso em outras áreas como fotônica, que estão chegando forte.

No momento em que a empresa está usando quatro comprimentos de onda diferentes de luz para gerar 50Gbps de capacidade de interconexão, e está olhando para mover a oito para chegar a 100Gbps. Em última análise, a Intel pensa se ele pode empurrar o número de comprimentos de onda e eficiência se poderia chegar a um terabits.

Infelizmente, "não há almoço grátis aqui", porque fotônica custar mais energia do que o cobre. "Enquanto ele tem enormes vantagens para uma série de regiões do sistema, o poder é uma das coisas mais importantes que temos que ficar de olho", disse Gara.

Mas toda essa largura de banda combinada com meios de memória mais rápidos (ou um pouco melhor DRAM, dependendo), significa que a Intel precisa criar melhor CPUs também. Nesta área, ele está se concentrando em escala fio, e é "maníaco perseguindo" depois de melhorias em áreas como compartilhamento de falso cache, start-up despesas gerais, despesas gerais de sincronização e carregamento / execução desequilíbrios para melhorar isso.

Melhorias não pode vir de levantar o clock. "Nós temos coberto com frequência", diz ele. Mesmo Intel pode aumentá-lo um pouco, isso não ajudaria: "Se de repente eu te dei um processador terahertz eo mesmo sistema de memória que você não iria ficar speedups dramáticas."

Uma alternativa seria um modelo de programação com restrições que poderiam permitir núcleos mais simples, com maior freqüência, disse ele. Isto, combinado com a escala de tensão - no ano passado, IDF a Intel demonstrou um processador de tensão junto ao limiar que tomou um gole de energia a uma taxa muito baixa - deixaria Intel fazer isso sem ver a subida de energia. "A dificuldade é que você baixa tensão você também queda de freqüência".

Para a mente deste corte, grande problema da Intel é que, como ele é executado para cumprir o seu objetivo, que é perpetuamente sendo thwacked no rosto pelas leis fundamentais da física que se levantaram se os materiais que ele está usando ou maneiras que querem informações de transporte. THWACK, vai dispersão tensão, como você descer por meio de processos de chips mais finos. BANG, vai à velocidade da luz, como você tentar usar fotônica. E assim por diante.

Mas mesmo aqui a Intel está pensando em soluções alternativas. Um modo de encher mais inteligência num circuito poderia ser a utilização dos intervalos de tempo em que a informação é esguichou em torno da lógica para realizar o cálculo, Gara disse.

"A eficiência energética é apenas uma função de quanto tempo os fios estão, e quantas você tem Na realidade nós não estamos usando tempo -. Você pode codificar informações em tempo!" ressalta. "Se eu enviou um sinal através de um único fio, mas o tempo quando estou a transição dele -. Que é como eu estou codificação de informações Agora custa-me frequência, mas esta abordagem permite-me para chegar a números de eficiência energética que não poderia ter começado . A questão é se isso funciona para a lógica? "

A Intel não sei, mas esta é uma das muitas áreas que está explorando como ele tenta se afastar de certos limites aparentemente intransponíveis em sua busca para o sistema de escala exa.

Mas se a Intel faz com que seja para um exaflop dentro do seu prazo, então o trabalho vai começar tudo de novo, Gara diz, porque de acordo com o princípio de Landauer - uma teoria que coloca o limite inferior para o custo da computação - Intel tem um longo caminho para ir.

"Acontece de um exaflop você precisa 16W, o que é interessante porque é o que o cérebro é, para 16MW você deve ser capaz de fazer uma yottaflop partir de uma perspectiva da teoria da informação", disse ele com um sorriso irônico. Só não diga a gerência superior. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/09/14/intel_exascale_update_deepdive/

quarta-feira, 11 de setembro de 2013

Forja IBM NextScale servidores para HPC e hiperescala cheapskates

Relatório livre ESG: gerenciamento de dados sem emenda com Avere FXT

IDF13 concorrente da Intel, com o lançamento da "Ivy Bridge-EP" Xeon E5-2600 processadores V2 em San Francisco hoje, a Big Blue trotou para fora seus a maioria das máquinas vaidade livres até à data, a linha NextScale.

Os novos sistemas são projetados especificamente para competir com o baixo custo, despojado alternativas de Hewlett-Packard, Dell, Silicon Graphics, e Super Micro, bem como aqueles que estão empurrando caixas com base nas especificações do projeto Open Compute iniciada pelo Facebook mais de há dois anos.

As máquinas NextScale ter alguma semelhança com outros densas, desenhos minimalistas servidor lá fora, no mercado com base em nós de servidor de meia largura, e eles acabarão por tomar o lugar das máquinas iDataPlex que a Big Blue rolou em maio de 2008.

Os sistemas iDataPlex foram criados para perseguir clientes provedores de supercomputação e serviços que estavam olhando para embalar mais de computação em um espaço menor no centro de dados.

Enquanto eles têm sido bem sucedidos, particularmente entre alguns grandes centros de supercomputação, as prateleiras iDataPlex são de tamanho fora do padrão, com base em nós de servidores que são 15 centímetros de largura, em vez de 19 polegadas, o rack também tem duas colunas de lado a lado máquinas por padrão, para um máximo de 84 máquinas, em uma cremalheira, que não é apenas mais magra mas igualmente uma profundidade menor que a cremalheira padrão.

Isto, em teoria, é uma coisa boa, mas prateleiras são um tamanho padrão por uma razão e nada fora do padrão sempre tem um momento difícil. E assim, a IBM está indo com racks padrão de 19 polegadas com o NextScales e está aumentando a densidade, indo com meia largura, nós do servidor full-profundidade, assim como quase todos os outros servidores construção hiperescala está fazendo estes dias.

O iDataPlex vai ser em torno de um bom tempo ainda, como IBM ainda está vendendo servidores blade BladeCenter apesar de suas máquinas modulares FlexSystem foram para fora por um ano e meio. Gaurav Chaudhry, gerente de marketing para a divisão de computação x hiperescala sistema, El Reg diz que a IBM provavelmente vai continuar a vender as máquinas iDataPlex por outros 18 meses mais ou menos.

Uma das razões é a de apoiar as contas existentes com máquinas iDataPlex. Outra é que a IBM ainda não tem integrado de resfriamento de água nos sistemas de NextScale, como tem sido disponível para as máquinas iDataPlex por algum tempo.

Mas existe um plano para trazer blocos de resfriamento de água e tubos para a linha NextScale para os clientes que querem usar os processadores mais rápidos e mais quentes. Muito possivelmente, alguns chips de energia da IBM e, provavelmente, também de gordura co-processadores GPU da Nvidia. Mas Chaudhry foi mãe em nada específico.

Ao contrário do BladeCenter e máquinas FlexSystem, mas como o iDataPlex, antes disso, as máquinas NextScale não tem um plano médio que nós do servidor tirar suas portas I / O em um backplane ou que se articule junto servidores, storage e switches de rede e módulos de passagem, todos os sob uma única estrutura de gerenciamento em um por chassis (ou multi-chassis) de domínio.

Os tipos de aplicações paralelas são executados por centros de HPC, os operadores de nuvem pública, e empresas de criação de nuvens privadas nem sempre precisa de todos os recursos de confiabilidade e gestão destas máquinas full-on, de classe empresarial.

A idéia por trás de aplicativos modernos é que eles escala em vários nós e ter seus recursos RAS inerentes a camada de software e, portanto, não há nenhuma razão técnica para ter tantos controladores de gerenciamento, fontes de alimentação, ventiladores e outros componentes na caixa. A máquina é despojado para o essencial para ser um nó em um cluster com nada schmancy fantasia que adiciona custo.

IBM projetou o chassis NextScale e seus sistemas de energia e refrigeração em seu laboratório de desenvolvimento na Carolina do Norte, mas as caixas são construídas em sua Shenzhen, China, fábrica para obter o menor custo de produção possível dentro da Big Blue. Os nós do servidor para a máquina também será feito na China, eo primeiro nó do servidor disponível para a caixa foi projetada em seus sistemas e tecnologia de laboratório de design do Grupo em Taiwan.

"Nós tentamos ficar longe de construir um carro de luxo", diz Chaudhry. "Este é um carro de corrida de alta performance."

As máquinas foram concebidas explicitamente para assumir SL6500 recintos sistemas escaláveis da HP com as SL230s ProLiant, bem como um número de máquinas sob medida reunidas por unidade de dados da Dell Solutions Center, que tem a participação das vendas de servidores hiperescala mercado dominante nos dias de hoje.

"Nós somos um-para-um com a HP no preço", gaba Chaudhry. Mas a Dell, Super Micro, e os falsificadores caixa OCP são, provavelmente, os que são os mais perigosos concorrentes lucro de matar no setor servidor hiperescala estes dias.

Dito isto, se a IBM está dizendo que ele pode atender HP no preço, e está oferecendo uma plataforma de computação mais padrão que atenda aos requisitos de densidade, esta é uma grande melhoria em relação ao último par de anos.

IBM tem planos de expandir a linha NextScale durante o próximo ano

Que a IBM está dizendo em suas apresentações a parceiros de negócios e no Intel Developer Forum, que será capaz de colocar microservers neste chassis NextScale também mostra que pelo menos algumas pessoas dentro Big Blue quer tentar fazer algum dinheiro nesta parte low-end da raquete do servidor - deve firmar e realmente gerar uma fatia considerável da receita. A IBM tem sido tranquila como a grama crescendo sobre microservers nos últimos três anos.

O NextScale começa com um chassis bare-ossos, chamada de nx1200, e como o nome sugere, tem uma dúzia de nós do servidor de meia largura em um chassis de 6U. Cada nó do servidor tem dois soquetes, assim você pode obter 24 bases de Xeon E5 computação em que 6U de espaço. Isso funciona para quatro soquetes por unidade vertical da capacidade das máquinas NextScale.

BladeCenter H gabinete de servidor da IBM lâmina poderia fazer 14 blades em um gabinete 9U. Porque as lâminas eram tão magro, havia alguns limites sobre as potências dos processadores que podem ser colocados para as lâminas. De qualquer forma, ainda é de apenas 3,1 tomadas por unidade vertical do espaço em rack, e você pode usar qualquer coisa 40-130 watts Xeon E5-2600 v2 peças na caixa NextScale.

O iDataPlex tinha 84 nós em dois racks meio de profundidade, lado a lado, que funcionou a 168 órbitas em aproximadamente o mesmo espaço que um rack 42U, que funciona a quatro soquetes por unidade de rack vertical.

O chassis do Sistema Flex tem 14 nós de servidor de meia largura em um espaço de rack de 10U, com os nós também ser servidores de dois soquetes. A matemática trata de tomadas de 2,8 por unidade de rack vertical para o sistema Flex.

Mas espere um segundo. Lembre-se que a IBM anunciou o nó do servidor de dupla densidade Flex x222 para o Sistema Flex há um mês . Estes são baseados em menos enérgico Xeon E5-2400 processadores v1, mas ainda assim, que dobra-se a densidade de computação para 5,6 tomadas por unidade de espaço em rack vertical.

IBM precisa de adicionar água de arrefecimento para o NextScale para ser capaz de dobrar-se da densidade de computação nessas máquinas para 8 soquetes por unidade vertical, mas nenhuma dessas promessas feitas para o fazer.

A vista dianteira e traseira dos chassis nx1200 NextScale

O chassis nx1200 tem até seis fontes de alimentação de 600 watts, que podem ser configurados com redundância total ou poupadores failover, e pode ter até dez ventiladores hot-swap para ajudar a manter os componentes legal. O chassis tem um ventilador e poder controlador bem no meio das costas.

Os nós de servidor de ligação até topo de switches de rack e não há nenhuma rede ou controladores de gerenciamento de chassi na caixa. IBM diz que os clientes provavelmente vai usar Platform LSF, Plataforma HPC, ou xCAT para gerenciar os nós, assim como lojas de HPC fazer. O chassis permitirá que os clientes eventualmente misturar e combinar diferentes gerações e tipos de nós com nós de armazenamento e processamento de co-processador.

O armazenamento de Expansão Native ou armazenamento Nex, módulo terá 32TB de capacidade (oito unidades de 3,5 polegadas SATA com 4TB de capacidade cada) e incluirá um controlador RAID de disco, um cabo SAS volta a um nó de computação, e unidades de disco rígido em uma unidade que é 1U de altura, assim como o nó de computação.

O chassis de expansão PCI Native também é 1U de altura e parece que ele tem espaço para dois Tesla GPU Nvidia ou Intel Xeon Phi co-processadores, que se encaixem no cartões de ascensão e, em seguida, por sua vez ligar para o nó do servidor M4 nx360.

Falando nisso, aqui está o que nó do servidor M4 nx360 parece:

O nó do servidor NextScale nx360 M4

O nó do servidor M4 nx360 tinha quatro slots de memória por soquete do processador e, atualmente, bate para fora em 128GB de capacidade contra os novos brilhantes Xeon E5-2600 v2 processadores da Intel. Isso é memória suficiente para um monte de cargas de trabalho, mas provavelmente não todos eles.

O nó do servidor tem um único slot PCI-Express 3.0 com dezesseis faixas (x16), e curiosamente de acordo com as especificações, como você pode ver acima, tem outro slot avaliado em 24 pistas (x24). Há também um mezanino conector para interfaces de rede x8 I / O, e, neste caso, a IBM está oferecendo dual-port InfiniBand (rodando a 56Gb/sec) ou opções Ethernet (10Gb/sec).

O nó também tem duas portas Ethernet 1Gb/sec soldadas à placa, além de um conector KVM (que é para o teclado, vídeo, mouse, não virtualização de servidores da Red Hat hypervisor). Há espaço para uma unidades de 2,5 polegadas 3,5 polegadas ou dois, o que pode ser tanto discos SAS ou SATA. A IBM também está deslizando em quatro de seus drives de estado sólido de 1,8 polegadas se você deseja obter chamativo.

O nx1200 chassis e nó do servidor M4 nx360 será lançado em 28 de outubro. O módulo de expansão de armazenamento Nex será lançado em 29 de novembro. O módulo de expansão PCI será lançado no próximo ano, e IBM está prometendo mais capacidade de armazenamento, mais, I / O opções, mais processadores, e microservers.

Chaudhry diz que a IBM está considerando adotar servidores ARM e alimentação para a linha NextScale, mas não fez promessas. Um nó Power8-Tesla híbrido poderia começar IBM um lugar melhor na mesa de negociação para promoções HPC onde a compatibilidade de energia é um grande problema ea máquina BlueGene / Q não é apropriado.

Um nó do servidor m4 nx360 carregado com dois Xeon E5-2680 processadores v2 ten-core rodando a 2,8 GHz e 25 MB de cache L3 Sporting tem 64GB de memória principal, dois discos de 2,5 polegadas (capacidade desconhecido), eo cartão mezz InfiniBand; custa 7.709 dólares.

Um nó de base tem dois E5-2620 processadores six-core v2, que tem 15MB de cache L3 e que funcionam em 2.1GHz, além de 32GB de memória e um disco de 3,5 polegadas com nenhum cartão mezz networking, que custa $ 4.409. Red Hat Linux 6, o SUSE Linux Enterprise Server 11 SP3 e Microsoft Windows Server 2012 são suportados no nó, por isso é de hypervisor VMware ESXi 5.1. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/09/10/ibm_nextscale_hyperscale_servers/

quinta-feira, 5 de setembro de 2013

Átomos Avoton da Intel dar músculo microservers - e recursos Xeon de classe

Ganhe um topo de gama HP Spectre laptop

Com o lançamento dos "Avoton" Atom C2000 chips para servidores, a Intel está colocando a sua segunda geração de 64 bits, processadores Atom de classe de servidor para o campo - e que é sem dúvida o primeiro tal Atom que é verdadeiramente projetado para cargas de trabalho de servidores modernos .

A C2000 tem bastante computação glamour, bastante capacidade de memória e memória integrada, periférica e controladores de rede tudo sobre o dado. É verdadeiramente um system-on-a-chip, semelhante aos Atom e ARM SoC que são comuns em telefones, tablets e outros equipamentos portáteis.

Embora a tecnologia embalado em fichas Avoton, e as variantes "Rangeley" que foram otimizadas especificamente para uso em dispositivos de rede, é tão crocante como de costume, talvez a coisa mais importante sobre os C2000s é algo que você não pode ver as especificações .

E aquela coisa, diz Ronak Singhal, engenheiro diretor sênior no Data Center da Intel e do Grupo de Sistemas Conectados, é a cooperação entre o Atom e equipes de desenvolvimento de processadores Xeon. Muitos engenheiros chave trabalhar em ambos os dias, e os chips serão gravados nos mesmos processos mais ou menos ao mesmo tempo indo para a frente, também.

"Estamos tomando as lições de um projeto e aplicá-lo para o outro", disse ele. "Temos vindo a trabalhar em Xeons por um longo tempo, e tudo o que aprendemos sobre potência e desempenho que podemos aplicar para o que estamos fazendo para o nosso Atom SoC para os servidores.

"As coisas que aprendemos em celulares e tablets em nossas SoCs Atom, aqueles podem migrar até Xeon. Estamos aprendendo a aproveitar as tecnologias muito bem, e nós estamos fazendo a polinização cruzada de pessoas também."

Não fique com a ideia errada. A Intel não gostaria de ter uma linha de produtos complicado. Nenhum fornecedor de TI faz. Mas porque os clientes do servidor, armazenamento e rede estão vindo para Chipzilla com necessidades cada vez mais divergentes e eles querem ter processadores, redes e outros aspectos do sistema sintonizado com precisão para cargas de trabalho - e dentro de um orçamento específico, também - Intel tem pouca escolha senão para ser mais flexível do que no passado.

Morre baleado do processador C2000 Avoton

"O que alguém quer do lado do HPC é muito diferente do que um provedor de serviços em nuvem quer do outro lado, e tende a ser muito diferente do que um dispositivo de armazenamento ou um cliente de comunicações quer", explica Singhal.

"Obviamente, nós queremos satisfazer as necessidades de cada um desses clientes, e vamos criar mais e mais direcionado soluções. O desafio para nós é como podemos criar peças que atendem as necessidades de todos os clientes e fazê-lo de tal uma maneira que não há coerência entre as características e fazê-lo de tal forma que é algo que nós podemos realmente construir. Nós não podemos criar soluções personalizadas para todos no mundo. Nós simplesmente não temos a escala para fazer isso ".

O que a Intel pode fazer, no entanto, é fazer um processador Atom respeitável com muitos recursos Xeon-ish e acrescentar que a mistura de Xeon E3, E5 e E7 chips para servidores, bem como para o paralelo coprocessador Xeon Phi e, assim, ter um portfolio mais amplo de CPUs do que tinha há uma década, quando tinha Xeon e Itanium chips que não eram compatíveis com o binário. (Sim, El Reg sabe sobre o ambiente de emulação x86, no início Itaniums).

O chip Avoton é implementado em Trigate processos de cozimento da Intel atuais 22 nanômetros de bolacha, assim como os iminentes "Ivy Bridge-EP" Xeon E5 fichas v2 será. O pacote de chips Avoton (não o dado) é de 34 milímetros por 28 milímetros de tamanho. Os anteriores "Centerton" chips Atom S1200 foram gravadas em processos de 32 nanômetros. Esse psiquiatra ajuda Intel empinar muito mais sobre o núcleo, e também permite a Intel para criar projetos mais eficientes em termos de energia.

Avoton visa microservers, que são definidos aproximadamente como caixas de soquete único com slot de memória modesto e expansão periférica, bem como um pequeno espaço físico para fazer subir densidade de rack e, em teoria, um baixo custo por unidade de desempenho de mais gordo e mais padrão de dois soquetes máquinas x86. Em outras palavras, foi dirigido aos mesmos clientes que tinham sido remoendo as anteriores "Centerton" S1200s Atom, bem como os iminentes de 64 bits ARM chips para servidores de Calxeda, Advanced Micro Devices, Micro Aplicada, Marvell, e alguns outros que podem saltar para o jogo (possivelmente até mesmo Samsung).

Rangeley é um puxão de Avoton que gira em torno da Tecnologia QuickAssist (QAT) acelerador no chip, que conecta em Plane Kit de Desenvolvimento de Dados da Intel para os fabricantes de equipamentos de rede para suco AES, DES/3DES, Kasumi, RC4, e Snow3G cifras, MD5, SHA1, SHA2 e autenticação AES-XCBC e Diffie-Hellman, RSA, DSA, e ECC criptografia de chave pública. Este coprocessador QAT pode processar cifras em 10Gb/sec. E pelo jeito, nem todos os chips Rangeley terá este acelerador QAT ativado, para ser mais preciso, apenas quatro dos oito SKUs vontade. A razão para isso é que o acelerador QAT é uma substância controlada e que o governo dos EUA tem controles de exportação sobre ele.

Os chips Rangeley também estará disponível para compra a partir Intel por muito mais tempo do que os Avotons, o que é uma exigência de rede e fabricantes de equipamentos de telecomunicações, e também têm reforçado especificações térmicas e confiabilidade que estes clientes precisam, antes de colocar um processador em suas artes. Equipamentos de rede lá fora, no campo em um ambiente muito mais dura do que o centro de dados típico, embora alguns centros de dados estão funcionando mais quente para economizar na conta de energia elétrica e não seria surpreendente ver os servidores robustos usando Rangeley em vez de Avoton para militares e outros clientes. Intel fornecida não cobrar muito de um prémio para Rangeley.

Diagrama de blocos do processador Atom C2000 (clique para ampliar)

Como a Intel já havia divulgado, o Avoton e Rangeley processadores Atom C2000 são baseados na arquitetura "Silvermont", que traz a execução out-of-order para o núcleo do átomo pela primeira vez e também acaba com a arquitetura de barramento frontal de idade que a Intel morto nos chips Xeon de volta com o "Nehalem" Xeon 5500S em 2009. A arquitetura Silvermont também se destaca em relação ao projeto Saltwell usado nos átomos Centerton anteriores em que o gasoduto instrução tem latências mais baixas e maior rendimento e esportes mais eficientes e preditores filiais precisas e um gasoduto recuperação mais rápida. Os caches L1 e L2 no chip Avoton também têm menores latências e maior largura de banda.

O núcleo Avoton leva a instrução de 64 bits definido a partir dos 2 processadores Core e tece no SSE4.1, SSE4.2, popcnt, PREFETCHW, AES-NI, e algumas outras instruções dos "Westmere-EP" chips Xeon 5600 . Avoton tem 32 KB de cache L1 de dados e 24KB de cache L1 de instruções. Os núcleos são cookie-cuttered para o dado em pares que têm um cache compartilhado 1MB L2. A C2000 tem suporte para VT-x2 virtualização, mas não suporta a implementação HyperThreading da Intel de multithreading simultâneo para apresentar cada núcleo como dois núcleos virtuais para o sistema operacional. Esse apoio VT-x2 permite tabelas estendidas página, IDs de processadores virtuais e convidados irrestrito e uma instrução chamada VMFUNC permite que o código executado em uma partição convidado para invocar hypervisor funções.

O chip tem dois controladores de memória DDR3, o que pode conduzir memória DDR3 normal rodando a 1,5 volts ou memória menor potência rodando a 1,3 volts; cartões de memória rodando a 1.6GHz são suportados.

Cada controlador possui dois slots DIMM, para um máximo de quatro slots com um total de 64GB de memória principal usando 8Gb chips de memória. O controlador de memória tem realmente 38-bit endereçamento físico e 48 bits de endereçamento virtual, caso você esteja se perguntando. (Só porque tem um chip de processamento de 64 bits não significa que ele tem uma memória completa endereçamento de 64 bits.) Os controladores de memória têm reforçado esfregar memória ECC e outras guloseimas para dar-lhe a confiabilidade da memória de classe de servidor. Estes incluem um DDR scrambler, injeção de erro com o endereço / fonte partida, e uma demanda baseada em hardware e motor de patrulha. O chip tem 25.6GB/sec de pico de largura de banda de memória da memória principal e para os caches L2.

O chip Avoton também tem quatro PCI-Express 2.0 - Não 3.0 - controladores com um total de dezesseis faixas de capacidade. Para os tipos de cargas de trabalho que a Intel está perseguindo, 80 pistas rodando a 3,0 velocidades PCI-Express, como dois soquetes Xeon E5 oferece, hoje, é um pouco demais. Parte da razão pela qual os controladores on-chip PCI-Express não tem que trabalhar tão duro é que o chip Avoton tem duas portas SATA 3.0 e quatro portas SATA 2.0 para ligar para armazenamento físico e um controlador Ethernet integrada, que podem ser configuradas como quatro pistas de corrida em cada 1Gb/sec ou 2.5Gb/sec. (El Reg não estava ciente disso, mas interruptor ASICs da Broadcom, Intel, Marvell, Hewlett-Packard, Cisco Systems e apoiar este modo 2.5Gb/sec, de acordo com Brad Burres, um dos designers do chip Avoton). Este controlador Ethernet on-die é baseado em chip da Intel "Powerville" i350 discreto Ethernet controlador, que foi goosed com o apoio 2.5Gb/sec como foi gravado na Avoton die.

O Avoton também tem um controlador para conduzir quatro portas USB 3.0 e um outro controlador para vários dispositivos de I / O legado.

A plataforma Edisonville baseado no Avoton Atom

De certa forma, uma Avoton SoC é como um servidor de Nehalem-EP bebê implementado em um único die. Ele tem oito núcleos e 64 GB de memória e, provavelmente, tem mais ou menos o mesmo desempenho de um sistema Nehalem mid-line tinha cerca de cinco anos atrás. (Nós vamos descobrir mais quando Intel libera alguns benchmarks.)

Curiosamente, o chip inclui uma interconexão de estilo Nehalem trave chamado de Agente do Sistema Silvermont, ou SSA, que fornece uma interface ponto-a-ponto para os módulos de CPU de dois núcleos e seus caches L2 compartilhado. Este agente sistema mantém a coerência de cache através dos núcleos e também links para o tecido do sistema On-chip Intel. O IOSF foi criado para todos os SoCs da Intel para o cliente e dispositivos de servidor. Ele tem uma tela de alta velocidade para esses controladores PCI-Express 2.0 e, em seguida, um tecido derivado de velocidade média que os outros controladores na ranhura em fieira.

Isso permite que os slots PCI-Express executar desobstruída por outros periféricos. O IOSF suporta cabeçalhos PCI-Express e regras de ordenação para os sistemas operacionais existentes e outros softwares de armazenamento pode fazer uso desse ônibus, sem modificações. Este ônibus IOSF funciona a 400 MHz, e você pode engrenar-lo para economizar energia, se você não precisa dele para correr tão rápido. "Haswell" Core Intel Xeon e os projetos têm IOSF ônibus, e assim fazer suas recentes gerações de chipsets de servidor Xeon.

Os Avoton chips Atom C2000, os preços não incluído

Há cinco processadores Avoton destinadas a servidores e oito processadores Rangeley destinadas a equipamentos de rede que são todos baseados no mesmo núcleo. Eles têm dois, quatro ou oito núcleos ativados e, dependendo do modelo executado em 1.7GHz, 2.0GHz ou 2,4 GHz com Turbo Boost da adição de 200MHz ou 300MHz. (Um chip de Rangeley, a uma execução em 2.0GHz, não tem Turbo Boost.) O controlador de quatro portas SATA 2.0 não está habilitado em todos os modelos da Avoton, eo chip C2350 low-end tem apenas dois núcleos, apenas um canal de memória, e sem portas SATA 2.0, e é assim que a Intel é capaz de obter o seu ponto de design térmico até 6 watts.

Eis como o Avoton and chips Rangeley mapear contra o Atom S1200 e os E3 processadores Xeon v3:

Os chips Avoton e Rangeley contra Atom S1200 e Xeon E3 alternativas (clique para ampliar)

Vai ser muito interessante ver como microservers com base nas fichas Avoton comparar com aqueles baseados nos processadores Xeon E3 em termos de desempenho e retorno para os investimentos. Em tempo, a Intel ainda não tinha finalizado preços para o Avoton and chips Rangeley, por isso não podemos fazer qualquer comparação ainda.

O que podemos dizer é que, quando você soma tudo isso, um segmento Avoton pode fazer o dobro do trabalho como um fio Centerton ou pode fazer o mesmo trabalho por cerca de um quinto do consumo de energia. Quando você dimensiona os núcleos acima de dois com Centerton a oito com Avoton, você pode empurrar muito mais trabalho pela Avoton. Dependendo da carga de trabalho, a Avoton top-bin pode fazer algo entre cinco e dez vezes o trabalho de um Centerton. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/09/04/intel_avoton_rangeley_atom_c2000/

quarta-feira, 4 de setembro de 2013

Fujitsu para empurrar os limites de 28 nanômetros com Sparc64 X +

Ganhe um topo de gama HP Spectre laptop

Hot chips Fujitsu quer espremer mais desempenho do seu processador Sparc64 caseiros X para cargas comerciais e supercomputação, e não pode esperar até que Taiwan Semiconductor Manufacturing Corp, seu parceiro de fundição, recebe 20 processos nanômetros para o campo e rampa.

Assim, os engenheiros da Fujitsu ter ido para trás sobre o projeto para os SPARC64 X existentes e acrescentou alguns ajustes para ganso o desempenho e, ao mesmo tempo empurrando para cima o relógio acelera um pouco para criar o X + processador Sparc64.

O Sparc64 X foi o resultado da convergência de duas linhas de chips criados pela Fujitsu: O Sparc64-VII + para servidores comerciais Solaris vendidos pela Sun Microsystems e depois da Oracle, bem como pela Fujitsu ea Sparc64-VIIIfx criados especificamente para a 10,5 petaflops K supercomputador construído pela empresa para o governo japonês.

O Sparc64 X + não representa uma grande mudança em relação ao antecessor, mas tem algumas características que, sem dúvida torná-lo atraente para as grandes empresas - principalmente no Japão e na Europa - que ainda compram máquinas da série Sparc M executando o Solaris para fazer sua grande volta- trabalhos finais.

Toshio Yoshida, diretor de desenvolvimento de processador para a unidade de negócios Enterprise Server da Fujitsu, atravessou as mudanças que a empresa fez para gravar o Sparc64 X + processador durante a conferência Hot Chips, organizada pelo IEEE na Universidade de Stanford, esta semana.

Este não é apenas um caso de publicar ou perecer, mas dando aos clientes grandes de ferro qualquer desempenho, os engenheiros podem sair do projeto até que um novo chip pode ser exercida. Isto é, usando o jargão da Intel, nem uma marca, nem um tock, mas um estreitamento e uma dobra.

O processador Sparc64 X +

Com dezesseis núcleos em um dado com o Sparc64 X e X + batatas fritas, é difícil imaginar que a Fujitsu irá adicionar núcleos com o futuro Sparc64 chips XI (se isso é realmente o que ele vai ser chamado), mas é razoável supor que a Fujitsu irá adicionar mais memória cache, adicionar mais tópicos para cada núcleo, e aumentar a velocidade de clock com qualquer processo de reduzi-lo pode começar a partir TSMC para continuar pressionando o desempenho de seus sistemas de M Sparc up.

O X + chip de Sparc64 tem dezesseis núcleos, cada um com multithreading simultâneo para produzir duas linhas virtuais para instruções por núcleo. O chip tem 24 MB de cache L2 on-chip, implantado em dois segmentos, e tem dois controladores de memória DDR3, bem como duas SERDES controladores e PCI-Express 3.0 e circuitos de interconexão do sistema no die.

O chip é de 24 por 25 milímetros (600 metros quadrados) de área e abarrota 2,99 bilhões de transistores nesse espaço. Tem pinos de sinal 1500. E é tomada compatível com os chips existentes SPARC64 X, que é uma vantagem para os clientes da Fujitsu.

O Sparc64 X + núcleo

O chip atualizado Sparc64 terá uma frequência de 3,5 GHz e alvo maior. O Sparc64 X chips visualizaram essa época do ano passado no Hot chips correu em 3GHz, a mesma velocidade de clock como Sparc T5 da Oracle e processadores M5 (também fabbed pela TSMC em processadores de 28 nanômetros, por sinal). Isso é 16,7 por cento maior velocidade de clock, e os clientes Fujitsu vai levá-lo se eles têm empregos bestiais que gostam de alguns fios e relógios tão alto quanto eles podem obtê-los.

Yoshida disse que naquele 3.5GHz, o Sparc64 X + vai entregar 448 gigaflops de pico de precisão dupla glamour de ponto flutuante, um aumento de 17,2 por cento dos 382 gigaflops que o Sparc64 X podia fazer rodando a 3GHz.

Diagrama de blocos do Sparc64 X + processador

O X + chip de Sparc64 oferece 102GB/sec de throughput agregado através dos controladores de memória. Yoshida não queria divulgar a largura de banda entre o cache L2 no chip e os principais controladores de memória. Cada X + tomada Sparc64 pode ser configurado com até 1 TB de memória principal, que produz um top-64 final tomada Sparc máquina da série M com 64TB de memória.

Futuros M máquinas Sparc da Oracle usando seu processador Sparc caseiros M6 terá 96 soquetes e 96TB de memória, mas só tem doze núcleos no die a dezesseis da Fujitsu com o X + chip de Sparc64. A Oracle tem quatro vezes mais threads por núcleo, também.

Com a mais recente versão do seu núcleo Sparc64, a Fujitsu está fazendo uma série de outras coisas para o desempenho de ganso.

Há uma nova instrução para acelerar a biblioteca sinal de criptografia RSA, o que aumenta o seu desempenho em 37 por cento, e na unidade de matemática decimal, a função ADD na biblioteca NÚMERO tem algum circuito ajustes para acelerá-lo por 64 por cento eo MULTIPLICAR função tem transistores que acelerá-lo por 32 por cento. (Estes valores incluem o efeito do aumento de velocidade do relógio ea mudança no "software on chip" funções, como Fujitsu chama seus aceleradores).

Vetor de bits e bytes inteiro comparar funções nas funções de aceleração de banco de dados no chip Sparc64, que estreou com a Sparc64 X, são reforçados também. Os resultados de desempenho para estas melhorias não foram entregues.

A interconexão SMP sem cola para os servidores Sparc série M

O Sparc64-X + Chip usa a mesma interconexão sem cola para criar uma placa de sistema de quatro vias. A placa do sistema tem dois switches crossbar (XB no diagrama acima), que tem em torno de 168GB/sec de largura de banda dentro e fora do que placa de sistema.

Com a geração anterior de máquinas Sparc M, essas pistas nos XBS correu em 14.5Gb/sec, mas com a Sparc64 X +, que agora correm em 25Gb/sec. Várias placas de sistema de quatro vias podem ser ligados uns aos outros com XBS adicionais, com um total de dezasseis usado para fazer a configuração 64 de encaixe.

Fujitsu não disse quanto melhor o novo tecido de interconexão escaladas em comparação com o anterior, mas provavelmente é consideravelmente melhor dado tudo o que a largura de banda extra nos interruptores trave.

"Com tecnologia de ponta e um compromisso com a excelência, a Fujitsu vai continuar a desenvolver SPARC64 servidores", Yoshida disse em encerrando sua apresentação sobre o futuro chip.

Yoshida não era a liberdade de dizer quando o Sparc64 X + pode aparecer na versão dos servidores da série Sparc M da Fujitsu e competir pelo menos em alguns aspectos contra Sparc máquinas M da Oracle, que atualmente usam próprios chips M5 do Big Larry e em breve será atualizado para M6 fichas, também divulgado no Hot chips esta semana. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/08/29/fujitsu_sparc64_x_plus_processor/