Dicas HPC: novembro 2013

quinta-feira, 28 de novembro de 2013

Conheça as equipes de fragmentação: Equipe Quokka e Team Germany

5 maneiras de reduzir a latência da rede de publicidade

HPC blogue Tivemos mais algumas equipes da primeira vez que competem no Concurso Cluster Estudante na SC13 em Denver na semana passada. Estas duas equipes viajaram para o exterior na tentativa de agarrar a glória de cluster e transportá-lo de volta para casa. ('Glória cluster' vai caber confortavelmente no compartimento de bagagem na maioria dos aviões.)

Equipe Quokka: Este é o apelido para a primeira entrada da Austrália para o mundo da competição agrupamento internacional. A quokka é essencialmente um rato canguru que é aproximadamente do tamanho de um gato doméstico.

Assista ao vídeo

A equipe foi criada por da Austrália Ocidental Ivec, um consórcio de universidades WA e outras organizações dedicada a aumentar habilidades e recursos de HPC na região.

A equipe tem um exemplo de pelúcia do seu mascote, chamado Happy Cheeks, que tem sido um destaque especial no seu fluxo constante de mensagens do Facebook e Twitter.

Neste vídeo, eles nos dobrar com Tim-Tams e demonstrar a sua implementação de Pong ao dizer-nos sobre o seu hardware e sistema de gestão de arquivo exclusivo. Aprendemos também que o time é patrocinado por um conjunto diversificado de organizações que vão desde a SGI, Mellanox e NVIDIA para gigante da mineração Rio Tinto.

Bochechas Boas olha um pouco impassível, mas os alunos parecem bastante entusiasmado.

Team Germany vem da Universidade Friedrich-Alexander de Erlangen-Nuremberg.

Como pode ser visto no vídeo, eu não tenho nenhuma chance de pronunciar o nome de sua universidade corretamente e precisa contar com um dos membros da equipe para dar-lhe o tratamento "Full alemão".

Assista ao vídeo

Discutimos também as suas seleções de hardware - é uma configuração de GPU-pesado, e como o seu baixo consumo de energia ociosa torna a equipe 'greenist' na pista Big Iron da competição.

Você vai notar que a tabela na frente da equipe está alinhada com imagens bonitos do gato da web. Sim, isso me deu uma pausa também. Ele só não é tarifa adequada em um comference supercomputador, certo? Mas a equipe tem uma explicação, ver se ele funciona para você. ®

via Alimentação (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/28/kangaroo_rat_with_a_side_of_kraut/

Conheça as equipes de fragmentação: chineses Fortune Rookies, Equipa Venus 2.0

5 maneiras de reduzir a latência da rede de publicidade

HPC blogue Aqui está um outro olhar de perto e pessoal em duas das Standard Track (Big Iron) equipes que disputaram a competição Cluster SC13 Student in Denver coroa (ainda não há qualquer coroa real, no entanto.)

Ambas as equipes competiram antes, mas eles estão quase completamente composta por novos funcionários.

Universidade Nacional de Tecnologia de Defesa (NUDT): Mais uma vez, conhecer e cumprimentar da China própria equipe NUDT. Esta é a terceira competição conjunto da escola, mas este é um grupo totalmente novo de estudantes.

Como de costume, a equipe é patrocinada e apoiada pela Inspur, uma das maiores integradores de sistemas da China e fabricante. Incidentially, Inspur confirmou que eles vão mais uma vez ajudar a organizar uma primavera Estudante asiático competição Cluster, fique atento para mais detalhes.

Clique na imagem para ver o vid

No vídeo, os novatos da equipe NUDT falar em detalhes sobre GraphLab, falar sobre seu cluster, e oferecer uma observação divertida: Eu sou "engraçado." Vamos ver o que eles pensam sobre isso depois de alguns (engraçado como?) dias de filmagens.

A Universidade de The Pacific: Este não é qualquer equipe Vênus, é Equipe Venus 2.0. Esta é a segunda vez que a escola é o envio de uma equipe só de mulheres para o fest aglomerado SC.

Venus 2.0 é um pouco diferente do que a primeira versão. A equipe no ano passado teve um "nós somos apenas feliz por estar aqui" sentir-se sobre eles. O clima este ano é diferente, eles estão olhando para fazer um nome para si e talvez subir nas paradas para tornar-se uma equipe para ser considerada.

Se você quiser ver o vídeo, clique na imagem

No vídeo, nós aprendemos que a Universidade do Pacífico é a mais antiga universidade pública, na Califórnia. Além disso, eles ganharam o título (pelo menos de mim) "do MIT de Stockton" desde Equipe Venus 1.0 introduziu Linux para o campus em 2012. Este grupo, que possui apenas um SC12 veterano, também expressa a confiança sobre as aplicações que enfrentaram na competição. ®

via Alimentação (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/28/first_look_chinese_fortune_rookies_team_venus_20/

quarta-feira, 27 de novembro de 2013

Conheça as equipes de Cluster: Colorado e Texas

5 maneiras de reduzir a latência da rede de publicidade

HPC blogue vezes emocionantes no Concurso Cluster SC13 Student em Denver este ano. Hora de tomar um olhar de perto e pessoal em duas das equipes mais experientes na competição, Colorado e Texas.

Essas equipes têm distintas personas. Equipes de Colorado são normalmente reservados e profissional, enquanto as equipes Texas tendem a ser um pouco mais exhuberent. Essas equipes têm uma coisa importante em comum - um suporte patrocinador de longo prazo da Dell.

Universidade do Colorado, Boulder: Nós nos conhecemos com o Team Buffalo em um momento feliz. Por quê? Porque eles estavam se preparando para lançar e rastrear um foguete para Marte. Sem brincadeira, um foguete maldito para Marte.

A sonda Mars PERITO foi parcialmente projetado no Colorado, e um dos membros da equipe Equipe Buffalo necessária para acompanhar e analisar o lançamento de telemetria durante o nosso período de entrevista. Por isso, andava e assistiu o lançamento com eles. Eu já disse isso antes e vou dizer outra vez: as coisas essas crianças fazem é simplesmente fantástico.

Clique na imagem para ver o vídeo

No lado do conjunto de coisas, a equipe relata que eles estão tendo um pouco de dificuldade para obter o seu sistema até rapé, mas que o lançamento do foguete foi muito bem.

Universidade do Texas, Austin: Team Longhorn é "Ridin 'a linha" quando alcançá-los neste vídeo. Os veteranos da concorrência nos dizer sobre o seu sistema, mantendo um olho em "linha" - a marca de 26 amp, que não pode exceder - durante a sua HPC e HPL é executado. Eles também compartilham algumas observações sábias sobre o espírito ea finalidade da competição. Além disso, eles estão "reppin '."

Clique pic, ver vid

No final do vídeo, podemos ouvir um pouco de smack falar sobre a celebridade Pro-Am Cluster Desafio, onde uma equipe de profissionais de HPC serão enfrentando as equipes de estudantes. Como um jogador de Texas colocá-lo "Eu não estou rindo porque eu estou com medo, isso é certo ..."

via Alimentação (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/28/student_cluster_teams_colorado_texas/

Configs concorrente Mini-fragmentação reveladas

5 maneiras de reduzir a latência da rede de publicidade

SC'13 Os alunos do Commodity trilha do Concurso Cluster SC13 Student in Denver enfrentou um grande desafio na semana passada. Eles tiveram que construir pelo menos um cluster HPC dual-node, mas só podia gastar um total de $ 2500 nele.

Há muitas maneiras de ir. Você pode obter os menores mais baratos motherboards / possíveis e cordas um monte deles juntos - como aproveitamento de um grupo de roedores para puxar o vagão. Ou você pode optar por dois nós do tipo PC muito mais poderosos, o que seria mais parecido com dois cães de tamanho médio para arrastar a carga.

Vamos ver como as três equipas universitárias (mais um grupo de estudantes do ensino médio) resolveu o problema.

mesa com configs

Não surpreendentemente, eles levaram algumas abordagens muito criativos - alguns dos quais irão aparecer muito melhor nos próximos blogs de vídeo que olhar para as criações de cada equipe.

No entanto, há um pouco de variedade apenas olhando para as estatísticas sobre a tabela acima. Slippery Rock foi com dois nós conduzidos por um par de 8-core AMD CPUs e aumentada com quatro NVIDIA GTX 660ti GPUs para dar-lhe um soco poderoso no processamento de números. Equipe Rock também dispensou o switch Ethernet gigabit convencional em favor de uma conexão Ethernet direta entre os dois nós.

Estado do Arizona optou por menos nós, mas mais núcleos, e evitou os aceleradores em favor de mais poder de CPU. Como você verá na próxima vídeo, eles usaram um pequeno conjunto Ikea de gavetas para abrigar seu grupo - o que era uma abordagem muito legal e recebeu muita atenção no show.

Skyline não colocou um monte de dinheiro para a estética. Eles encontraram alguns casos de PC antigos e substituiu as entranhas com tanta bondade computação como eles poderiam caber em seu orçamento de US $ 2.500. Como Slippery Rock, também foi com a NVIDIA GTX 660 Ti (deve ter sido uma venda sobre eles), mas não configurar muito mais memória que os outros times. Também é interessante ver que essas crianças se reuniram um grande apoio de sua comunidade para ajudar a custear os custos de fora do sistema. Bom trabalho sobre isso.

A equipe em campo pela Universidade de Bentley e Nordeste U conseguiu tomou um caminho diferente do que os outros. Os titulares são a única solução CPU-GPU integrado híbrido usando A10 processadores da AMD. Isto deu-lhes uma contagem de núcleos maiores do que outros concorrentes, com sala de orçamento suficiente para marcar 72 GB de RAM - significativamente mais do que qualquer outra pessoa.

Nossos próximos artigos serão blogs de vídeo que mostram os sistemas e conversar com as equipes sobre o que eles estão correndo e como eles conseguiram ficar abaixo do limite de dólar. Fique atento ...

via Alimentação (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/28/minicluster_competitor_configs_revealed/

terça-feira, 26 de novembro de 2013

GRANDES guerreiros de cluster IRON colocar pedal de metal quente

Auto-avaliação do nível de proteção de recuperação de desastres

HPC blogue Vimos uma variedade interessante de artes das equipes que competem na faixa SC13 padrão (Big Iron) do Concurso Cluster Student.

Como você pode ver na tabela abaixo calhar, as equipes tiveram muito em comum na superfície. Todos correram alguma variedade de Intel Xeon como o seu CPU base, a maioria estava usando interconexões Mellanox Infiniband, e cada equipe teve algum tipo de acelerador ou co-processador.

Mas há muitas diferenças também. O Ivec australiano e as equipes NUDT chineses, por exemplo, teve um "mais nós é mais melhor" abordagem, ostentando oito nós cada. Os australianos também passou por uma estratégia de nó interessante, com todos os 8 de seus aceleradores localizados em apenas dois nós.

Você também vai notar que quase todas as equipes entraram para aceleradores em grande forma, festooning seus cachos com tanto 8 NVIDIA Keplers ou 8 Intel Phi co-processadores. Equipe Longhorn (Texas) tomou o que eles chamam de uma abordagem mais equilibrada, com apenas quatro aceleradores de GPU.

Usando isso muitas aceleradores pode ser um pouco arriscado. Enquanto eles podem adicionar muito mais poder de processamento, eles só podem fazê-lo em aplicativos que são otimizados para usá-los de forma eficiente.

O problema para os concorrentes é que as regras do SCC não permitir que as equipes de desligar ou remover qualquer componente fisicamente após o início da luta. Então se você tem um aplicativo (ou apps) que não usam de forma eficiente os seus aceleradores, você não pode fazer muito além de marcha lenta-los para reduzir o consumo em seu poder. E, mesmo em marcha lenta, com um monte dessas coisas podem realmente ter um pedaço de sua 26 amp/115 subsídio volts.

Nas próximas histórias e blogs de vídeo, vamos dar uma olhada em cada equipe, seus equipamentos, e sua justificativa para tomar as decisões que eles fizeram. Também vamos dar-lhe uma idéia de como a competição começou dia a dia e, é claro, cobrir o primeiro Pro-Am celebridade Cluster Challenge. (O que sugou uma quantidade enorme do meu tempo, desde que eu era o organizador e árbitro final do Pro-Am. Foi divertido, mas repleta de desafios. Fique ligado para mais.) ®

via Alimentação (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/26/big_iron_cluster_warrior_battle_jitneys_unveiled/

sexta-feira, 22 de novembro de 2013

Cortes de caixa dos Feds esmagar informática fundamental, atire país em pé

Entrega Email: Ódio e-mails de phishing? Você vai adorar DMARC

Análise SC13 Os EUA está atirando no próprio pé retorno sobre o investimento, apertando os parafusos no apoio à investigação sobre sistemas de computação avançados.

Essa foi a mensagem expressa alto e bom som por um trio de pesos-pesados HPC durante uma "retrospectiva em Supercomputação Technologies" sessão celebrando o 25 º aniversário da SC13 conferência de supercomputação em Denver, Colorado, na quinta-feira à noite.

David Keyes , um professor de matemática aplicada e ciência da computação na Universidade Rei Abdullah da Arábia Saudita de Ciência e Tecnologia ( KAUST ) e ex-diretor de pesquisa de computação avançada do Lawrence Livermore Lab, lembrou do ano passado 20 celebração da Research EUA Networking Tecnologia da Informação aniversário e Desenvolvimento ( NITRD grupo), formada em 1992 para reunir a maioria das agências federais que patrocinam pesquisas de computação.

De acordo com Keyes, o efeito cascata gerado pela pesquisa do sistema de informações apoiado pelo um décimo de um por cento do orçamento federal investiu na NSF , DOE , NIH , NASA , NIST , NOAA ", e suas dezenas de irmãs" tem sido responsável por cerca de dois terços do crescimento do produto interno bruto dos EUA ( PIB ) durante os 20 anos de existência do NITRD.

Não só isso, Keyes disse, mas o investimento federal nessas agências inovações e invenções com que empresas norte-americanas "mudou nossas vidas", e que as empresas utilizadas para expandir as importações "de aviões comerciais a filmes de Hollywood" apoiado - tanto dependente de computadores.

Se a economia industrial poderia ter mantido com os avanços técnicos apoiados pelo grupo NITRD nos últimos 20 anos, o que Keyes reivindicadas desde um aumento de mil vezes na capacidade computacional agregado por dólar por década durante a sua existência, "Nós poderíamos voar a partir de JFK para Narita - uma viagem de 15 horas - em um vigésimo de segundo ", disse ele. "Se tivéssemos o mesmo preço-desempenho [melhoria] ao longo desses 20 anos, o custo de maior edução em os EUA seria vinte centavos por ano -. Propinas, quarto, e placa"

Do ponto de vista de Keyes, os avanços na computação nas últimas duas décadas têm sido "um motor econômico surpreendentemente produtivo, e tudo isso pode ser atribuída a um investimento federal muito estratégico." Mas esses investimentos agora estão enrolando.

Fran Berman , professor de ciência da computação na Rensselaer Polytechnic Institute , em Troy, Nova York, e ex-diretor do Centro de Supercomputação de San Diego , disse que a atitude do governo federal dos EUA para o investimento em computação investigação mudou ao longo do tempo - e não para melhor.

"É muito mais difícil de fazer projetos de 'céu azul'", disse ela, "o tipo de alto risco, material de alta recompensa que realmente combustíveis algumas das inovações mais interessantes."

E o clima em Washington DC que está causando agências para reforçar suas cordas da bolsa não é apenas difícil para os pesquisadores cujos subsídios estão sendo afetados, também é difícil para os próprios pais de financiamento. "Eu acho que é difícil para os nossos colegas que trabalham nas agências", disse ela, sabendo da pressão fiscal e política que estão sob.

Capitol ILLING ... Os dólares parou aqui, em Washington DC

Possivelmente ainda mais insidiosa do que meros cortes no orçamento é o fato de que a pesquisa pura é cada vez mais sendo desvalorizado como não ter um retorno imediato e quantificável sobre o investimento.

"Eu acho que parece menos compreensão de que a pesquisa é imprevisível, que você pode ter uma idéia muito boa e pode não pan out do jeito que você pensou que seria", disse Berman. "Isso não significa que a sua investigação não conseguiu, isso significa que você tentou algo, você aprendeu algo, e ajustá-lo eo resto da comunidade se para idéias diferentes."

Mas não se culpe apenas os politicos desagradáveis. Como Pogo de Walt Kelly disse : "Nós encontramos o inimigo, e ele somos nós."

"Parece que o público em geral espera que se você gastar dinheiro em um projeto de pesquisa, que você está indo para obter uma resposta, e que a resposta vai ser a resposta certa", disse Berman. "E assim, de alguma forma, se você não obter a resposta, que a investigação eo investimento não era um bom investimento. E isso, eu acho, é um desafio para todos nós."

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/22/us_feds_clamp_down_on_computing_research_cash_shoot_country_in_foot/

quinta-feira, 21 de novembro de 2013

Intel puxa seus SoCs, revela memória "integrada" em CPUs

Entrega Email: quatro passos para obter mais e-mail para a caixa de entrada

Intel disse que estava trabalhando no empilhamento de uma camada de memória em seus processadores Xeon para executar cargas de trabalho de memória ligados mais rápido.

Ele disse isso em um campo na Conferência de Supercomputação baseada em Denver (SC13), que está sendo executado de novembro 17-22

De acordo com uma reportagem do Times EE , Rajeeb Hazra da Intel, um vice-presidente e gerente geral de seu grupo de centro de dados, disse que a Intel iria personalizar Xeon high-end e Xeon Phi co-processadores por meio da integração de perto de memória, tanto pela adição de memória morre com um processador pacote e, posteriormente, a integração de camadas de memória morre no processador, juntamente com tecidos e comutadores ópticos.

Hazra mencionou a idéia de pilha de memória geral em uma apresentação de 22 de julho (PDF) e aqui está um slide dele:

Ele também disse à imprensa participantes da mesa-redonda na conferência que os cavaleiros Landing próxima geração Phi c0-processador Xeon, com dezenas de núcleos, teria de memória integrado. O conceito de empilhamento de memória morre em pacotes de processadores Xeon veio à tona também.

Ter memória morre com o processador em um pacote 3D é classificado pela Intel como memória Perto e contrasta com DDR DRAM - Memória Distante. Perto de memória fornece acesso a dados mais rápido.

Hamza disse: "Nós estamos olhando para várias novas classes de integrações, de integrar partes da interconexão, bem como armazenamento e memória de próxima geração muito mais intimamente sobre o processador die".

O espaço de endereços de memória nos moldes pode ser tratada como cache ou como um espaço de memória plana ou como uma combinação dos dois. Aplicações necessitaria de ser alterada para utilizar como um espaço de memória plana adjacente à CPU e separada da memória normal DRAM.

A quantidade de memória no pacote seria limitado por limites de imóveis, o espaço físico dentro do pacote, e não devemos esperar que tais Memória Perto de substituir ou substituir a memória distante.

A memória em pacote de empilhamento seria presumivelmente em grande escala específica, clientes - Google, Facebook ou Amazon semelhante - e, portanto, contrária aos padrões X86 gerais. Haveria também precisam ser dados em movimento ou hierarquização software para transferir dados de memória distante na memória Perto e vice-versa. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/21/intel_converging_memory_and_cpus/

Benchmarks supercomputador verdes fazem boffins ver vermelhos, plantas de verificação

Entrega Email: quatro passos para obter mais e-mail para a caixa de entrada

SC13 A Green500 lista semestral dos supercomputadores mais eficientes em termos de energia inovou em dois aspectos importantes: pela primeira vez um sistema de HPC quebrou as quatro gigaflops por watt barreira, e também pela primeira vez, todos os 10 principais sistemas beneficiado GPU aceleração. Depois, há um terceiro bit de nota: os benchmarks são lixo.

Green500 energy-efficient supercomputer list - top 10, November 2013

Dez vitórias para Intel Xeon, dez vitórias para Nvidia Tesla (clique para ampliar)

A lista , medido em operações de ponto flutuante por watt durante a execução do Linpack de referência, foi anunciado quarta-feira no SC13 Supercomputing Conference, em Denver, Colorado. O acabamento superior, a 2720-core TSUBAME-KFC do Centro GSIC, Instituto de Tecnologia de Tóquio pode ter no topo da lista de energia Green500 avarento, mas é classificado no número 311 da "performance é tudo o que se preocupam com" Top500 lista anunciou segunda-feira .

TSUMABE-KFC é um protótipo construído propositadamente criado especificamente para GSIC estudar arrefecimento avançado e supercomputação baixo consumo de energia, e seus designers fizeram bem o seu trabalho, com o sistema marcando um fresco 4,503.17 megaflops por watt (Mflops / W).

Para colocar isso em perspectiva a realização, o número um do ranking na anterior lista Green500, publicado em junho de 2013, foi realizada pelo sistema de Eurora da Itália Cineca , que produziu 3,208.83 Mflops / W para ganhar a coroa. Não é muito pobre, não muito pobre em tudo - mas TSUMABE-KFC superou Eurora por uma completa 40 por cento.

Para os fãs de verdadeiramente grande de ferro, talvez mais o sistema mais interessante na lista é Piz Daint do Centro Suíço de Supercomputação Nacional ( CSCS ), que classificou o número quatro com a megafloppage por watt de 3,185.91 (mais sobre isso mais tarde pontuação). Piz Daint é o super petaflop, capaz de mais alto escalão na lista Green500, e também marcou um impressionante sexto lugar na lista Top500.

A título de comparação, os dois sistemas antes de Piz Daint no Green500 foram classificadas em três dígitos no Top500: Cambridge University da Wilkes era o número dois do Verde 500, mas 166 no Top500, e da Universidade de Tsukuba, no Centro do Japão para Computacional Ciências HA-PACS TCA foi o número três do Green500 e número 134 no Top500.

Desempenho do Piz Daint no Top500 foi notável em uma outra maneira. Na lista junho 2013 ficou em 42, na lista de novembro, disparou para o número seis. O motivo? A adição de GPU NVIDIA Tesla K20X aceleradores para seu sistema de 28-rack Cray XSC30.

O que nos leva à segunda coisa notável sobre a nova lista Green500: dos 10 melhores artistas, todos os dez foram impulsionadas pela NVIDIA Tesla GPU aceleradores: sete foram equipados com placas Tesla K20X, dois com K20s, e um com um K20M - o que é essencialmente um K20.

Em junho, em comparação, apenas três dos 10 maiores sistemas tinham aceleradores de GPU: dois com Nvidia Tesla K20s, e outra com AMD FirePro S10000s. Outra teve Intel Xeon Phi cartões coprocessador; nenhum sistema Phi equipado Xeon fez o top 10 da lista Green500 mais recente.

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/21/gpu_accelerators_overrun_green500_list_of_energyefficient_hpc_systems/

quarta-feira, 20 de novembro de 2013

Nvidia a Intel: "Qual HPC acelerador triunfará? Deixe o cliente decidir '

Disaster nível de proteção de recuperação de auto-avaliação

SC13 Nvidia é de opinião que, na disputa com a Intel quanto a saber se aceleradores de GPU Tesla da Nvidia ou co-processadores Xeon Phi muitos núcleos da Chipzilla vai dominar o mercado da supercomputação, a comunidade HPC já votou com seus talões de cheques.

"Esta comunidade continua a investir na computação GPU - computação acelerada baseada em GPU -., E que, na verdade, é a prova do pudim" Sumit Gupta , gerente geral do HPC focada Tesla biz da Nvidia, disse ao The Register, quando nos sentamos com ele quarta-feira, no SC13 Supercomputing Conference, em Denver, Colorado.

Na terça-feira, a Intel técnico de computação hardware chefe Rajeeb Hazra disse a repórteres 'mesa redonda que a computação em GPU acelerada era essencialmente apenas uma fase no desenvolvimento da computação de alto desempenho acelerado. De acordo com Hazra, a sua próxima geração Xeon Phi, " Knights Landing ", vai inaugurar uma era de menor latência e maior eficiência, pois não será necessário descarregar os dados para os aceleradores de GPU, mas em vez disso executar cargas de trabalho HPC diretamente sobre isso, muitos -core CPU.

"Não importa o que eu ou Raj diz:" Gupta disse-nos. "Isso só importa o que a comunidade HPC faz, e eles continuam a investir em computação acelerada por GPU. Eles não investem em Xeon Phi".

E há uma abundância de razões de desempenho porque os HPCers estão cada vez mais adotando a computação acelerada por GPU, Gupta acredita. Por um lado, ele tem problemas com a ideia de executar o sistema operacional e calcular as tarefas no mesmo silício, assim como Knights Landing.

"Se você olhar para qualquer supercomputador hoje", disse ele, "qualquer sistema grande, eles têm o que eles chamam nós de host e os nós de computação. Eles realmente separar o sistema operacional a partir da computação. Eles não querem estar juntos, porque se você não fizer as tarefas de gerenciamento sobre o mesmo dispositivo, você vai ver o que é conhecido como 'instabilidade' -. dispositivo de computação terá que, de vez em quando, de serviços de outros pedidos Tudo o resto espera.

Gupta ws rápido em acrescentar que tal sobrecarga de gerenciamento não seria nessarily um show-rolha. "Eu não estou dizendo que isso é uma coisa ruim para todos", disse ele. "Alguns aplicativos podem obter o desempenho fora dele, mas acho que a grande maioria não vai."

Ele também disse que - a partir de hoje, pelo menos - Tesla tem uma vantagem de desempenho significativa sobre Xeon Phi. "Só a partir de uma base de desempenho-performance, hoje os atuais" Canto dos cavaleiros de "produtos [Xeon Phi] são quase metade do desempenho de um Tesla em termos de aplicações reais", disse ele, referindo-se ao K20X Tesla, que era apenas substituído pelo mais potente Tesla K40 . "As aplicações reais são duas vezes mais rápido em um Tesla., Não vejo Intel aproximar-se a isso."

E mesmo se os cavaleiros Landing fecha essa lacuna, Gupta acredita que o número cada vez maior de Tesla de instalações de alto desempenho vai ser uma barreira formidável a Intel está levando uma mordida fora da Nvidia. "Neste mercado como um todo - no mercado corporativo e no mercado de HPC -. Você não pode substituir alguém por ser 10 por cento melhor Você tem que ser 2X melhor", ele nos disse.

Gupta disse ainda que até o momento Knights Landing navios em "2015, 2016", haverá "centenas de milhares" de desenvolvedores de codificação para sistemas de Tesla utilizando da Nvidia CUDA linguagem. Lembramos-lhe que há dezenas de milhões de desenvolvedores no mundo todo x86 que poderia código para Knights Landing, mas que a Intel desenvolvedor vantagem sobre CUDA não impressioná-lo.

"Eles têm que mudar completamente seu aplicativo para usar Knights Landing", disse ele. "X86 não tem nada a ver com a família de cavaleiros. O fato de que eles usam um núcleo x86 lhes dá nenhuma vantagem, porque ninguém escreve em montagem. Todo mundo escreve em um nível elevado, e você tem que programar um dispositivo de múltiplos núcleos."

O que tudo se resume a aceitação do mercado por clientes que foram informadas sobre os planos futuros de ambos Nvidia e Intel. "Todo mundo que está usando GPUs hoje conhece o nosso roteiro;. Eles sabem roadmap da Intel Se eles achavam que o nosso roteiro era ruim, eles parar de se desenvolver", disse ele.

"A IBM viu os nossos roteiros, e eles escolheram para vir trabalhar com a gente . "

Dito isso, Gupta recebe Intel - o que ele chamou de "concorrente formidável" - no acelerador / coprocessador espaço HPC. "Estou feliz de ter um concorrente, disse ele." Estou feliz Intel está jogando neste mercado. "

Quando perguntamos o que o futuro trará na corrida HPC, Gupta trouxe tudo de volta para os clientes. "Eu odeio falar sobre o futuro de todos esses tipos de coisas", disse ele, "porque eu posso especular o que eu quiser e fazer qualquer coisa que eu quero. Tudo o que importa é o que os clientes estão fazendo hoje."

E amanhã, vamos contar. E de onde nos sentamos, Gupta é spot-on sobre uma verdade incontestável: quando se trata de posição dominante no mercado, o que importa é que o nome da empresa é na maioria das vezes escrito depois "Pagar a ordem de" em cheques de clientes. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/20/nvidia_tesla_man_focuses_on_market_share_in_competition_with_intel/

terça-feira, 19 de novembro de 2013

Micron assume Intel com processador de 'descoberta' para streaming de dados

Guia rápido para recuperação de desastres na nuvem

Especialista em memória Micron anunciou um novo processador acelerador que ela afirma supera chips da Intel quando se trata de lidar com o fluxo de dados.

O "Automota Processor" foi anunciado pela empresa na segunda-feira e anunciado como um dispositivo que usa o paralelismo inerente de arquiteturas de memória para acelerar a ingestão e processamento de grandes conjuntos de dados.

As aplicações potenciais do chip incluem análise genômica e várias tarefas de segurança, como a classificação de imagens de vídeo online.

O chip deverá estar disponível em 2014 ea empresa já gravou o primeiro silício, disse.

Cada processador Automota usa uma interface de memória DDR3-like, e estará disponível tanto como autônomo ou em módulos DIMM. Tem um barramento inter-chip e tem um desenho de cerca de 4 watts.

Nos testes, um grupo de 48 dos processadores em uma placa PCIe confortavelmente bater um cluster 48-chip da Intel Xeon 5650s ao tentar completar um duro 'Motif Pesquisa Plantadas' problema.

O projeto é baseado em uma adaptação da arquitetura de memória e explora "o inerente bit-paralelismo tradicional SDRAM", de acordo com um documento Micron descrevendo a tecnologia. Isso o diferencia de "Xeon Phi" acelerador da Intel, que obtém seus conhecimentos número de trituração de uma série de muitos, muitos chips de baixo consumo de energia palermas x86.

Processadores Automota deve bater confortavelmente campo Programmable Gate Arrays (FPGAs) sobre o desempenho, diz o documento. "Acreditamos que nossa arquitetura também implica um novo paradigma de programação paralela".

Como ele é concebido como um acelerador, ele terá de pegar carona em um processador típico, embora esta poderia assumir a forma de um chip ARM de baixo consumo. Também será difícil de programa, embora Micron diz que está trabalhando com pesquisadores para aliviar este problema. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/19/micron_automata_processor_launch/

Décadas atrás, a computação foi salvo por CMOS. Hoje, nenhum herói está à vista

O business case para uma solução multi-inquilino, baseado em nuvem Recovery-as-a-Service

SC13 A cadeira geral da SC13 conferência de supercomputação acha que a indústria de semicondutores atingiu um ponto de inflexão mais radical - e incerto - que ele passou por em décadas.

"Chegamos ao fim de uma era tecnológica, onde tivemos uma tecnologia muito estável", Bill Gropp , Thomas M Siebel Presidente em Ciência da Computação na Universidade de Illinois, Urbana-Champaign, disse a um grupo de jornalistas na conferência em Denver, Colorado, na segunda-feira.

"Estamos prestes a voltar para onde estávamos cerca de 25 anos atrás, quando a tecnologia mudou repentinamente sobre nós", disse ele. Para entender como lidar com os desafios do futuro, ele acredita que é sábio olhar para trás no tempo para entender a forma de pensar sobre o futuro.

Quando Gropp começou sua carreira - "Eu era um estudante de pós-graduação, quando o Cray 1 saiu [em 1976] "- a tecnologia de computação do dia não foi baseada nos semicondutores de óxido metálico complementar ( CMOS ) de transistores que dominam a indústria de chips de hoje. Pelo contrário, era emissor-coupled lógica (ECL), que era a chave de sua escolha. ECL foi rápido - para o seu dia - mas apenas quando dotado de muita energia, o que fez ele correr extremamente quente.

"Uma das principais patentes para o Cray 1 era como resfriá-lo", disse o Gropp. Logo ficou claro para a indústria que a tecnologia de substituição seria necessário se a indústria de computadores ia evoluir.

Felizmente, uma alternativa - não tão bom, mas mais escalável - estava disponível.

"Havia uma tecnologia de nicho que não era muito bom chamado CMOS", disse ele. "Mas era madura o suficiente para construir componentes Era uma espécie de lento -.. Espécie de bem"

Da mesma forma, felizmente, não era uma empresa gigante disposto a assumir um risco neste tipo de tecnologia-de-bem. "A IBM fez uma grande aposta e decidiu mudar de ECL", disse o Gropp. "Eles adotaram CMOS, construiu uma máquina que foi mais lento do que as máquinas da geração anterior, mas não tinha uma tecnologia que estava começando sua ramp up".

E, para usar um clichê, o resto é história.

Avancemos para 2013. Citando dados de anos anteriores " ITRS roteiros - avaliações internacionais sobre o futuro da tecnologia de semicondutores - Gropp foi contundente. "A lei de Moore já acabou", disse ele, lembrando que a indústria de semicondutores não está mais dobrando densidade de transistores a cada 24 meses ou mais, como o imperativo de engenharia acalentado dirige.

CMOS de escala é esmorecimento, mesmo que tais aguardado-extensores de vida como a litografia ultravioleta extrema ( EUV ) nunca ver a luz do dia economicamente viável. Mais cedo ou mais tarde você simplesmente correr para fora dos átomos, como Intel Fellow Mark Bohr um disse ao The Register.

Mas as coisas são diferentes hoje do que durante esses tempos antigos, quando ECL bater na parede, Gropp diz. "O problema é que agora não temos um CMOS. Nós não temos uma tecnologia que está pronto para ser adotado como um substituto para o CMOS."

Nem tudo está perdido, é claro - quando você tem isso muitas inteligentes, engenheiros motivados trabalhando em um problema, nunca é. "Nós temos um número de candidatos. Não é que nós não temos nada", Gropp, citando tais substituições CMOS possibile como RSFQ [rápida único quantum de fluxo] supercondutor lógica e nanotubos de carbono. Mas esses e outros candidatos são, para colocá-lo gentilmente, não está pronto para o horário nobre.

"Nós não temos nada que seja em que nível de maturidade que lhe permitirá apostar sua empresa em como a próxima geração de hardware", disse ele. "Essa é a parte assustadora.

Assim, para o futuro previsível, é CMOS - embora dirigindo o desempenho usando esse material é pouco provável que seja economicamente viável por muito tempo.

"Nós provavelmente vamos ter que tomar conta de CMOS por mais tempo do que nós gostaríamos, enquanto que amadurecemos alguma outra tecnologia", Gropp disse, acrescentando que há uma desvantagem distinta a babá: se CMOS pode ser mantido vivo através de meios extremos para anos mais, ele remove a pressão ao risco de uma empresa em tentar colocar uma tecnologia diferente, até à maturidade.

"Os early adopters podem não ser os únicos a ter sucesso financeiramente", disse ele. "Os early adopters podem ser os que fazem o pioneiro e morrer."

Quando perguntado se ele achava que a performance computing - HPC desempenho, especificamente, vendo como a Confab estava em SC13 - vai continuar a aumentar no mesmo ritmo que ele tem, nas últimas décadas, a resposta de Gropp foi sucinto: "Não." ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/19/decades_ago_computing_was_saved_by_cmos_today_no_hero_is_in_sight/

segunda-feira, 18 de novembro de 2013

Por que não construir um cluster de estações de trabalho?

O business case para uma solução multi-inquilino, baseado em nuvem Recovery-as-a-Service

Monash University da Austrália acaba de inaugurar uma unidade de visualização incrível chamada Caverna 2.

A unidade dispõe de uma parede 320 graus de oito metros de comprimento, composta por 80 monitores 3D com uma resolução combinada de 27.320 x 3.072 pixels.

"Gastamos milhões de dólares na construção de supercomputadores e depois olhar para os resultados que eles produzem em um monitor de 200 dólares", o Dr. David Barnes de Ciências da Vida da universidade e Computação Centro. Caverna 2 é uma tentativa de dar aos pesquisadores uma aparência muito melhor com os resultados os seus esforços e produzir músculo 'supercomputadores.

Transmissão de dados em 3D em tempo real para 80 monitores requer apenas o tipo de quantidade infernal de largura de banda e grunhido de computação que se poderia imaginar exige um cluster de servidor de gordura boa.

Então, porque é conjunto de Caverna 2 construído de estações de trabalho?

Recursos gráficos é uma razão: as máquinas Caverna escolheu pode executar dois do Quadro K5000 escolhido para começar o trabalho feito. Os servidores não estão configurados para fazer isso e não são otimizados para gráficos.

Outra razão para a escolha da estação de trabalho é um arranjo em rack incomum que vê cada par de estações de trabalho compartilhar o que Barnes chama de "controlador quad" que tem entrada de vídeo e noivos para consumo por Cave 2. Essas máquinas e suas fontes de alimentação 2U ocupam tanto espaço que a densidade torna-se um problema menor.

The Cave 2 visualisation facility in Melbourne, Australia

A caverna 2 facilidade de visualização

Um fator-chave na decisão é que as estações de trabalho não são significativamente menos controlável do que os servidores. O CPUs enviada com Caverna 2 de Dells escolhidos oferecer Intel vPro, que Barnes diz que não é marcadamente mais útil do que a Intelligent Platform Management Interface (IPMI) oferecido em vários servidores.

A concessão: Caverna 2 é uma aplicação muito nicho. Mas muitas outras aplicações estão usando GPUs para computação e se o equipamento não é menos controlável do que os servidores, o que há para não gostar?

Para você, os leitores: por que não construir um cluster de estações de trabalho? ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/19/why_not_build_a_cluster_out_of_workstations/

Nvidia, AMD sacar 12GB GPUs para HPC ... Mas eles podem executar Crysis?

Regcast livre: Dispositivos de Gerenciamento de Multi-Vendor com System Center 2012

SC13 A batalha das placas GPU grande memória destinados a HPC e do centro de dados está agora em pleno andamento, com a AMD ter revelado o seu cartão FirePro S10000 12GB Edition, e Nvidia anunciou sua 12GB GPU Tesla K40 placa aceleradora de hoje.

Nvidia Tesla K40 ... Duplique o seu prazer, dobre a sua memória GDDR5 (clique para ampliar)

O 12GB de memória no K40 é o dobro do seu antecessor, o K20X, o que está impulsionando o desempenho de 38 membros da lista Top500 de supercomputadores, que foi anunciado na segunda-feira de manhã no SC13 Supercomputing Conference, em Denver, Colorado.

Referindo-se a esse impulso de memória, o gerente geral da Tesla asa da Nvidia, Sumit Gupta , disse ao Reg: "Isso, obviamente, é o maior benefício deste cartão", apontando que a duplicação da memória expande o número de aplicações que podem tirar proveito da GPU aceleração.

Chart comparing specifications of the Nvidia Tesla K20X with the new Tesla K40

Um dia você é o rei da montanha, então um novato chega para derrubá-lo um peg

O K40 tem um truque para melhorar o desempenho adicional na manga, que Nvidia chama de "GPU Boost". Como o próprio nome indica, esta capacidade pode aumentar o relógio do GPU se há sobra de energia suficiente para acomodá-lo.

Se isso soa muito parecido com o "Turbo Boost" tecnologia usada em processadores Intel, Gupta diz que é, mas com diferenças. "É um conceito similar, mas diferente no sentido de que o Turbo Boost oportunista aumenta um núcleo de CPU em um momento, mas GPU impulso aumenta todos os 2.880 núcleos."

De acordo com Gupta, o motivo que o aumento de todos os núcleos do K40 Kepler GK110B GPU ao mesmo tempo é importante é que isso proporciona ao usuário a capacidade de controlar a consistência do desempenho ao executar empresa centro de dados ou cargas de trabalho HPC. "Toda vez que você executar um aplicativo, você quer o mesmo desempenho", disse ele, "e em cada nó do servidor que você tem, você quer o mesmo desempenho que é muito crítica -. Se você está aumentando, você impulsiona toda a GPUs no mesmo nível. "

Application-test benchmarks chart comparing the Nvidia Tesla K20X to the new K40 with and without GPU Boost

A execução de qualquer destes em um sistema K20X? Pode ser o momento para uma análise de custo-benefício (clique para ampliar)

Para realizar essa consistência, disse ele, o usuário controla quando GPU impulso é ativado ou desativado - não é até as GPUs. "O usuário diz:" Aumente as seguintes 100 cartões no meu centro de dados '", explicou. E, como você pode imaginar, tal impulsionar pode ser feito de forma dinâmica, com uma chamada de linha de comando.

Do lado do hardware - além de dobrar a memória - os K40 atualizações uma série de especificações de seu antecessor K20X: contagem de núcleos e relógio, largura de banda de memória e relógio, e sua conexão PCIe do Gen-2 para Gen-3. Apesar das atualizações de hardware, orçamento de energia da placa permanece o mesmo em 235W. Esses aprimoramentos ajudar a elevar o desempenho de precisão única de o K20X 3,93-4,25 teraflops da K40, e de precisão dupla 1,31-1,43 teraflops.

"É acelerador mais rápido do mundo voltado para supercomputação e big-análise de dados", Gupta prometido. "Nós já tivemos o mais rápido com o K20X, mas K40 vem como o nosso novo produto carro-chefe."

Agora, se só Nvidia e AMD pode convencer a comunidade de supercomputação que seus novos cartões de memória mais gordo pode ajudá-los a executar todas as cargas de trabalho que eles querem mais rápida e eficiente, talvez o "ceepie-geepie" HPC revolução pode sair da segunda marcha. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/18/nvidia_amd_12gb_gpu_accelerator_hpc/

Top500: Dragão vermelho ainda governa como poder gráfico deixa applecart praticamente intocados por agora

Regcast livre: Dispositivos de Gerenciamento de Multi-Vendor com System Center 2012

SC13 A Top500 ranking dos supercomputadores mais rápidos do mundo foi lançado, bem como a lista dos cinco principais sistemas poderia muito bem ser simplesmente uma cópia Xerox da lista anterior, que saiu de volta no verão.

Em junho rankings , o primeiro lugar foi tomado pelo massivamente paralelo Tianhe-2 (Milky Way-2) na National Super Computer Center da China. Número dois foi Titan de Oak Ridge National Laboratory, um sistema XK7 Cray, o terceiro lugar foi Sequoia o Lawrence Livermore National de Laboratório, um sistema IBM BlueGene / Q, em quarto lugar era computador da Fujitsu K na japonesa Riken Instituto Avançado para Ciência Computacional e quinto foi um segundo sistema BlueGene / Q, Mira, no Laboratório Nacional Argonne.

E é exatamente assim que eles classificaram na última lista Top500 , divulgada segunda-feira de manhã no SC13 Supercomputing Conference, em Denver, Colorado. Parece que a revolução tão apregoada de adição de coprocessadores gritantemente rápidos, altamente eficientes baseados em Tesla da Nvidia e Intel Xeon Phi - com algumas Radeons AMD jogado em boa medida - está tomando seu próprio tempo doce para derrubar o mundo da HPC.

Até que você olhar para o número seis na nova lista Top500, isso é.

Não fica Piz Daint, um XC30 Cray sistema instalado no Swiss Scientific Computing Center, que disparou a partir do número 42 em junho para o sexto lugar na nova lista, graças à adição de 73.808 K20X Tesla GPU núcleos que ajudaram a torná-lo o supercomputador mais rápido da Europa.

The Piz Daint HPC system at the Swiss Scientific Computing Center

Piz Daint, o coadjuvante que era antes da adição da Nvidia Tesla acelerador muscular

Outros dois dos cinco melhores seis sistemas no Top500 já tem a ajuda de co-processadores: Tianhe-2, com 2.736.000 Intel Xeon Phi núcleos e Titan com 261.632 núcleos Tesla K20X cartões. O número sete na nova lista, Dell PowerEdge Stampede baseada no Texas Advanced Computing Center, ex-número seis, também se beneficia núcleos Xeon Phi - embora um reles 366.366 em comparação com os cerca de três milhões em Tianhe-2.

Todos esses núcleos Xeon Phi em Tianhe-2, juntamente com 384 mil núcleos de computação em 32.000 12-core Intel Xeon E5-2692 processadores rodando a 2.2GHz, produziu alguns números igualmente impressionantes durante a execução do ( polêmico ) de benchmark Linpack usado para compilar a lista Top500 : um escalonamento 33,86 petaflops. Se você preferir as suas estatísticas de desempenho sem o disquete HPC-fala, que é 33.860.000.000.000.000 cálculos de ponto flutuante por segundo.

Top500 Supercomputers - historical performance

Computação Exascale pode ser visto no horizonte - na China, pelo menos (clique para ampliar)

Total de petaflops de toda a lista Top500 juntos têm aumentado desde a junho rankings, a partir de 223 petaflops em seguida a 250 petaflops agora. O aumento é ainda mais impressionante quando comparado com o petafloppage registrado na lista de novembro de 2012, quando o total foi de "meros" 162 petaflops.

Embora o desempenho total de todos os sistemas Top500 em conjunto aumentou desde junho, o número de sistemas que usam co-processadores não - esse número permanece em 53-38 usando Nvidia, 13 usando Xeon Phi, e dois usando AMD Radeon. Nós vamos estar curioso para ver se a AMD recentemente anunciou FirePro S10000 12GB Edição vai atrair qualquer casas de HPC para adotar sua tecnologia.

Top500 Supercomputers – accelerators used over time

A pausa antes da explosão acelerador, ou sinais de estagnação?

O número de sistemas que usam co-processadores era praticamente a única estatística agregada que não aumentou entre Junho e segunda-feira. Na lista anterior, havia 26 sistemas cujo desempenho superou um petaflop, agora há 31. Em junho, a entrar na lista de todo, o sistema tinha que atingir pelo menos 96,6 teraflops, agora o nível de entrada é 117,8 teraflops. Para entrar no Top100 do Top500, em junho, o portal foi de 290 teraflops, na nova lista, é 327 teraflops.

A empresa que presta a maioria dos chips que virar todos os fracassos é cada vez mais Intel, que tem uma participação dominante em processadores e está aumentando sua participação como co-processador ampla vantagem da Nvidia fica um pouco menos de largura em cada relatório recente do Top500. Um total de 412 sistemas no Top500 - 82,4 por cento - agora estão usando Chizilla chippery.

Top500 Supercomputers – chip technology over time

Foi uma luta justa até cerca de meados do vigésimo aughts

Finalmente, para aqueles Exceptionalists americanos cujos orgulho está ferido, devido à ligação comandante da China Tianhe-2 - o sistema dos EUA top, Titan de Oak Ridge, em marcha para fora 17,59 petaflops, pouco mais de metade dos 33,86 do Oriente Unido super. você pode se consolar sabendo que os EUA tem de longe o maior número de sistemas para fazer a lista: 265, contra 253 em junho.

You europeus, por outro lado, são escorregamento: caiu de 112 em sistemas de Junho a 102 na nova lista. Mas pelo menos você tem Piz Daint e seus aceleradores de GPU Tesla para se orgulhar. Talvez você deve equipar mais de seus sistemas de HPC com eles - desde que essa nova lista Top500 diz-nos, não só eles vão fazer subir a sua pontuação de ponto flutuante, eles também não é exatamente voando das prateleiras e em instalações HPC.

Talvez você possa começar um negócio. Sabe, economia estagnada da UE, e tudo mais. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/18/top500_supercomputing_coprocessor_revolution_takes_a_breather/

sábado, 16 de novembro de 2013

Nvidia revela CUDA 6, junta-se CPU-GPU partido memória compartilhada

Entrega Email: quatro passos para obter mais e-mail para a caixa de entrada

Nvidia anunciou a versão mais recente de sua linguagem de programação GPU, CUDA 6, que acrescenta uma capacidade de "memória Unificado" que, como o próprio nome indica, alivia os programadores dos ensaios e atribulações de ter que copiar manualmente os dados e para trás entre CPU separado e espaços de memória da GPU.

CUDA 6 tolos CPU de um sistema e GPU em pensar que eles estão mergulhando no mesmo banco de memória compartilhada

"Os programadores sempre achei difícil de GPUs programa", Sumit Gupta , gerente geral da HPC focada Tesla biz da Nvidia disse ao The Reg ", e uma das maiores razões para isso - na verdade, esta é a razão - foi que havia sempre dois espaços de memória: a CPU ea memória e GPU e sua própria memória ".

Sendo software, CUDA, claro, não faz nada para unir fisicamente aqueles dois espaços de memória - a CPU ainda tem sua própria memória ea GPU tem o seu próprio pedaço. Para um programador usando CUDA 6, no entanto, essa distinção desaparece: todo o acesso à memória, entrega e gestão passa "debaixo das cobertas", para emprestar a frase Nandini Ramani da Oracle usado para descrever Java 8 de abordagem para programação paralela nesta semana AMD desenvolvedor conferência, APU13 .

Do ponto de vista do programador usando CUDA 6, os espaços de memória da CPU e GPU pode também ser fisicamente um e o mesmo. "O desenvolvedor agora pode apenas operar nos dados", diz Gupta.

Em outras palavras, se um dev quer adicionar A para B, e A é na memória da CPU, enquanto B está na memória da GPU, o recém-dev sorte agora pode simplesmente dizer "adicionar A para B", e não dar um figo sobre onde quer bit de dados reside - os activos subjacentes CUDA 6 encanamento vai cuidar de acesso A e B e munging-los juntos.

The 'super simplified' memory management code introduced in CUDA 6

Antes CUDA 6, da esquerda, e depois, à direita (clique para ampliar)

De acordo com Gupta, esta nova capacidade reduz o esforço de programação por quase 50 por cento. Não sendo um CUDA próprio programador, o repórter Reg vai ter que esperar por relatórios de campo - ou nos comentários do artigo - para julgar a veracidade da afirmação do chefão Tesla.

Para apoiar seu argumento, Gupta disse: "Temos vários programadores que nos disse que o seu maior ponto de dor no primeiro dia foi sempre gerir a movimentação de dados e da memória e do gerenciamento de memória. E, tomando o cuidado de que, fazendo isso automaticamente, temos melhorado significativamente a produtividade do programador. "

Há, obviamente, ainda alguns latência envolvida no movimento dos dados a partir dos quais, por exemplo, o processador pode trabalhar com ele para onde a GPU pode colocar as mãos - ou núcleos - nele, mas o promotor não tem que se preocupar sobre como escrever o código para transferi-lo, nem o compilador tem que lidar com as linhas extras de código que antes eram necessários para realizar esse movimento.

CUDA 6 acrescenta algumas outras sutilezas como novo drop-in bibliotecas que substituem algumas bibliotecas de CPU com GPU bibliotecas, e algumas bibliotecas GPU redesenhados que automaticamente escala em até oito GPUs em um único nó.

Mas Gupta disse-nos que o que devs têm clamado por mais avidamente é para ser liberado das tarefas de gerenciamento de memória, o que Unified Memória oferece.

Com CUDA 6, ele disse: "O programador apenas programas blissfuly". ®

Bootnote

Em um desenvolvimento relacionado, Mentor Graphics anunciou que está adicionando suporte para OpenACC 2.0 em seu compilador GCC, aumentando assim a capacidade de gerar instruções de nível de montagem para GPUs Nvidia em que a ferramenta padrão de indústria.

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/16/nvidia_reveals_cuda_6_joins_cpugpu_shared_memory_party/

terça-feira, 12 de novembro de 2013

Boffins olhar para trás do Amazon Web Services, encontrar um supercomputador

Entrega Email: quatro passos para obter mais e-mail para a caixa de entrada

O que é mais rápido do que a maioria dos supercomputadores do mundo, custa menos, e foi usado para pesquisar células de energia solar orgânicos? A resposta é Megarun, um super 1,21 petaflops que foi desmembrada por Cycle Computing na Amazon Cloud.

Cycle Computing revelou sua besta Megarun na terça-feira antes do pontapé inicial da Amazon Web Services re: Invent conferência em Las Vegas esta semana.

Megarun usa três vezes o número de núcleos de CPU com a última da companhia 50000 núcleo whopper em 2012, e foi encarregado de adivinhar novos compostos orgânicos fotovoltaicos de 205 mil moléculas.

O virty super-utilizados materiais suíte de software de Ciência de Schrödinger para analisar as moléculas, e foi capaz de estudar milhares de uma só vez através do uso de top-secret "Júpiter" agendador de tarefas Cycle Computing.

Júpiter foi capaz de mobilizar alguns 156.314 núcleos de computação em 16.788 casos da AWS slathered em todos os oito regiões públicas da Amazônia para um trabalho de computação de 18 horas. Ele é projetado para eventualmente ficar "milhões de cores" realizando dezenas de milhões de tarefas, de acordo com a empresa de slides .

O melhor desempenho de 1,21 petaflops do sistema seria classificá-lo como 29 computador mais poderoso do planeta nos 500 melhores supers do mundo a partir de junho de 2013, disse Cycle Computing.

A maior parte do sistema funcionou em CC2 casos da Amazônia, devido ao desempenho dos processadores Sandy Bridge da Intel, Ciclo disse El Reg, embora tenha também usam processadores M3 de segunda geração, e os sistemas C1 gráfica pesado também. Recursos de computação Megarun custar 33 mil dólares através do uso de exemplos pontuais de baixo custo da Amazon, dizem-nos, em comparação com os milhões e milhões de dólares que você teria que gastar para comprar um equipamento no local.

"Embora este prazo quebrou recordes, continuamos a explorar os limites de escalabilidade e mais rápido tempo de mercado e tempo para resultar para computação científica e analítica em Ciências da Vida, Serviços Financeiros, Manufatura, Energia e Mídia" Cycle Computing escreveu em um blog postar.

Embora a Amazon é a mais famosa por arruinar os negócios de alta margem operados pela HP, Dell, EMC, IBM, entre outros, parece que os bits nadadeiras como Cray e SGI deve agora se preocupar também. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/12/cycle_computing_supercomputer_reveal/

sábado, 9 de novembro de 2013

GPU segredos revelados para guerreiros de cluster de estudantes

Livre Regcast: Nuvem da Microsoft OS

SCC'13 Estamos a menos de duas semanas do início da SC13 Student competição Cluster em Denver. Agora, as 12 equipes de estudantes estão virando cada pedra que pode encontrar no seu hardware e software stack em um esforço para suprir (e nerd) a cada último bit de desempenho.

O tempo é curto. Em uma semana ou menos, eles vão estar arrumando em preparação para a viagem para Denver e seu encontro com o cluster destino competição.

Em um esforço para dar aos alunos (e qualquer outra pessoa interessada na otimização de sistemas de CPU-GPU híbridos) uma ponta, eu gravei recentemente um webcast com Mark Ebersole, Educadora CUDA da NVIDIA / desenvolvedor e evangelista.

No webcast, Mark e eu falar um pouco sobre a história de GPUs na competição cluster e como Mark (e NVIDIA) envolveu-se nas batalhas de cluster. A conversa então se move sobre a melhor forma de configurar os sistemas híbridos.

Clique com o clicker aqui para o webcast

Nós gastamos um pouco de tempo falando sobre como otimizar o código para GPUs e como descobrir se você está recebendo tudo o que você deve estar recebendo deles.

Existem algumas dicas importantes neste webcast, como como usar perfis para encontrar oportunidades de otimização. Falamos também sobre as aplicações específicas em Cluster competição estudantil deste ano, com Mark oferecendo sugestões de pacotes e ferramentas.

Ao longo do caminho, que ponderou sobre a questão de saber se a folha de alumínio de alta qualidade é um bom substituto para o ECC (não é, de acordo com Mark) e como os alunos devem se aproximar coleta presa no assoalho da mostra (pegar sua mala em primeiro lugar, e em seguida, obter as guloseimas ). ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/09/gpu_secrets_unveiled_at_student_cluster_competition/

quarta-feira, 6 de novembro de 2013

WTF é WRF? Estudante de cluster-wrestlers empinar para SMACKDOWN aplicativo

Entrega Email: Ódio e-mails de phishing? Você vai adorar DMARC

SCC 2013 É tempo de crise para os alunos que estarão competindo no SC13 Student competição Cluster em Denver. As 11 equipes universitárias - mais um grupo de estudantes do ensino médio corajosa - estão em modo de empinar agora, tentando descobrir como torcer cada último bit de desempenho de seus equipamentos.

Todas as equipes estarão funcionando os mesmos benchmarks HPC e aplicações científicas deste ano, se eles estão na faixa padrão (qualquer hardware, não pode exceder 25 amp/120 cap volts) ou a trilha Commodity (hardware não pode exceder um $ 2.500 preço de compra).

As aplicações, naturalmente, desempenha um papel crítico na competição. Se os alunos não entendem os aplicativos ou como fazê-los funcionar com conjuntos de dados variados, então eles simplesmente não vai ser bem sucedido. Com isso em mente, as equipes trabalharam durante meses para entender os aplicativos e como eles funcionam, e fazê-los funcionar como doninhas chamuscadas em seus vários clusters.

A competição começa na manhã de segunda-feira, 18 de novembro, quando as equipes de executar o benchmark HPCC. Isso não deve ser um grande obstáculo, é uma carga de trabalho bem conhecida, e não há nenhuma maneira para que os organizadores de jogá-los uma bola curva. Os alunos também irão executar um alto desempenho de benchmark Linpack separado, da apresentação da sua melhor pontuação para o prêmio mais alto LINPACK.

HPC aplicativos: WTF é WRF e encontrar NEMO5

Segunda-feira marca o início da maratona SCC. Isto é, quando as equipes tenha acesso aos conjuntos de dados que vai usar com as aplicações de HPC que compõem a maior parte da competição. Eles têm a partir de segunda-feira até o final de quarta-feira à tarde para executar todas as cargas de trabalho e apresentar seus resultados aos juízes de aplicação.

Para dar aos alunos uma ajuda de última hora, eu já entrevistou alguns especialistas sobre as aplicações que estará enfrentando a SC13. O objetivo é ajudar as equipes a entender melhor como cada aplicativo funciona e como se aproximar de tuning. Aqui estão os aplicativos no menu SCC desta vez:

WRF: Um pacote de modelagem de previsão do tempo que é usado em pesquisa e previsão de tempo diária. WRF é altamente Paralelizada e escalável, e tem sido usado em uma série de competições de cluster estudantis anteriores. Há pacotes disponíveis para os sistemas que utilizam aceleradores de GPU e Phi co-processadores.

Clique para abrir o webcast

Eu gravei um webcast com o Dr. Jordan Powers e David Gill do NCAR (Centro Nacional de Pesquisa Atmosférica.) No vid, eles falam sobre WRF e como eles se aproximam ajuste de desempenho no contexto da competição conjunto aluno.

NEMO5: Um aplicativo muito útil que é usado em ambos acadêmico e industrial R & D para simular dispositivos em nanoescala até o átomo. NEMO5 também é um aplicativo altamente paralelo e escalável, que agora pode abranger cerca de 100.000 núcleos.

Clique para abrir o webcast

Neste novo webcast Falei com o Dr. Jim Fonseca, um desenvolvedor chave do NEMO5. Tomamos um mergulho profundo no NEMO5: o que ele faz, como ele funciona, e que os alunos precisam considerar quando tentando maximizar o desempenho. Jim dá uma série de dicas muito úteis para os estudantes, incluindo como o perfil do código e onde encontrar conjuntos de dados de teste.

GraphLab: um aplicativo que foi originalmente destinado a promover o processamento paralelo para algoritmos de aprendizado de máquina, mas agora está sendo usado em uma ampla variedade de mineração de dados e tarefas de Big Data-like. GraphLab é usado para tarefas como computação em rankings de páginas na web ou descobrir o que a lista de produtos para recomendar aos novos clientes.

A aplicação Mystery: Apenas o que diz: um mistério. É uma knuckleball direto dos organizadores para os alunos, destinadas a ver a rapidez com que eles podem pensar em seus pés e aplicar seus conhecimentos para se levantar e correr em um aplicativo que não estão preparados.

Os alunos serão marcados sobre o quão bem seu sistema realiza sobre estas aplicações e / ou a precisão de suas soluções. As equipes também serão entrevistados por especialistas HPC juízes que irão marcá-los em sua compreensão das aplicações, seus sistemas e conceitos-chave HPC.

Equipes com as melhores pontuações combinadas ganhar o prestigioso título de campeão geral para a respectiva faixa de competição (Standard ou Commodity). Prêmios também serão entregues para a mais alta pontuação LINPACK na faixa padrão e alto-flops por dólar na faixa de commodities. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/06/student_cluster_war_app_battlefield/

terça-feira, 5 de novembro de 2013

Estudantes animado, US $ 2.500, trêmulos prateleiras e sonhos de glória

5 maneiras de preparar sua infra-estrutura de publicidade para o desastre

SCC 2013 O novo "Track Commodity" da próxima SC13 Student Cluster competição atingiu um acorde com cluster de aficionados da concorrência em todo o mundo e registrar leitores.

Eu coloquei os termos desta competição em uma história recente , e muitos de vocês pesado com recomendações sobre como essas crianças poderiam obter o máximo HPC estrondo de suas $ 2,500 dólares.

Essas equipes têm um desafio único. Enquanto os alunos das "Pista Padrão" competição de ferro grande projeto seus próprios sistemas, eles são limitados pelo que os seus parceiros de hardware fornecedores doar.

Mas as crianças que estão competindo no "track Commodity" podem fazer o que quiserem, contanto que eles gastam menos de US $ 2.500 e ficar sob o generoso 15 ampères (120 volts) cap poder.

Um problema com a cobertura esta fase de pré-competição do evento é que as especificidades das configurações da equipe são confidenciais - não "armas secretas" pode ser revelado. Além disso, há um pouco de variação entre o que os alunos pensam que estará trazendo para a competição e que eles realmente aparecem com.

Talvez um dos orientadores da equipe de colocá-lo melhor quando ele disse:

Como apenas estudantes confiantes sublimemente pode fazer, minha equipe decidiu ontem à noite para acabar com o projeto que temos vindo a trabalhar durante todo o verão e tomar uma volta da mão esquerda radical usando hardware que não possui realmente ainda. Isso me deixou muito orgulhosa! Esses cinco caras estão dominando tanto material e cavando especificações técnicas de um modo que eu nunca conseguiria se eles estavam apenas tendo uma aula.

Com isso, vamos dar uma olhada nas commodities equipes de pista ...

Bentley University é uma universidade pequena, de negócios fundada em 1917. Ele está localizado em Waltham, Massachusetts, e, de acordo com a Wikipedia, é acessível através do 554 ônibus MTBA. A Universidade de Massachusetts também está ajudando no projeto do cluster e de pessoal da equipe de viagem.

Como muitos de vocês, eu não sei muito sobre a Bentley e só um pouco mais sobre UMass (é em Massachusetts). Mas depois de ler a sua aplicação competição cluster, posso dizer-lhe que este é um grupo de estudantes ambiciosos e pensativo.

Assumindo o seu hardware planeja se unir, eles estará ostentando uma das compilações mais complexas na competição. Estamos falando muito de nós, e provavelmente mais núcleos qualquer outro concorrente na faixa Commodity.

Sua abordagem é projetar os blocos de construção do sistema para melhor atender as diversas aplicações que vão estar em execução. Embora esta seja a idéia certa, é potencialmente problemática. As equipes não sabem o tamanho ou a complexidade do conjunto de dados que eles precisam para trabalhar com cada aplicação. Algumas das tarefas de computação são mais curtos do que os outros, então Bentley equipe terá de ter uma página de Flex do Falcon, a Bentley U mascote, e estar pronto para fazer ajustes em tempo real, a fim de no máximo o seu desempenho.

O ASU Sun Devils oriundos das terras do deserto (e shoppings) de Phoenix, Arizona. Com mais de 70.000 estudantes, ASU é a maior escola na competição deste ano.

Equipe Sun Devil é composto por quatro juniores e um único calouro e, provavelmente, tem a experiência mais real de TI. Dois de seus membros já trabalhou no setor privado, especializada em rede e administração de sistemas. Outro membro da equipe esteve recentemente no serviço militar, e competiu em Engenharia Experiência Ultimate Intel - onde sua equipe venceu o prêmio de mais longo vôo Quadcopter sustentada controlada por um laptop. Outros membros da equipe trabalham em A2C2 centro de HPC do ASU e ter experiência tanto na construção e gestão de núcleos de investigação.

Equipe Sun Devil está trazendo a energia para o Commodity competição Track. Seu projeto proposto parece ter menos, mas mais poderoso, nós. Esta poderia ser uma estratégia vencedora, uma vez que irá reduzir comunicações entrenós ea latência que vem com ele.

Será interessante ver se a Team Sun Devil tem a combinação certa de hardware em sua configuração. Serão eles capazes de igualar-se as cargas de trabalho de seus nós, a fim de executar com a máxima eficiência? Vamos ver em Denver.

Slippery Rock está concorrendo no Concurso Cluster Student para o segundo tempo. Eles estavam em Salt Lake City em SC12, disputando o primeiro prêmio na competição LittleFe pista.

Este não é o primeiro rodeio mini-cluster para Equipe Rocha, a escola compete regularmente ou hospeda várias programação, matemática, e competições de robótica. Eles estão enviando uma equipe experiente, Sênior-pesado para Denver. E eles têm grandes esperanças para a sua criação de baixo orçamento.

Cada membro da Equipe Rocha tem concluídos ou está actualmente a pedra angular classe informática da escola. Um dos principais requisitos é que os alunos a construir o seu próprio cluster Beowulf estilo e aprender a explorar OpenMP e GPUs para paralelismo reforçada.

A abordagem da equipe Rock para a competição é clássico. Como eles colocá-lo na sua aplicação, eles vão "... construir uma máquina antiga em casa bebida fashioned". Isso significa comprar as peças no varejo a partir de Newegg e colocá-los juntos se.

Em termos de nó e contagem de núcleos, eu esperaria para ver a máquina Rocha Equipe em algum lugar no meio do pelotão, com ASU no baixo extremo e Bentley no lado de alta. O sistema de Slippery Rock será mais uma "equilibrada" mini-cluster tradicional, que poderia pagar na competição.

Ambas as faixas Standard and Commodity das competições Cluster Estudante SC sempre foram abertos para a universidade e até mesmo equipes do ensino médio. No entanto, o Eagles Skyline são a única escola para competir em qualquer evento SCC.

Sua primeira aparição foi em SC12 na cidade de Salt Lake City, Utah. Eles competiram no evento LittleFe, onde os alunos construíram seu próprio cluster baseado LittleFe e é usado para executar o honrado "Traveling Salesman" problema.

Apesar de terem sido todos os alunos do ensino médio, eles se encaixam perfeitamente com o resto do SC12 multidão. Uma das crianças tinha barba suficiente para me fazer pedir uma olhada em sua carta de condução, a fim de verificar a sua idade. Equipe Skyline é um grupo muito unido. Eles trabalharam juntos também na competição SC12 e em outros concursos computação relacionados.

Aqui está uma passagem interessante da proposta inicial da competição Equipe Skyline:

Temos também trabalhado em software de codificação para grandes conjuntos de dados e armazenamento, quando ajudou a desenvolver um substituto para o programa diário de classe atual do nosso distrito, que tem inúmeras falhas de design e desempenho.

Hmm ... isso também faz com que esses caras dos alunos mais confiáveis do ensino médio nunca, ou os caras que tudo vai se formar com quase perfeitas médias de notas 4,0. ("Quase perfeita" é fundamental. Perfeição absoluta chama escrutínio, como demonstrado por alguns dos meus amigos na escola que tem o seu luvas sujas no teste e trabalhos de casa respostas para um curso inteiro em Direito Empresarial. Ele não terminou bem. )

A trilha Commodity é uma adição muito interessante para o ensopado competição SCC. Como sempre, nós estaremos cobrindo tanto a faixa padrão e essa nova faixa Commodity de todos os ângulos. Em seguida, vamos falar sobre as aplicações, e depois vamos revelar ainda outra ruga surpreendente que nós estaremos vendo este ano em Denver. ®

via Alimentar (Feed) http://go.theregister.com/feed/www.theregister.co.uk/2013/11/05/2500_and_dreams_of_glory/