Guia do Iniciante para certificados SSL
Misturando petabytes de dados e armazenamento de código aberto usado para ser o reino da boffins acadêmicos com pouco dinheiro que não se importavam sujando com magia software.
A necessidade de analisar milhões, bilhões, mesmo, de registros de eventos de negócios armazenados como informação não estruturada em matrizes de classe multi-petabytes de armazenamento comum faz parecer brincadeira de criança. Ele também aumenta drasticamente os custos de armazenamento, tanto que o software necessário para gerenciar e acessar os dados torna-se extremamente caro demais.
Este é um jogo totalmente novo para que você precisa ser claro sobre o que você pode usar tecnologias, de sistemas de hardware / software extremamente rápido integrados em uma extremidade do espectro para JBODs baratos (apenas um monte de discos) e software livre na outra .
O software livre pode custar nada para começar, mas tem de ser implementada, implantada e apoiada, e os custos, em seguida, começar a montar-se.
Os problemas básicos são escala e velocidade. Em teoria, você pode adicionar centenas de prateleiras para um controlador duplo para atingir a capacidade petabyte mas a cabeça de dois controlador seria um potencial ponto de estrangulamento. Milhões de OI poderia fila para passar por um par de controladores que podem lidar com apenas centenas ou milhares de baixas solicitações por segundo.
Velocidade só pode ser adquirida por ter um meio de armazenamento mais rápido, como o flash, ou multiplicando os controladores para que possam operar em paralelo.
Ter um flash de tudo, array multi-petabyte custaria tanto quanto o produto interno bruto de um país pequeno por isso não vamos olhar para isso mais. Por isso, tem que ser rígido - Fita sendo extremamente lentos em comparação com o disco para os pedidos IO aleatórios esperados - e tem de haver vários controladores de uma forma ou de outra.
À primeira vista, as opções que temos são o armazenamento de objetos, com cálculo (controlador) de recursos por nó, uma configuração em cluster matriz de armazenamento da NetApp como cluster ONTAP, ou um sistema de arquivos modificados que podem fornecer pistas múltiplas de acesso.
Seis alternativas básicas vêm à mente:
- NFS Paralelo
- IBM Elástico de Armazenamento
- DDN e Scaler Web Object (WOS)
- Seagate / Xyratex e Lustre
- Red Hat e Gluster
- Ceph
pNFS, GPFS e WOS
NFS Paralelo, devidamente NFS 4.1, é o clássico Network File System atualizado para fornecer acesso paralelo. Computação de alto desempenho (HPC) é um fornecedor Panasas proponente desta, e outros fornecedores, como a NetApp tem sido favorável. A norma está sendo desenvolvido, mas adoção generalizada não aconteceu. O veredicto é que pNFS é imaturo.
Da IBM Elastic armazenamento é a sua GPFS (General Parallel File System) rebatizada e desenvolvido para uso em nuvem e estilo. Ele certamente pode ser escalado para as capacidades necessárias, e como é suportes paralelos acesso simultâneo por vários hosts. É um produto IBM com tudo o que significa em termos de qualidade de produto, suporte - e lock-in.
DDN oferece sistemas de armazenamento multi-petabytes com hardware e software integrado. Estes são projetados para supercomputador e HPC trabalho e estão a ser estendido para ambientes grandes de dados empresariais high-end.
O vendedor tem uma oferta WOS, que teve recentemente uma interface S3 adicionado para que ele possa integrar-se com o armazenamento em nuvem da Amazon. Com suporte para mais de 5.000 sessões simultâneas e mais de cinco bilhões de objetos armazenados em um único namespace global, que certamente tem a escala necessária.
Como Elástico de Armazenamento da IBM que tem o apoio de implantação e produto de qualidade associado a um produto de propriedade do fornecedor, mas também representa um potencial de lock-in e despesa.

DDN WOS 7000E
Existem outras possibilidades de armazenamento de objetos, tais como Amplidata, Caringo, Cleversafe, Scality e outros, que podem corresponder a escalabilidade do WOS, mas não necessariamente a velocidade do DDN "s hardware e software integrado.
Gluster e Lustre
Para ser livre de software lock-in você tem que olhar para os produtos livres ou de código aberto, o que nos leva a Lustre, Gluster e Ceph.
Lustre (o nome é derivado do Cluster Linux) é um sistema de arquivos distribuídos acesso paralelo usado em ambientes de supercomputação. É abertamente disponível software, não-proprietária distribuídos através de uma licença pública geral GNU.
Recentemente adquiridos da Seagate Xyratex fontes do negócio ClusterStor matrizes executam Lustre. Isso libera você de lock-in para um fornecedor único de software com o produto integrado com hardware e apoiada por um único fornecedor, como os fabricantes de equipamentos Cray o produto para suas matrizes Sonnexion. Intel também tem um envolvimento do brilho, com uma conexão de Hadoop.

ClusterStor 1500
Ele tem uma loja de objeto e pode usar o ZFS como um sistema de arquivos de back-end. O software suporta o armazenamento multi-petabyte com acesso a clientes chegam a dezenas de milhares de pessoas, e mais de um Tbps de rendimento geral de I / O. Os clientes acessar dados em um armazenamento de objetos distribuídos mediada através de servidores de metadados separados.
As empresas necessitam de estilo HPC acesso a dados não estruturados deve tê-lo em sua lista.
Open-source Gluster, promovido nos dias de hoje pela Red Hat, é outro candidato. Seu nome é uma palavra-valise, derivado do GNU e cluster.
Baseia-se nós de servidores, cada um com seu próprio armazenamento de conexão direta, ou mesmo uma SAN. Os nós de existir em um único namespace e operar em paralelo para fornecer a velocidade necessária; replicação de dados entre os nós fornece alta disponibilidade. Cluster pode ser implantado totalmente na Amazônia, usando seu EC2 (Elastic Compute Cloud) casos e EBS (Elastic Block Storage).
Ceph
Ceph, em homenagem cefalópodes, como o polvo com as pernas ativos simultaneamente, é também software open-source. Apresenta arquivo, bloco e armazenamento de acesso objeto de um cluster distribuído de nós de armazenamento de objetos.
Não há nenhum ponto único de falha; mesmo os servidores de metadados do componente estão agrupados, enquanto a replicação garante a disponibilidade dos dados. Ceph é auto-cura, arquivos listras através de nós para melhor desempenho, roda em hardware commodity, e pode ser escalado para o nível exabyte (1,000PB). Ele é projetado para não fazer novas exigências de gestão do sistema, ou os orçamentos dos clientes.
Vantagens do Ceph incluem sua escala exabyte fornecendo headroom capacidade e acesso de três vias via arquivos, blocos e objetos. Ele foi concebido por Sage Weil, da Universidade da Califórnia, Santa Cruz e quando Weil formou em 2007 ele montou InkTank (outra referência polvo) para entregar Ceph serviços profissionais e suporte.
Red Hat tem um interesse Ceph como ele adquiriu InkTank em abril. Em Maio, o sexto maior lançamento do Ceph, chamado Firefly, chegou, acrescentando codificação de apagamento e de outros recursos. Software Ceph também faz parte do projeto OpenStack, através do qual as organizações de TI podem criar ambientes de nuvem privada e pública
Ceph tem um algoritmo CRUSH (replicação controlada sob hashing escalável), que determina como os dados são armazenados e recuperados. Ele funciona com uma distribuição (ponderada) pseudo-aleatório e uniforme e é capaz de estabelecer uma repartição homogênea de dados entre todos os discos e nós disponíveis.
A adição de novos dispositivos (HDDs ou nós) não tem impacto negativo sobre o mapeamento de dados, e novas unidades e nós podem ser adicionados sem criar gargalos de acesso ou pontos quentes, tornando o gerenciamento do sistema muito mais fácil.
Esta é uma conta simplificada. Qualquer Ceph, Gluster ou Lustre implantação é altamente complexo e merece um estudo mais aprofundado para decidir qual é o mais adequado para suas necessidades, se você for um usuário OpenStack, nuvem, TI e fornecedor de serviços de telecomunicações, transmissão de mídia de negócios, organização financeira ou do setor público com cresce lojas de documentos digitais, ou um negócio high-end com aplicações de análise / grandes de dados.
Opções de código aberto
Com o software de código aberto tais usuários podem implementar sistemas utilizando-se comprados separadamente hardware, servidores e armazenamento, por exemplo, e engrenar de software e componentes de hardware juntamente com o apoio de um departamento de TI qualificado.
Não há lock-in em todo este caso, mas a implantação do sistema, gestão e carga apoio é claramente na extremidade superior da escala.
Em alternativa, pode integrar um fabricante de software e hardware e fornecer sistemas acabados, bem como apoiá-los. O uso básico de Ceph significa que, em qualquer ponto do cordão umbilical pode ser cortado e você pode ligar para um fornecedor substituto ou escolhe-self-service completo em vez.
Eternus CD10000
Da Fujitsu Eternus CD10000 é tal produto de um fabricante. Baseia-se em nós de armazenamento com servidores de classe empresarial x86 e suporta até 224 nós de armazenamento em racks de 19 polegadas padrão para alcançar uma capacidade de até 56 petabytes - não tanto quanto 1EB possibilidade de Ceph, mas certamente em dezenas de petabytes área.
O CD10000 tem nós que podem ser vistas quase que arrays de armazenamento, com acesso aos seus conteúdos referenciados através de servidores de metadados sob o controle de um sistema de gestão central.
Os nós têm uma rede de interconexão de alta velocidade, 40Gbps InfiniBand. É usado para uma rápida distribuição de dados entre os nós e para reconstruir um jejum de redundância de dados depois de falhas de hardware.
Existem três tipos de nó de armazenamento. O primeiro é um nó básico com 12.6TB de armazenamento bruto de unidades de disco SAS 16 900GB 2.5in 10.000 rpm, auxiliados por uma PCIe unidade de estado sólido (SSD), ambas impulsionadas por software nó executando em dois processadores Intel Xeon e 128 GB RAM.
A capacidade utilizável depende do número de réplicas de dados necessários, por exemplo, dois ou três. Há dois links de 40 Gbps InfiniBand para outros nós mais dois links de acesso front-end 10GbitE.
Os SSDs são usados para acesso rápido de jornal e metadados e eles também funcionam como um cache de dados, o que evita a latência na arquitetura de armazenamento distribuído.
Os clientes podem ter nós de maior capacidade e nós de desempenho ainda mais elevados.
Um nó de capacidade de armazenamento utiliza 60 unidades de disco SATA 3.5in 7.200 rpm de velocidade média, mais 14 900GB drives SAS para fornecer 252.6TB de capacidade bruta. Nós de desempenho de armazenamento mais rápido são escolhidos, onde o acesso aos dados é uma prioridade. Eles têm um mix de mais rápido 10.000 rpm 2.5in discos SAS e dois SSDs PCIe ainda mais rápidas para fornecer 34.2TB de armazenamento bruto no total.
DIY ou uma alternativa contratada
Fujitsu fornece manutenção e suporte para o sistema todo, hardware e software, com atualizações e service packs para o desenvolvimento pós-compra. Isto oferece um meio-termo entre do-it-all-yourself, hardware originado separadamente e software open-source, por um lado, ea abordagem de hardware e software integrado de propriedade de outro.
Ceph, Lustre e Gluster tudo livrá-lo de software lock-in e deixá-lo passar de uma plataforma de hardware, uma vez que utilizam componentes de commodities, como servidores x86, mas ainda fornecer o suporte de serviço completo, uma garganta para-choke que irá atender clientes não desejando ou capazes de fazer tudo sozinhos.
Lustre e Gluster têm seus pontos fortes de acesso a arquivos, mais as vantagens objeto de back-end de ser escalável e auto-cura. Ceph tem escala essas vantagens muito mais ao nível exabyte, e fornece arquivos, bloco e de acesso a objetos.
Para obter os benefícios do código aberto que você tem que ligar-se a uma escolha única de software de armazenamento. Depois disso, você pode decidir sobre o total do-it-all-yourself aproximar ou pagar um fornecedor para segurar sua mão e fornecer o mesmo tipo de implantação e suporte que você obteria com hardware proprietário e software como o da IBM Elástico de Armazenamento ou WOS do DDN .
Você precisa de magia hábil para construir multi-petabytes repositórios de armazenamento de armazenamento de software open-source. Empregá-los diretamente ou acessá-los através de um fornecedor: a escolha é sua. ®