Armazenamento em camadas é uma maneira de atribuir diferentes categorias de dados a vários tipos de mídia de armazenamento, com o objetivo de reduzir o custo total do armazenamento. Uma arquitetura de armazenamento em camadas coloca os dados em uma hierarquia de acordo com seu valor comercial. As camadas são determinadas pelo desempenho e pelo custo da mídia, e os dados são classificados pela frequência com que os usuários acessam. Geralmente, os dados mais importantes são fornecidos a partir da mídia de armazenamento mais rápida, geralmente a mais cara.
Em uma configuração básica, uma camada rápida de armazenamento flash oferece desempenho, enquanto outros dados são gravados no armazenamento secundário em disco, fita ou na nuvem. Os dados que precisam ser mantidos indefinidamente são mantidos em uma camada de arquivamento.
A classificação por camadas é uma etapa de uma cadeia de atividades governadas pelo gerenciamento do ciclo de vida da informação (ILM).
A evolução do uso de camadas
A IBM foi pioneira em arquiteturas de armazenamento em várias camadas para uso em seus computadores mainframe. Quando foi concebido, o armazenamento em camadas envolvia a colocação de dados de produção primários em várias configurações dos discos rígidos Serial-Attached SCSI (SAS) e Serial Advanced Technology Attachment (SATA). Os dados eram gravados em blocos de discos, usando técnicas como short stroking e striping em uma estrutura redundante de discos independentes (RAID).
O método alcançou sua popularidade há vários anos, quando os SSDs foram introduzidos pela primeira vez como uma maneira de combinar as vantagens de desempenho do flash com o custo mais baixo dos HDDs. No entanto, como o custo do flash diminuiu e a eficiência do SSD aumentou, mais empresas passaram para o armazenamento totalmente flash e os sistemas com várias camadas se tornaram menos populares.
Com a incorporação do Aprendizado de Máquina e de Inteligência Artificial, para aproveitar os benefícios de custo e desempenho das novas tecnologias SSD e de classes de armazenamento, o armazenamento em camadas está sendo novamente considerado por muitas organizações.
Atualmente, temos diferentes tipos de SSDs com diferentes níveis de desempenho e custo, uma variedade de interfaces flash SSD de NVMe de alta largura de banda e baixa latência a SATA de baixa largura de banda e alta latência, e uma próxima geração de tecnologia de classe de memória de armazenamento. O uso de camadas está reaparecendo à medida que as empresas buscam capitalizar as vantagens de custo e desempenho de toda essa nova tecnologia.
Fator determinante: ciclo de vida da informação
Como falamos anteriormente, o uso de camadas de armazenamento é um mecanismo baseado no gerenciamento do ciclo de vida da informação, que combina o valor dos dados com o preço e desempenho da camada correta de armazenamento. Conforme os dados envelhecem e a frequência de acesso diminui, eles perdem valor e passam de um nível de desempenho mais alto e uma camada com custo mais alto, como os SSDs, para uma camada de desempenho mais baixo e custo mais baixo, como os HDDs.
Estudos demonstraram que a maioria dos acessos aos dados costuma ocorrer nas primeiras 72 horas após a sua criação, caindo constantemente depois disso. A quantidade de acesso geralmente cai vertiginosamente após 30 dias. Existem exceções, mas essa geralmente é a regra. O tempo desde o último acesso, o tempo desde a última modificação e o tempo desde a criação são os indicadores relacionadas à idade mais comuns no armazenamento em camadas.
Tradicionalmente, os softwares de armazenamento em camadas colocam ou movem os dados com base nos limites definidos na política de armazenamento. As camadas de armazenamento de alto desempenho e custo mais alto ficam reservadas para os dados de maior valor. Os dados são movidos do nível de desempenho primário para um nível mais baixo à medida que esfriam. Como pode haver várias camadas formadas por SSDs, HDDs rápidos e HDDs de capacidade, os dados podem ser movidos várias vezes.
Como o custo do flash diminuiu, o diferencial de custo entre SSDs flash e HDDs rápidos diminuiu significativamente. Além disso, as capacidades de SSD cresceram rapidamente, os sistemas de armazenamento tornaram-se totalmente flash e os sistemas de armazenamento em várias camadas caíram em desuso.
Entretanto, a situação relacionada com as camadas mudou, com a proliferação de vários tipos de SSDs flash, incluindo célula multinível, MLC 3D, célula 3D de nível triplo (TLC) e células 3D de nível quádruplo (QLC). À medida que o número de bits por célula aumenta, o desempenho e a vida útil diminuem. Essas diferenças levaram os fabricantes a fornecer uma infinidade de diferentes SSDs flash. Cada um possui um equilíbrio exclusivo de latência, IOPS, taxa de transferência, capacidade, vida útil e custo. Eles são muito diferentes um do outro.
Tomemos, por exemplo, os mais recentes SSDs de QLC 3D de alta capacidade e baixo custo. Como os SSDs QLC 3D têm um décimo da vida útil dos SSDs 3D TLC e um centésimo da vida útil dos SSDs 3D MLC, eles não são adequados para aplicativos com uso intenso de gravação. Eles são muito melhores para aplicativos de leitura intensiva que não afetam a vida útil. Mais uma vez, os administradores de armazenamento se deparam com o difícil problema de gerenciar diferentes preços e desempenho das camadas de armazenamento.
Além disso, existem diferentes interfaces SSD flash para escolher, que variam de NVMe de alta largura de banda e baixa latência até SAS de menor largura de banda, maior latência e menor custo e SATA de largura de banda ainda menor, maior latência e menor custo. Como essas interfaces afetam o desempenho e o custo, ser totalmente flash não significa mais uma única camada de desempenho de armazenamento.
A camada de memória por classe de armazenamento
A próxima geração de SSDs baseados em memória de classe de armazenamento (SCM), incluindo Optane 3D XPoint, resistive RAM, spin-transfer torque RAM, nano-RAM e magnetoresistive RAM está adicionando mais uma camada de desempenho de armazenamento. Os SSDs SCM têm latências mais baixas, IOPS mais altos, maior taxa de transferência e maior vida útil do que o flash. A maioria também está seguindo o caminho da interface NVMe. No entanto, o SCM custa consideravelmente mais do que as tecnologias de armazenamento existentes.
Atualmente, tirar o máximo proveito dos vários SSDs flash e SCM sem sobrecarregar o orçamento de armazenamento requer o uso de camadas. As abordagens mais eficazes contam com os mais recentes avanços no aprendizado de máquina de Inteligência Artificial, que se adaptam às novas circunstâncias e fazem o melhor uso de diferentes níveis de desempenho. A classificação por níveis de armazenamento pode ser parte integrante de um sistema de armazenamento externo, armazenamento definido por software ou um aplicativo de armazenamento separado.
Onde o armazenamento em nuvem se encaixa
Há outro problema de armazenamento em camadas: o armazenamento em nuvens públicas e privadas se tornou cada vez mais importante, mas a classificação em camadas eficiente e econômica do armazenamento em nuvem não é fácil. O problema é como mover dados de baixo custo do armazenamento de datacenter de alto custo para o armazenamento em nuvem pública ou privada de baixo custo.
O uso de camadas entre diferentes tipos de armazenamento, fornecedores, tecnologias e nuvens, conhecido como classificação por armazenamento entre sistemas, tem seus próprios desafios. A abordagem mais popular tem sido o uso de tecnologias de gerenciamento de armazenamento hierárquico (HSM), que ainda é usado por gateways de armazenamento em nuvem, sistemas de armazenamento e armazenamento definido por software. A tecnologia foi projetada para ambientes de LAN, não para a nuvem e, especialmente, para armazenamento em nuvem pública.
O HSM é baseado em componentes stub. Os dados movidos de um sistema para outro são excluídos do sistema original e substituídos por um pequeno código chamado stub.
Quando os dados são acessados, esse acesso é feito na prática ao stub, que recupera os dados do seu local de armazenamento atual e os reidrata de volta ao seu armazenamento original. Quando usado com a nuvem, o HSM é lento e caro. Sempre que os dados são reidratados no armazenamento primário rápido original, são registradas taxas de saída da nuvem, que podem aumentar rapidamente. Embora o armazenamento em nuvem possa ser bastante barato, as taxas de saída envolvidas no uso do HSM pode elevar bastante o custo.
Depois, há a questão da fragilidade do stub. Se os dados forem movidos pela segunda vez para um repositório de armazenamento diferente, o stub do HSM será interrompido porque não poderá encontrar os dados, causando outro conjunto de problemas.
Uma nova abordagem para as camadas de armazenamento
Ao combinar camadas com armazenamento em nuvem pública ou privada, grande parte do foco está nos dados não estruturados. A IDC estima que os dados não estruturados representam cerca de 80% dos dados de uma organização, com uma taxa de crescimento anual de aproximadamente três vezes a dos dados estruturados. A maioria das novas ferramentas de pesquisa e análise de dados também priorizam os dados não estruturados.
Essa abordagem moderna de armazenamento em camadas é chamada de gerenciamento de dados ou gerenciamento autônomo de dados, quando casada com a tecnologia de aprendizado de máquina da IA. Os softwares de classificação por camadas para gerenciamento de dados, como ClarityNow, Hammerspace, Komprise e StrongBox Data Solution’s StrongLink, suportam sistemas de armazenamento primário baseados em objetos ou arquivos SSD, todos em flash, de alto desempenho e com privilégios de administrador.
Isso permite que o software de classificação por camadas leia os dados e os copie para o armazenamento em nuvem pública ou privada, com base em políticas de classificação por armazenamento, enquanto insere um espaço para um nome global. O espaço para o nome global torna a mudança transparente para os usuários e aplicativos. Os dados são lidos e acessados onde residem. Nenhuma reidratação é necessária e pode ser excluída do armazenamento original.
Outros produtos de gerenciamento de dados, como o InfiniteIO, ficam à frente do armazenamento rápido de SSD e do armazenamento em nuvem pública ou privada e parecem um interruptor. Essa abordagem funciona com dados estruturados e não estruturados.
Conclusão
O armazenamento em camadas tem um grande potencial em um ambiente em que as empresas estão sob pressão para obter informações úteis a partir das grandes quantidades de dados que coletam regularmente. Dados que continuarão crescendo em volume e velocidade. O armazenamento em camadas traz otimizações de custos, que podem garantir que as organizações alcancem o equilíbrio certo entre desempenho, capacidade e custo em seus clusters de big data.
Um processo global eficaz de classificação em camadas depende em grande parte da automação da movimentação de dados na infraestrutura de armazenamento. Se a TI estiver gastando muito tempo classificando manualmente os dados em camadas ou não classificando em camadas porque leva muito tempo, a empresa não verá o valor da classificação por armazenamento.
A classificação automatizada de níveis de armazenamento em função do ciclo de vida dos dados é uma necessidade real para obter o valor que a empresa pode obter com o armazenamento de dados em longo prazo.