Pesquisadores apresentaram o VectraYX-Nano, um modelo de linguagem de 42 milhões de parâmetros treinado do zero em espanhol, com ênfase em cibersegurança e funcionalidades nativas para uso de ferramentas. O projeto visa preencher lacunas no mercado de IA em língua espanhola para o setor.
O que aconteceu
Um novo modelo de linguagem, o VectraYX-Nano, foi desenvolvido e anunciado em um artigo no arXiv. Este modelo de 41.95 milhões de parâmetros é um decoder-only Transformer, treinado especificamente em língua espanhola e com um foco claro em aplicações de cibersegurança. Uma característica distintiva do VectraYX-Nano é sua capacidade de invocar ferramentas de forma nativa, utilizando o Model Context Protocol (MCP).
O desenvolvimento se baseou em quatro pilares principais. Primeiro, a criação de um corpus especializado, o VectraYX-Sec-ES, composto por 170 milhões de tokens. Este corpus foi construído a partir de uma pipeline de oito máquinas virtuais, com um custo estimado de cerca de 25 dólares. Ele foi dividido em fases: conversacional (42 milhões de tokens, extraídos de fontes como OpenSubtitles-ES e OASST1), cibersegurança (118 milhões de tokens, incluindo dados do NVD, Wikipedia-ES, um espelho de CVEs e blogs de segurança) e tooling ofensivo (10 milhões de tokens, provenientes de ExploitDB, HackTricks e OWASP).
Segundo, a arquitetura do modelo emprega um Transformer decoder de 42 milhões de parâmetros com otimizações como GQA, QK-Norm, RMSNorm, SwiGLU, RoPE e z-loss, além de um tokenizador BPE com byte-fallback e um tamanho de contexto de 16.384 tokens. Terceiro, o treinamento utilizou um método de currículo com replay, permitindo um pré-treinamento contínuo. A pesquisa completa pode ser encontrada em arXiv cs.CL.
Por que importa
A criação de modelos de IA em línguas que não o inglês é crucial para democratizar o acesso e a aplicação dessas tecnologias globalmente. No contexto brasileiro e latino-americano, um modelo treinado em espanhol com foco em cibersegurança pode oferecer vantagens significativas. A maioria das ferramentas e pesquisas em segurança cibernética é predominantemente em inglês, o que pode criar barreiras para profissionais e empresas que operam primariamente em português ou espanhol.
O VectraYX-Nano, ao ser treinado com um corpus que inclui informações de fontes de segurança específicas para a região e ferramentas de ataque, pode ser mais eficaz na identificação de ameaças e vulnerabilidades relevantes para o cenário local. A capacidade de invocar ferramentas nativamente também simplifica a integração com fluxos de trabalho existentes em equipes de segurança, potencialmente acelerando a resposta a incidentes e a análise de riscos. Isso pode reduzir custos de adaptação e aumentar a eficiência operacional.
O que esperar
O VectraYX-Nano representa um passo importante na direção de IA mais inclusiva e especializada. O foco em um corpus latino-americano para cibersegurança é promissor para o desenvolvimento de soluções mais alinhadas com as realidades e os desafios enfrentados na região. Espera-se que o modelo possa ser utilizado para tarefas como análise de logs, detecção de anomalias, geração de relatórios de vulnerabilidade e até mesmo auxílio em testes de penetração, tudo em espanhol.
A pesquisa detalha o processo de treinamento e a arquitetura, abrindo caminho para futuras melhorias e expansões. A metodologia de currículo com replay sugere um caminho para o aprendizado contínuo e a adaptação do modelo a novas ameaças e técnicas de segurança. A comunidade de cibersegurança na América Latina pode se beneficiar significativamente desta iniciativa, impulsionando a inovação e a colaboração. Para mais detalhes sobre a arquitetura e o corpus, consulte o artigo original.