LANCAMENTO · ARXIV CS.CL · 15 DE MAI DE 2026

VectraYX-Nano: Modelo de Linguagem Espanhol para Cibersegurança Focado na América Latina

Um novo modelo de IA com foco em segurança, treinado em espanhol, busca atender necessidades específicas da região.

Por Pulso da IA · 15 de mai de 2026 · 3 min de leitura
VectraYX-Nano: Modelo de Linguagem Espanhol para Cibersegurança Focado na América Latina
Imagem: arxiv.org

Pesquisadores apresentaram o VectraYX-Nano, um modelo de linguagem de 42 milhões de parâmetros treinado do zero em espanhol, com ênfase em cibersegurança e funcionalidades nativas para uso de ferramentas. O projeto visa preencher lacunas no mercado de IA em língua espanhola para o setor.

O que aconteceu

Um novo modelo de linguagem, o VectraYX-Nano, foi desenvolvido e anunciado em um artigo no arXiv. Este modelo de 41.95 milhões de parâmetros é um decoder-only Transformer, treinado especificamente em língua espanhola e com um foco claro em aplicações de cibersegurança. Uma característica distintiva do VectraYX-Nano é sua capacidade de invocar ferramentas de forma nativa, utilizando o Model Context Protocol (MCP).

O desenvolvimento se baseou em quatro pilares principais. Primeiro, a criação de um corpus especializado, o VectraYX-Sec-ES, composto por 170 milhões de tokens. Este corpus foi construído a partir de uma pipeline de oito máquinas virtuais, com um custo estimado de cerca de 25 dólares. Ele foi dividido em fases: conversacional (42 milhões de tokens, extraídos de fontes como OpenSubtitles-ES e OASST1), cibersegurança (118 milhões de tokens, incluindo dados do NVD, Wikipedia-ES, um espelho de CVEs e blogs de segurança) e tooling ofensivo (10 milhões de tokens, provenientes de ExploitDB, HackTricks e OWASP).

Segundo, a arquitetura do modelo emprega um Transformer decoder de 42 milhões de parâmetros com otimizações como GQA, QK-Norm, RMSNorm, SwiGLU, RoPE e z-loss, além de um tokenizador BPE com byte-fallback e um tamanho de contexto de 16.384 tokens. Terceiro, o treinamento utilizou um método de currículo com replay, permitindo um pré-treinamento contínuo. A pesquisa completa pode ser encontrada em arXiv cs.CL.

Por que importa

A criação de modelos de IA em línguas que não o inglês é crucial para democratizar o acesso e a aplicação dessas tecnologias globalmente. No contexto brasileiro e latino-americano, um modelo treinado em espanhol com foco em cibersegurança pode oferecer vantagens significativas. A maioria das ferramentas e pesquisas em segurança cibernética é predominantemente em inglês, o que pode criar barreiras para profissionais e empresas que operam primariamente em português ou espanhol.

O VectraYX-Nano, ao ser treinado com um corpus que inclui informações de fontes de segurança específicas para a região e ferramentas de ataque, pode ser mais eficaz na identificação de ameaças e vulnerabilidades relevantes para o cenário local. A capacidade de invocar ferramentas nativamente também simplifica a integração com fluxos de trabalho existentes em equipes de segurança, potencialmente acelerando a resposta a incidentes e a análise de riscos. Isso pode reduzir custos de adaptação e aumentar a eficiência operacional.

O que esperar

O VectraYX-Nano representa um passo importante na direção de IA mais inclusiva e especializada. O foco em um corpus latino-americano para cibersegurança é promissor para o desenvolvimento de soluções mais alinhadas com as realidades e os desafios enfrentados na região. Espera-se que o modelo possa ser utilizado para tarefas como análise de logs, detecção de anomalias, geração de relatórios de vulnerabilidade e até mesmo auxílio em testes de penetração, tudo em espanhol.

A pesquisa detalha o processo de treinamento e a arquitetura, abrindo caminho para futuras melhorias e expansões. A metodologia de currículo com replay sugere um caminho para o aprendizado contínuo e a adaptação do modelo a novas ameaças e técnicas de segurança. A comunidade de cibersegurança na América Latina pode se beneficiar significativamente desta iniciativa, impulsionando a inovação e a colaboração. Para mais detalhes sobre a arquitetura e o corpus, consulte o artigo original.

FONTE OFICIAL
ArXiv cs.CL
15 DE MAI DE 2026 · arxiv.org
Leia o original
PULSO SEMANAL

Recebe no inbox toda quinta.

Top 5 da semana de IA em portugues, em 3 minutos de leitura. Zero spam.

Inscrito. Proxima quinta, 9h, chega no teu inbox.