
SEC595: Data Science e Machine Learning aplicada para profissionais de segurança cibernética (36 CPE
R$100.000,00
Carga horária:
36 horas
Nível do curso:
Intermediário
Data Science, Inteligência Artificial e Machine Learning não são apenas as palavras-chave atuais, elas estão rapidamente se tornando uma das principais ferramentas em nosso arsenal de segurança da informação. O problema é que, a menos que você tenha um diploma em matemática ou ciência de dados, provavelmente estará à mercê dos fornecedores. Este curso desmistifica […]
Proposta
Se você precisa de uma proposta personalizada para se capacitar e/ou capacitar sua equipe, preencha o formulário e fale com nossos consultores.
Data Science, Inteligência Artificial e Machine Learning não são apenas as palavras-chave atuais, elas estão rapidamente se tornando uma das principais ferramentas em nosso arsenal de segurança da informação. O problema é que, a menos que você tenha um diploma em matemática ou ciência de dados, provavelmente estará à mercê dos fornecedores. Este curso desmistifica completamente o aprendizado de máquina e a ciência de dados. Mais de 70% do tempo da aula é gasto resolvendo problemas práticos de aprendizado de máquina e ciência de dados, em vez de apenas falar sobre elesAo contrário de outros cursos neste segmento, este curso é centrado diretamente na solução de problemas de segurança da informação. Onde outros cursos tendem a ser extremos, ensinando quase toda a teoria ou resolvendo problemas triviais que não se traduzem no mundo real, este curso atinge um equilíbrio. Cobrimos apenas a teoria e os fundamentos matemáticos que você absolutamente deve saber, e apenas na medida em que se aplicam às técnicas que então colocamos em prática. O curso introduz e aplica progressivamente várias ferramentas estatísticas, probabilísticas ou matemáticas (na sua forma aplicada), permitindo-lhe sair com a capacidade de usar essas ferramentas. Os projetos práticos abordados foram selecionados para fornecer a você uma ampla base para criar suas próprias soluções de aprendizado de máquina.Os principais tópicos abordados incluem: Aquisição de dados de SQL, armazenamentos de documentos NoSQL, web scraping e outras fontes comuns Exploração e visualização de dados Estatísticas descritivas Estatísticas inferenciais e probabilidade Inferência Bayesiana Aprendizado e agrupamento não supervisionados Redes neurais de aprendizado profundo Autoencoders Funções de perda Redes convolucionais Incorporando camadas
TODO CONTEÚDO DO CURSO É MINISTRADO EM INGLÊS.NOTA CRÍTICA: Os sistemas Apple que usam o processador M1 não podem realizar a virtualização necessária neste momento e não podem ser usados para este curso.Importante! Traga seu próprio sistema configurado de acordo com estas instruções!Um sistema configurado corretamente é necessário para participar totalmente deste curso. Se você não ler e seguir cuidadosamente estas instruções, provavelmente sairá insatisfeito da aula porque não poderá participar dos exercícios práticos essenciais para este curso. Portanto, recomendamos fortemente que você chegue com um sistema que atenda a todos os requisitos especificados para o curso.É fundamental que você faça backup do seu sistema antes da aula. também é altamente recomendável que você não traga um sistema que armazene dados confidenciais. Processador Intel i5/i7 2.0+ GHz de 64 bits “Intel-VT” ativado 16 GB RAM (8 GB mínimo) 60 GB de espaço livre no disco rígido A versão mais recente do Windows 10, macOS 11.x ou posterior ou Linux que também pode instalar e executar os produtos de virtualização VMware descritos abaixo. Nota: SANS não é capaz de suportar sistemas baseados em Mac M1 neste momento. Qualquer um dos seguintes (ou versões superiores) VMware Workstation Pro 16.x, VMware Player 16.x ou Fusion 12.x Tenha uma conta com privilégios de administrador localA mídia do seu curso será entregue via download. O arquivo de mídia da aula é grande, mais de 50 GB. Você precisa aguardar bastante tempo para que o download seja concluído. As conexões e a velocidade da Internet variam muito e dependem de muitos fatores diferentes. Portanto, não é possível dar uma estimativa do tempo que levará para baixar seus materiais. Inicie os downloads da mídia do curso assim que receber o link. Você precisará da mídia do curso imediatamente no primeiro dia de aula. Esperar até a noite anterior ao início da aula para iniciar o download tem uma grande probabilidade de falha.O SANS começou a fornecer materiais impressos em formato PDF. Além disso, algumas classes estão usando uma pasta de trabalho eletrônica além dos PDFs. O número de aulas usando eWorkbooks crescerá rapidamente. Neste novo ambiente, descobrimos que um segundo monitor e/ou um tablet pode ser útil para manter os materiais de aula visíveis enquanto o instrutor está apresentando ou enquanto você está trabalhando em exercícios de laboratório.
SEÇÃO 1: Aquisição, limpeza e manipulação de dadosEsta seção apresenta algumas das terminologias nos campos de ciência de dados e aprendizado de máquina, além de apresentar várias tecnologias usadas como fontes de dados.Como a primeira etapa em qualquer projeto de ciência de dados ou aprendizado de máquina é adquirir dados, o restante do dia é focado em exercícios práticos para preparar o aluno para essas tarefas. A aula examina o que os autoencoders fazem, por que funcionam, como selecionar uma representação latente e como funcionam as funções de perda de reconstrução. Esse conhecimento é aplicado na criação de uma solução automática de detecção de anomalias de log que não usa nenhuma assinatura ou intervenção humana para identificar anomalias.SEÇÃO 2: Exploração de dados e estatísticas Esta seção começa com os fundamentos de estatística importantes para ciência de dados e aprendizado de máquina. Após esta introdução e exercícios práticos que fornecem usos práticos para essas técnicas em dados do mundo real, o curso faz a transição para a teoria da probabilidade. A teoria da probabilidade é um campo extenso por si só. Após a introdução de alguns fundamentos, o curso trabalha diretamente para derivar o teorema bayesiano. Com base nesta introdução, os alunos participam de um laboratório prático que cria uma ferramenta de análise Bayesiana útil, na qual os alunos irão melhorar mais tarde no curso. O restante desta seção está traduzindo o conhecimento estatístico adquirido no campo da análise de sinais. Após uma discussão sobre a derivação e as aplicações da série de Fourier, da Transformação Rápida de Fourier e da Transformação Discreta de Fourier, os alunos usam essas ferramentas em uma atividade de caça a ameaças do mundo real.SEÇÃO 3: Fundamentos do Machine Learning – Parte IAs 18 horas de contato restantes deste curso são gastas aprendendo e aplicando imediatamente vários modelos de aprendizado de máquina. Depois que cada tópico é apresentado e discutido, os alunos se envolvem em longos laboratórios práticos para desenvolver uma compreensão intuitiva e aplicar a técnica a problemas reais. A seção começa com várias abordagens de agrupamento e aprendizado de máquina não supervisionado.A exploração começa com classificadores de vetores de suporte, funções de kernel e máquinas de vetores de suporte. Após esta discussão e exercícios, continuamos o tema de agrupamento considerando as abordagens K-Means e KNN. Depois de trabalhar com exemplos em apenas duas ou três dimensões, voltamos nossa atenção para os métodos para determinar o número ideal de clusters. Feito isso, finalmente exploramos aplicações de alta dimensão e redução de dimensionalidade por meio da Análise de Componentes Primários. O algoritmo DBSCAN é abordado com alguma profundidade, com aplicação feita para caçar ameaças e análise SOC eficiente de dados de grande escala. O restante desta seção é dedicado à discussão das Árvores de Decisão. Após uma atividade prática e discussão sobre as limitações das Árvores de Decisão, expandimos para Florestas Aleatórias e exploramos como elas fornecem melhores inferências na maioria dos casos. A seção termina com uma abordagem baseada em cluster para encontrar anomalias na atividade do usuário em uma redeSEÇÃO 4: Fundamentos do Machine Learning – Parte IITodo o foco desta seção está na teoria, desenvolvimento e uso de abordagens de aprendizado supervisionado no campo da segurança da informação. Com base na matemática e nas estatísticas abordadas na seção 2, esta seção começa com regressões lineares e termina com a aplicação de redes neurais de aprendizado profundo a problemas de classificação multiclasse envolvendo dados de rede em tempo real. O material é focado no uso de aprendizado de máquina supervisionado e matemática para criar modelos preditivos. A discussão inicial e os exercícios giram em torno da previsão e análise de tendências para detecção de anomalias. Depois disso, a maior parte do material se concentra em problemas de classificação. Com base na abordagem de Bayes usada na Seção 2, esta seção apresenta redes neurais de aprendizado profundo e redes densas totalmente conectadas por meio do desenvolvimento de uma rede de detecção de phishing muito mais precisa. Em seguida, o curso explora a visualização e medição do desempenho do treinamento da rede neural, além de discutir o overfitting, o overtraining e como identificá-los (e evitá-los). A próxima parte desta seção se volta para problemas categóricos, durante os quais os alunos construirão um sistema de classificação de protocolo de rede em tempo real. Mais importante ainda, os alunos irão implementar a detecção de anomalias neste sistema de classificação, uma tarefa normalmente reservada para abordagens não supervisionadas.SEÇÃO 5: Fundamentos do Machine Learning – Parte IIIEsta seção do curso é dedicada a expandir o conhecimento dos alunos sobre soluções de aprendizagem profunda. A primeira metade da seção é focada inteiramente em redes convolucionais (CNNs). A aula explora a aplicação de CNNs para problemas de classificação de texto, mas também para identificação preditiva de malware de dia zero. A segunda metade desta seção do curso se concentra em autoencoders.A aula examina o que os autoencoders fazem, por que funcionam, como selecionar uma representação latente e como funcionam as funções de perda de reconstrução. Esse conhecimento é aplicado na criação de uma solução automática de detecção de anomalias de log que não usa nenhuma assinatura ou intervenção humana para identificar anomalias Com base nisso, os alunos trabalham nos blocos de construção de um codificador automático de conjunto em larga escala para detectar ameaças de rede.SEÇÃO 6: Fundamentos do Machine Learning – Parte IVA seção final deste curso continua discutindo Redes Neurais Convolucionais e a aplicação de CNNs e redes totalmente conectadas para resolver problemas de regressão. O foco principal desta seção é a criação de uma rede neural profunda usando o padrão funcional do TensorFlow para testar a qualidade e resolver CAPTCHAs. Esteja você em um Read Team, Blue Team ou Purple Team, aprenderá como pensar e usar o aprendizado de máquina para resolver o que equivale a um problema de visão computacional e resolvê-lo com mais de 95% de precisão! Depois disso, exploramos uma maneira diferente de pensar sobre o problema que resulta em uma precisão ainda maior com muito menos tempo de treinamento. A parte final da seção investiga Algoritmos Genéticos como eles podem ser aplicados a problemas de aprendizado de máquina.
Este curso não tem pré-requisitos e presume, apenas, que o aluno tem conhecimento básico sobre computadores e segurança cibernética.
Ao final do curso, o (a) aluno (a) será capaz de: Aplicar modelos estatísticos a problemas do mundo real de maneiras significativas Gerar visualizações de seus dados Realizar uma busca de ameaças baseada em matemática em sua rede Compreender e aplicar métodos de aprendizado/cluster não supervisionados Construir Redes Neurais de Aprendizagem Profunda Construir e entender Redes Neurais Convolucionais Compreender e construir algoritmos de pesquisa genética Construir ferramentas de detecção de anomalias utilizando IA Modelar problemas de segurança da informação de maneiras úteis Construir painéis de visualização úteis Resolver problemas com redes neurais