Olá, seja muito bem-vindo (a) ao meu portfólio de projetos de Ciência de Dados.

Nessa página, eu demonstro minhas habilidades de resolver problemas de negócio utilizando conceitos e ferramentas da Ciência de Dados, através de projetos com dados públicos.
Você vai encontrar também, minhas experiências profissionais, habilidades, ferramentas, certificações Google Cloud e conceitos envolvendo Ciência de Dados e Engenharia de Software.
Sinta-se à vontade para entrar em contato através dos links no final da página.

Sobre mim

Meu nome é Luis Henrique,

Sou estudante do 7 período de Ciência da computação na UFPI e estudo sobre tópicos fundamentais sobre Ciência de dados e Machine Learning.

Atualmente, sou estagiário de Machine Learning na SantoDigital, onde utilizo a Google Cloud Platform (GCP) para desenvolver soluções avançadas de Inteligência Artificial Generativa e Machine Learning para diversos clientes. Minha atuação abrange desde a implementação de modelos preditivos até a criação de pipelines automatizadas para otimizar processos de negócios. Além disso, contribuo significativamente para o nosso produto interno, realizando melhorias contínuas no modelo classificador em produção, garantindo alta precisão e eficiência.

Atualmente, integro um projeto que envolve o Governo do Estado do Piauí, através da Secretaria de Segurança Pública, e a Fundação Cultural e de Fomento à Pesquisa, Ensino, Extensão e Inovação – FADEX. O projeto visa desenvolver soluções para melhorar o gerenciamento e a utilização dos recursos e dados da Secretaria. Utiliza técnicas de Inteligência Artificial (IA), na modalidade Processamento de Linguagem Natural (PLN), para análise de boletins de ocorrência e integração com chatbots nos serviços de atendimento à população.

Para adquirir experiência na solução de problemas de negócio e domínio sobre as ferramentas de análise de dados, constantemente realizo e atualizo projetos já feitos, a fim de potencializar as métricas adotadas no processo.

Habilidades

Linguagens de Programação e Banco de Dados

Python com foco em análise de dados
Web scraping com Python
SQL para extração de dados
Banco de Dados SQLite, Postgres, MySQL, DataGrip, MongoDB
C / Java

Estatística e Machine Learning

Estatística descritiva ( localização, dispersão, assimetria, kurtosis, densidade )
Algoritmos de Regressão, classificação, clusterização e "learn to rank"
Técnicas de balanceamento dos dados, seleção de atributos e redução de dimensionalidade
Métricas de performance dos algoritmos ( RMSE, MAE, MAPE, Confusion Matrix, Precisão, Recall, Curva ROC, Curva Lift, AUC, Silhouette Score, DB-Index )
Pacotes de Machine Learning: Sklearn e Scipy

Visualização de Dados

Matplotlib, Seaborn, Plotly e Bokeh
Power BI, Tableau, Metabase e Looker

Engenharia de Software

Git, Github, Gitlab, Cookiecutter, Virtual Environment e Docker
Streamlit, Flask, Python API's
Cloud Render, AWS Amazon, Google Cloud Platform ( GCP ) e Azure

Experiências Profissionais

Engenheiro de Machine Learning na SantoDigital

Entrei como estagiário e, posteriormente, promovido para Engenheiro de Machine Learning na SantoDigital. Durante o dia a dia, utilizo a Google Cloud Platform (GCP) para desenvolver soluções avançadas de Inteligência Artificial Generativa e Machine Learning para diversos clientes. Minha atuação abrange desde a implementação de modelos preditivos até a criação de pipelines automatizadas para otimizar processos de negócios. Além disso, contribuo significativamente para o nosso produto interno, realizando melhorias contínuas no modelo classificador em produção, garantindo alta precisão e eficiência.

Pesquisador Científico

Integro um projeto que envolve o Governo do Estado do Piauí, através da Secretaria de Segurança Pública, e a Fundação Cultural e de Fomento à Pesquisa, Ensino, Extensão e Inovação – FADEX. O projeto visa desenvolver soluções para melhorar o gerenciamento e a utilização dos recursos e dados da Secretaria. Utiliza técnicas de Inteligência Artificial (IA), na modalidade Processamento de Linguagem Natural (PLN), para análise de boletins de ocorrência e integração com chatbots nos serviços de atendimento à população.

Cientista de dados aprendiz na Comunidade DS

Comunidade profissional focada em conceitos da área de Ciência de Dados e Machine Learning com o objetivo de desenvolver habilidades analíticas requisitadas no mercado de trabalho.

Monitor bolsista na disciplina de Circuitos Digitais

Correção de provas, exercícios e solução de dúvidas dos alunos.

Vários Projetos completos de Ciência de Dados

Construção de soluções de dados para problemas de negócio, próximos dos desafios reais das empresas, utilizando dados públicos de competições de Ciência de Dados, onde eu abordei o problema desde a concepção do desafio de negócio até a publicação do algoritmo treinado em produção, utilizando ferramentas de Cloud Computing.

Projetos em Ciência de Dados

Previsão de Vendas para a rede de farmácias Rossmann 💵

Projeto idealizado com o objetivo de desenvolver um modelo de Machine Learning de Regressão capaz de realizar a previsão de vendas pelas próximas 6 semanas da rede de farmácias Rossmann, de modo que o CFO provisione o valor que será investido por cada unidade de loja em um futuro processo de reforma. Como resultado final, tivemos umas predição do valor de venda de R$ 286,988,384.00 podendo variar entre R$ 287,742,483.83 ( Melhor cenário ) e R$ 286,234,315.47 ( Pior cenário ).

As ferramentas utilizadas foram:

Git, Gitlab e Github
Python, Pandas, Matplotlib e Seaborn
Jupyter Notebook
Random Forest Regressor, XGBoost Regressor, Cross Validation
Conexão com Bot no Telegram via API
Render Cloud

Saiba mais

Previsão do Churn de clientes da empresa bancária TopBank 🔥

Projeto idealizado com o objetivo de desenvolver um modelo de Machine Learning de Classificação capaz de realizar a previsão do churn dos clientes da empresa TopBank, de modo que haja a maximização do ROI ( Return on Investiment ) por meio de estratégias estabelecidas após a análise profunda do problema. Como resultado final, obtivemos um valor de lucro, como média entre os cenários analisados, de R$ 2.785.202,00, o que representa um ROI de 361%.

As ferramentas utilizadas foram:

Git, Gitlab e Github
Python, Pandas, Matplotlib e Seaborn
Análise de gráficos como Confusion Matrix, Curva ROC, Curva de Ganho Acumulativo e Curva Lift
Jupyter Notebook
Power BI
Random Forest Classifier e XGBoost Classifier
Render Cloud

Saiba mais

Análise de Sentimentos: Detecção de Manchetes de Notícias Sarcásticas 📰

Nesse projeto, uma empresa de comunicação nomeada como BuzzFeed busca maneiras de realizar o diagnóstico de sarcasmo em suas manchetes de notícias, de modo a evitar possíveis desentendimentos dos leitores em algumas manchetes sarcásticas. Para cumprir o objetivo, foi utilizado técnicas de Processamento de Linguagem Natural (PLN) e Machine Learning, como o Word2Vec Embedding e Redes Neurais Recorrentes LSTM Bidirecionais. O modelo final escolhido apresentou excelentes métricas, como uma acurácia e AUC de 83%. Ademais, a consulta para detecção de títulos sarcásticos pode ser feita via Streamlit.

As ferramentas utilizadas foram:

Git, Gitlab e Github
Python, Pandas, Matplotlib, Seaborn e WordCloud
Jupyter Notebook
Lemmatization e Word2Vec Embedding
MaxPooling1D e Bidirectional LSTMs
Aprendizado profundo
Análise de gráficos como Confusion Matrix e Curva ROC
Streamlit Cloud

Saiba mais

Programa VIP - Segmentação de clientes utilizando técnicas de Clusterização 🧍🏻

Projeto realizado com o foco na determinação do grupo de clientes mais relevantes financeiramente para um e-commerce de acordo com as definições modelo RFM. Nesse sentido, foram utilizados diversas técnicas de Clusterização em Machine Learning. Os produtos de dados desenvolvidos foram uma lista com a dados de todos os clientes e seus clusters, um relatório com questões abordadas pelo time de marketing e um dashboard no Metabase alimentado com dados atualizados através de serviços da AWS. A solução desenvolvida apresenta um grupo, formado por 7,2% da base de clientes, que detem 40,20% do faturamento total da empresa, e um faturamento médio de $15.332.

As ferramentas utilizadas foram:

Git e Github
Python, Pandas, Matplotlib, Seaborn e SilhouetteVisualizer
Conceitos do modelo RFM
Técnicas de Redução de Dimensionlidade (PCA, UMAP, t-SNE e Tree-based Embedding)
Algoritmos de Clusterização (K-Means, Gaussian Mixture Model, Hierarchical Clustering e DBSCAN)
Métricas de Performance de Algoritmos (Silhouette Score)
Jupyter Notebook
AWS Cloud, SQLite e Metabase

Saiba mais

Sistema de Recomendação de Livros no Streamlit 📚

Projeto com objetivo de construir um sistema de recomendação de livros baseado no comportamento e preferências de cada usuário no que diz respeito ao histórico de compras e interações com livros. Foi utilizado técnicas de recomendação e Machine Leaning, como NearestNeighbours e Cossine Similarity. O modelo final escolhido foi a técnica de similaridade de cossenos, por ser mais simples ( não requer treinamento ) e apresentar alta eficiência computacional. A visualização de nomes e imagens de livros recomendados pode ser vista via Streamlit.

As ferramentas utilizadas foram:

Git e Github
Python, Pandas, Matplotlib, Seaborn
Nearest Neighbors
Cossine Similarity
Jupyter Notebook
Streamlit Cloud

Saiba mais

Ranqueamento de Clientes para uma empresa de Seguros 🚙

Projeto idealizado com o objetivo de ajudar uma empresa de seguros de saúde no ranqueamento dos principais clientes em potencial para comprar um novo tipo de seguro para a empresa ( carro ) e, portanto, fazer um Cross-Sell. Para tanto, foi utilizado técnicas de Machine Learning e Learn to Rank, de modo que seja possível a consulta de uma lista de clientes com maior probabilidade de adquirir o seguro de carro via Google Sheets, facilitando a estratégia de comunicação da empresa e otimizando seu negócio. Por fim, decidiu-se por fazer ligações apenas para uma parte da base de clientes com maior propensão de compra ( 46% ) e o lucro total foi de R$3.878.010,00, o que representa uma solução 1.44 vezes melhor do que ligar para 100% da base.

As ferramentas utilizadas foram:

Git e Github
Python, Pandas, Matplotlib e Seaborn
Técnicas de Learn to Rank
Random Forest Classifier e XGBoost Classifier
Otimização de parâmetros com Optuna
Google Sheets
Render Cloud

Saiba mais

Previsão da elasticidade de preço dos produtos de um e-commerce e visualização de possíveis cenários no Streamlit 📈

Projeto idealizado com o objetivo de estudar o conceito de elasticidade de preços e, portanto, a profunda relação entre demanda e preço dos produtos. Nesse sentido, foi desenvolvido um modelo de Machine Learning relacionado à regressão linear, capaz de prever o quanto é aceitável aumentar/diminuir o valor dos produtos, impactando a demanda, para tentar saber se conseguiríamos aumentar a receita. A visualização dos possíveis cenários após um desconto ou aumento no preço podem ser visualizados via Streamlit.

As ferramentas utilizadas foram:

Git e Github
Python, Pandas, Matplotlib, Seaborn e Statsmodels
Conceitos de Estatística
Análise de gráficos como barcharts
Regressão linear
Jupyter Notebook
Streamlit Cloud

Saiba mais

Desenvolvimento de um Dashboard Gerencial para um Marketplace de restaurantes Indiano com o Streamlit 🍴

Nesse projeto, os conceitos de Programação em python, manipulação de dados, pensamento estratégico e lógica de negócio, junto com ferramentas de desenvolvimento web como o Streamlit e Github, foram usados para desenvolver um painel gerencial com as principais métricas de uma empresa de marketplace de comida. O resultado final do projeto foi um painel hospedado em um ambiente Cloud que auxilia o CEO nas possíveis tomadas de decisão por meio de insights gerados a partir da análise. O projeto é disponibilizado através de um link. O painel pode ser acessado por qualquer dispositivo conectado na internet.

As ferramentas utilizadas foram:

Git e Github
Python, Pandas, Matplotlib, Seaborn e Plotly
Conceitos de ETL
Análise de gráficos como Sunburn, pie and barchart
Jupyter Notebook
Streamlit Cloud

Saiba mais

MyGameHub: Seu Hub Definitivo para o Mundo dos Jogos 🕹️

Nesse projeto, desenvolvi uma aplicação web utilizando Streamlit, focada em fornecer uma experiência completa para entusiastas de games. A aplicação foi construída com uma stack que inclui Python, Streamlit e frameworks para manipulação de LLMs, como o LangChain. O principal produto desenvolvido foi um chatbot com Gen AI e RAG, capaz de responder dúvidas e fornecer recomendações sobre os jogos mais populares na Steam. A aplicação também integra análise de sentimento utilizando modelos pré-treinados para avaliar as reviews dos usuários. Além disso, o projeto inclui funcionalidades de registro de reviews, consulta de notícias atualizadas sobre o mundo dos games, e um sistema seguro de login/registro com armazenamento de dados no banco de dados PostgreSQL, garantindo uma experiência fluida e integrada para os usuários.

As ferramentas utilizadas foram:

Git e Github
Python, Pandas, Matplotlib e Plotly
Streamlit
LangChain, OpenAI e Transformers
PostgreSQL
Streamlit Cloud

Saiba mais

Paris Housing Price Prediction Pipeline 🏠

Neste projeto, desenvolvi uma pipeline para desenvolvimento de um modelo preditivo capaz de estimar os preços de casas em Paris, utilizando uma abordagem baseada em machine learning. A aplicação foi construída utilizando Python e frameworks como Scikit-Learn, PyCaret, Pandas e KubeFlow para manipulação de dados e desenvolvimento do modelo. A pipeline de machine learning foi projetada para processar dados históricos de preços, características dos imóveis e dados demográficos, visando prever o valor de mercado das propriedades. O modelo foi treinado e otimizado para alcançar alta acurácia, alcançando excelentes valores em métricas como MAE, MSE e R2. Além disso, foi implementado um fluxo de CI/CD para treinamento contínuo do modelo, utilizando serviços do Google Cloud Platform como Cloud Functions para garantir a escalabilidade e a disponibilidade do serviço.

As ferramentas utilizadas foram:

Git e Github
Python e Pandas
Scikit-learn, Pycaret e KubeFlow
Ruff
Cloud Storage, Cloud Functions e Vertex AI
Google Cloud Platform

Saiba mais

Certificações

Contatos

Sinta-se a vontade para entrar em contato