Home Skills Experience Projects Certs Contact
Available for Europe Relocation
Disponível para Realocação na Europa

LUCAS
CRUZ

Data Engineer  /  Gen. AI Engineer

Engenheiro de Dados  /  Engenheiro de IA Generativa

Data & Gen. AI Engineer architecting high-scale Data Lakehouses and LLM-driven automation workflows. With 5+ years across IoT, fintech, and agribusiness, I specialize in leveraging Python, modern cloud data stacks, and AI agents to transform massive datasets into intelligent systems.

Engenheiro de Dados e IA Generativa focado na arquitetura de Data Lakehouses de alta escala e workflows de automação com LLMs. Com 5+ anos de experiência em IoT, fintechs e agronegócio, sou especialista em utilizar Python, cloud e agentes de IA para transformar dados massivos em sistemas inteligentes.

5+
Years Experience
Anos de Exp.
95K
IoT Devices
Devices IoT
4
Cloud Platforms
Nuvens
C1
Advanced English · IELTS
Inglês Avançado · IELTS

TECHNICAL SKILLS

COMPETÊNCIAS TÉCNICAS

Gen. AI & LLMs
IA Generativa & LLMs
Claude AIGoogle AI Studio LLM IntegrationAI Agents RAGPrompt Engineering Chatbot Development
Data Engineering
Engenharia de Dados
PythonSQL Apache Spark (PySpark)Pandas dbtTrino REST APIsWeb Scraping Parquet
Pipeline Orchestration
Orquestração de Pipelines
Apache Airflown8n
Multi-Cloud Platforms
Plataformas Multi-Cloud
AWS Microsoft Azure Google Cloud (GCP) Oracle Cloud (OCI)
Data Platforms & Lakehouses
Plataformas de Dados
SnowflakeDatabricks Amazon RedshiftDelta Lake Oracle Autonomous DB
Relational Databases
Bancos de Dados Relacionais
PostgreSQLSQL ServerMySQL
Analytics & BI
Analytics & BI
Power BIQlik Sense Apache SupersetLooker
Security & Data Governance
Segurança & Governança de Dados
LGPD / GDPR Compliance Conformidade LGPD / GDPR Data Privacy Privacidade de Dados Access Control (IAM) Firewall Data Masking Mascaramento de Dados Audit Logging Logs de Auditoria RBAC Electronic Security Tags (RFID/NFC) Tags Eletrônicas (RFID/NFC)
DevOps & Infrastructure
DevOps & Infraestrutura
DockerKubernetes GitCI/CD Pipelines LinuxBash Scripting
Languages
Idiomas
Portuguese — NativePortuguês — Nativo English — C1 AdvancedInglês — C1 Avançado Spanish — B1Espanhol — B1

WORK EXPERIENCE

EXPERIÊNCIA PROFISSIONAL

Feb 2026 — May 2026 · 3-month ContractContrato 3 meses  ·  Curitiba, Brazil · HybridCuritiba, PR · Híbrido
Gen. AI Engineer
Engenheiro de IA Generativa
TK Technologies
  • Engineered a high-throughput web scraping architecture in Python targeting 8+ automotive parts websites, delivering real-time competitive intelligence that influenced strategic pricing decisions.
  • Architected AI-powered n8n automation workflows (ETL, RPA, and chatbot agents) by integrating LLMs (Claude AI, Google AI Studio) and GCP APIs (Sheets, Drive) to enrich datasets and significantly boost team productivity.
  • Developed a conversational AI chatbot that empowers business users to query and refine pricing datasets via natural language, effectively reducing the time-to-insight for non-technical stakeholders.
  • Deployed containerised backend services on Azure using Docker, standardising the infrastructure environments and improving overall deployment reliability by ~25%.
  • Engenhou um pipeline de web scraping multi-fonte em Python focado em mais de 8 sites de peças automotivas, extraindo dados de preços e metadados em escala para impulsionar a inteligência competitiva de mercado.
  • Arquitetou workflows de automação com IA no n8n (ETL, RPA e agentes chatbot) integrando LLMs (Claude AI, Google AI Studio) e APIs do GCP (Sheets, Drive) para enriquecer datasets e aumentar significativamente a produtividade da equipe.
  • Desenvolveu um chatbot de IA conversacional que capacita usuários de negócio a consultar e refinar datasets de preços via linguagem natural, reduzindo efetivamente o tempo de obtenção de insights.
  • Realizou deploy de serviços backend conteinerizados no Azure usando Docker, padronizando a infraestrutura e melhorando a confiabilidade geral das implantações em ~25%.
Apr 2023 — Jul 2024 Curitiba, Brazil · On-siteCuritiba, PR · Presencial
Data Engineer
Spacecom Monitoramento
  • Designed and maintained a Big Data Lakehouse on AWS S3 leveraging Medallion Architecture (Bronze/Silver/Gold) alongside Delta Lake, Parquet, PySpark, and Trino.
  • Supported a high-availability IoT platform scaling to 95,000+ devices, efficiently processing hundreds of millions of records per day.
  • Managed data from electronic security tags (RFID/NFC) integrated into an IoT platform for government court systems. Gained deep, hands-on experience with LGPD frameworks by implementing robust data privacy controls, access governance, and secure handling protocols for sensitive judicial data.
  • Orchestrated and optimised ETL pipelines with Apache Airflow to reduce failure rates by ~30%; deployed services with Docker on AWS EC2, cutting deployment issues by an additional ~25%.
  • Remediated pipeline inconsistencies to boost downstream analytics accuracy by ~40%, successfully delivering reliable datasets to Qlik Sense and Apache Superset dashboards.
  • Projetou e manteve um Data Lakehouse de Big Data na AWS S3 utilizando a Arquitetura Medallion (Bronze/Prata/Ouro) junto com Delta Lake, Parquet, PySpark e Trino.
  • Suportou uma plataforma IoT de alta disponibilidade escalando para 95.000+ dispositivos, processando eficientemente centenas de milhões de registros por dia.
  • Gerenciou dados de tags eletrônicas de segurança (RFID/NFC) integradas a uma plataforma IoT para sistemas do judiciário governamental. Adquiriu profunda experiência prática com os frameworks da LGPD, implementando controles robustos de privacidade, governança de acesso e protocolos de manuseio seguro de dados judiciais sensíveis.
  • Orquestrou e otimizou pipelines ETL com Apache Airflow para reduzir taxas de falha em ~30%; o uso de Docker na AWS EC2 reduziu problemas de deploy em adicionais ~25%.
  • Corrigiu inconsistências nos pipelines para impulsionar a acurácia analítica em ~40%, entregando com sucesso datasets confiáveis para dashboards no Qlik Sense e Apache Superset.
Jun 2022 — May 2024 Curitiba, Brazil · RemoteCuritiba, PR · Remoto
Data Engineer Consultant
Consultor de Engenharia de Dados
wDiscover
  • Delivered end-to-end data projects across the fintech, agribusiness, and operations sectors by integrating payment providers (PagSeguro, Stone, Cielo), John Deere IoT APIs, REST APIs, and custom web scraping pipelines.
  • Designed dimensional Data Warehouses on SQL Server and Oracle Autonomous Database; automated complex ETL workflows with Airflow on Docker/Oracle Cloud to reduce manual effort by ~35%.
  • Built dynamic Power BI dashboards to track critical KPIs, financial metrics, and operational performance for stakeholders across multiple client domains.
  • Entregou projetos de dados ponta a ponta para os setores de fintech, agronegócio e operações — integrando provedores de pagamento (PagSeguro, Stone, Cielo), APIs IoT da John Deere, REST APIs e pipelines customizados de web scraping.
  • Projetou Data Warehouses dimensionais no SQL Server e Oracle Autonomous Database; automatizou fluxos complexos de ETL com Airflow em Docker/Oracle Cloud para reduzir o esforço manual em ~35%.
  • Criou dashboards dinâmicos no Power BI para rastrear KPIs críticos, métricas financeiras e desempenho operacional para stakeholders em múltiplos domínios de clientes.
Jun 2020 — Feb 2023 Curitiba, Brazil · HybridCuritiba, PR · Híbrido
Data Analyst
Analista de Dados
Itaete Group
Grupo Itaete
  • Designed a SQL Server Data Warehouse and robust Python/SQL pipelines using Pandas to cleanse, transform, and enrich data from IoT devices, PostgreSQL, APIs, and CSV sources.
  • Built Power BI dashboards and automated legacy Excel/VBA reporting workflows, slashing data processing time by ~50% and significantly reducing manual operational workloads.
  • Developed internal systems for inventory management and financial automation, streamlining processes such as invoice generation and automated weekly report distribution.
  • Projetou um Data Warehouse no SQL Server e pipelines robustos em Python/SQL usando Pandas para limpar, transformar e enriquecer dados de dispositivos IoT, PostgreSQL, APIs e fontes CSV.
  • Criou dashboards no Power BI e automatizou fluxos de relatórios legados em Excel/VBA, reduzindo o tempo de processamento de dados em ~50% e diminuindo significativamente a carga operacional manual.
  • Desenvolveu sistemas internos para controle de estoque e automação financeira, otimizando processos como geração de notas fiscais e distribuição automatizada de relatórios semanais.

NOTABLE PROJECTS

PROJETOS DE DESTAQUE

Personal Project — Jan 2026
Projeto Pessoal — Jan 2026
MODERN CLOUD DATA PIPELINE
PIPELINE DE DADOS EM NUVEM
Designed a scalable ELT architecture leveraging Snowflake as a cloud data warehouse. Orchestrated complex DAG dependencies using Apache Airflow to trigger containerised dbt executions via Docker. Implemented incremental materializations and CI/CD data testing in dbt, reducing data anomalies. Configured role-based access control (RBAC) and optimized Snowflake compute warehouses to balance performance and cost.
Projetou uma arquitetura ELT escalável utilizando Snowflake como data warehouse em nuvem. Orquestrou dependências complexas de DAGs usando Apache Airflow para acionar execuções do dbt conteinerizadas via Docker. Implementou materializações incrementais e testes de dados CI/CD no dbt, reduzindo anomalias. Configurou controle de acesso baseado em funções (RBAC) e otimizou os warehouses virtuais do Snowflake.
Snowflakedbt Core Apache AirflowDocker PythonSQL
Client Project — Feb 2024
Projeto de Cliente — Fev 2024
IOT DATA LAKEHOUSE ON AWS
IOT DATA LAKEHOUSE NA AWS
Architected an enterprise-grade AWS S3 Lakehouse processing 100M+ daily IoT/RFID records. Pioneered a Medallion architecture using PySpark and Delta Lake, with a rigorous focus on Data Governance and Compliance. Enforced strict LGPD/GDPR standards through row-level security and automated data masking, ensuring secure handling of sensitive judicial telemetry. Configured Trino for high-performance federated querying.
Arquitetou um Lakehouse corporativo na AWS S3 processando 100M+ registros diários. Pioneirismo na arquitetura Medallion usando PySpark e Delta Lake, com foco rigoroso em Governança e Compliance de Dados. Garantiu conformidade estrita com LGPD/GDPR através de segurança em nível de linha (RLS) e mascaramento automático, assegurando o manuseio de dados sensíveis.
AWS S3PySpark Delta LakeApache Airflow TrinoApache Superset Docker
Client Project — Jul 2023
Projeto de Cliente — Jul 2023
PAYMENTS DATA WAREHOUSE
DATA WAREHOUSE DE PAGAMENTOS
Developed a robust data integration framework connecting to multiple REST APIs (PagSeguro, Stone, Cielo) handling pagination, rate limiting, and OAuth authentication. Built Python-based incremental extraction pipelines, loading raw JSON payloads into a staging area before transforming them into a Kimball dimensional model (Star Schema) on SQL Server. Implemented rigorous data quality checks orchestrated via Airflow.
Desenvolveu um framework robusto de integração de dados conectando a múltiplas REST APIs (PagSeguro, Stone, Cielo), lidando com paginação, rate limiting e autenticação OAuth. Construiu pipelines Python de extração incremental, carregando payloads JSON brutos em uma staging area antes da transformação para um modelo dimensional de Kimball (Star Schema) no SQL Server. Implementou verificações de qualidade orquestradas via Airflow.
PythonSQL REST APIsSQL Server DW Apache AirflowPower BI
Client Project — Oct 2022
Projeto de Cliente — Out 2022
JOHN DEERE AGRIBUSINESS DATA PIPELINE
PIPELINE DE DADOS JOHN DEERE — AGRONEGÓCIO
Engineered an automated data ingestion pipeline targeting the John Deere Operations Center API. Implemented advanced Python handlers for complex JSON responses, robust error handling with exponential backoff, and secure credential management. Structured the extracted agronomic and telemetry data into optimized tables within an Oracle Autonomous Database, indexing critical dimensions to accelerate heavy analytical queries in Power BI.
Engenhou um pipeline de ingestão automatizado focado na API do John Deere Operations Center. Implementou scripts avançados em Python para o tratamento de respostas JSON complexas, gerenciamento de erros com exponential backoff e gestão segura de credenciais. Estruturou dados agronômicos em tabelas otimizadas no Oracle Autonomous Database, criando índices nas dimensões críticas para acelerar consultas analíticas no Power BI.
PythonJohn Deere REST API Oracle Cloud (OCI)Apache Airflow Power BISQL

CERTIFICATIONS/COURSES

CERTIFICAÇÕES/CURSOS

OPEN TO
OPPORTUNITIES
ABERTO A
OPORTUNIDADES

I'm actively seeking Data Engineering and Gen. AI roles in Europe. Whether you have a project, a position, or just want to connect — I'd love to hear from you.

Busco ativamente vagas de Engenharia de Dados e IA Generativa na Europa. Seja um projeto, uma vaga ou apenas uma conversa — será um prazer falar com você.

📍 Curitiba, Brazil  ·  Open to relocation across Europe  ·  Requires visa sponsorship
📍 Curitiba, Brasil  ·  Disponível para realocação na Europa  ·  Necessita de patrocínio de visto