Lucas Cruz — Data Engineer & Gen. AI Engineer

What I Work With

Com o que Trabalho

TECHNICAL SKILLS

COMPETÊNCIAS TÉCNICAS

Gen. AI & LLMs

IA Generativa & LLMs

Claude AIGoogle AI Studio LLM IntegrationAI Agents RAGPrompt Engineering Chatbot Development

Data Engineering

Engenharia de Dados

PythonSQL Apache Spark (PySpark)Pandas dbtTrino REST APIsWeb Scraping Parquet

Pipeline Orchestration

Orquestração de Pipelines

Apache Airflown8n

Multi-Cloud Platforms

Plataformas Multi-Cloud

AWS Microsoft Azure Google Cloud (GCP) Oracle Cloud (OCI)

Data Platforms & Lakehouses

Plataformas de Dados

SnowflakeDatabricks Amazon RedshiftDelta Lake Oracle Autonomous DB

Relational Databases

Bancos de Dados Relacionais

PostgreSQLSQL ServerMySQL

Analytics & BI

Power BIQlik Sense Apache SupersetLooker

Security & Data Governance

Segurança & Governança de Dados

LGPD / GDPR Compliance Conformidade LGPD / GDPR Data Privacy Privacidade de Dados Access Control (IAM) Firewall Data Masking Mascaramento de Dados Audit Logging Logs de Auditoria RBAC Electronic Security Tags (RFID/NFC) Tags Eletrônicas (RFID/NFC)

DevOps & Infrastructure

DevOps & Infraestrutura

DockerKubernetes GitCI/CD Pipelines LinuxBash Scripting

Languages

Idiomas

Portuguese — NativePortuguês — Nativo English — C1 AdvancedInglês — C1 Avançado Spanish — B1Espanhol — B1

Career History

Histórico Profissional

WORK EXPERIENCE

EXPERIÊNCIA PROFISSIONAL

Feb 2026 — May 2026 · 3-month ContractContrato 3 meses · Curitiba, Brazil · HybridCuritiba, PR · Híbrido

Gen. AI Engineer

Engenheiro de IA Generativa

TK Technologies

Engineered a high-throughput web scraping architecture in Python targeting 8+ automotive parts websites, delivering real-time competitive intelligence that influenced strategic pricing decisions.
Architected AI-powered n8n automation workflows (ETL, RPA, and chatbot agents) by integrating LLMs (Claude AI, Google AI Studio) and GCP APIs (Sheets, Drive) to enrich datasets and significantly boost team productivity.
Developed a conversational AI chatbot that empowers business users to query and refine pricing datasets via natural language, effectively reducing the time-to-insight for non-technical stakeholders.
Deployed containerised backend services on Azure using Docker, standardising the infrastructure environments and improving overall deployment reliability by ~25%.

Engenhou um pipeline de web scraping multi-fonte em Python focado em mais de 8 sites de peças automotivas, extraindo dados de preços e metadados em escala para impulsionar a inteligência competitiva de mercado.
Arquitetou workflows de automação com IA no n8n (ETL, RPA e agentes chatbot) integrando LLMs (Claude AI, Google AI Studio) e APIs do GCP (Sheets, Drive) para enriquecer datasets e aumentar significativamente a produtividade da equipe.
Desenvolveu um chatbot de IA conversacional que capacita usuários de negócio a consultar e refinar datasets de preços via linguagem natural, reduzindo efetivamente o tempo de obtenção de insights.
Realizou deploy de serviços backend conteinerizados no Azure usando Docker, padronizando a infraestrutura e melhorando a confiabilidade geral das implantações em ~25%.

Apr 2023 — Jul 2024 Curitiba, Brazil · On-siteCuritiba, PR · Presencial

Data Engineer

Spacecom Monitoramento

Designed and maintained a Big Data Lakehouse on AWS S3 leveraging Medallion Architecture (Bronze/Silver/Gold) alongside Delta Lake, Parquet, PySpark, and Trino.
Supported a high-availability IoT platform scaling to 95,000+ devices, efficiently processing hundreds of millions of records per day.
Managed data from electronic security tags (RFID/NFC) integrated into an IoT platform for government court systems. Gained deep, hands-on experience with LGPD frameworks by implementing robust data privacy controls, access governance, and secure handling protocols for sensitive judicial data.
Orchestrated and optimised ETL pipelines with Apache Airflow to reduce failure rates by ~30%; deployed services with Docker on AWS EC2, cutting deployment issues by an additional ~25%.
Remediated pipeline inconsistencies to boost downstream analytics accuracy by ~40%, successfully delivering reliable datasets to Qlik Sense and Apache Superset dashboards.

Projetou e manteve um Data Lakehouse de Big Data na AWS S3 utilizando a Arquitetura Medallion (Bronze/Prata/Ouro) junto com Delta Lake, Parquet, PySpark e Trino.
Suportou uma plataforma IoT de alta disponibilidade escalando para 95.000+ dispositivos, processando eficientemente centenas de milhões de registros por dia.
Gerenciou dados de tags eletrônicas de segurança (RFID/NFC) integradas a uma plataforma IoT para sistemas do judiciário governamental. Adquiriu profunda experiência prática com os frameworks da LGPD, implementando controles robustos de privacidade, governança de acesso e protocolos de manuseio seguro de dados judiciais sensíveis.
Orquestrou e otimizou pipelines ETL com Apache Airflow para reduzir taxas de falha em ~30%; o uso de Docker na AWS EC2 reduziu problemas de deploy em adicionais ~25%.
Corrigiu inconsistências nos pipelines para impulsionar a acurácia analítica em ~40%, entregando com sucesso datasets confiáveis para dashboards no Qlik Sense e Apache Superset.

Jun 2022 — May 2024 Curitiba, Brazil · RemoteCuritiba, PR · Remoto

Data Engineer Consultant

Consultor de Engenharia de Dados

wDiscover

Delivered end-to-end data projects across the fintech, agribusiness, and operations sectors by integrating payment providers (PagSeguro, Stone, Cielo), John Deere IoT APIs, REST APIs, and custom web scraping pipelines.
Designed dimensional Data Warehouses on SQL Server and Oracle Autonomous Database; automated complex ETL workflows with Airflow on Docker/Oracle Cloud to reduce manual effort by ~35%.
Built dynamic Power BI dashboards to track critical KPIs, financial metrics, and operational performance for stakeholders across multiple client domains.

Entregou projetos de dados ponta a ponta para os setores de fintech, agronegócio e operações — integrando provedores de pagamento (PagSeguro, Stone, Cielo), APIs IoT da John Deere, REST APIs e pipelines customizados de web scraping.
Projetou Data Warehouses dimensionais no SQL Server e Oracle Autonomous Database; automatizou fluxos complexos de ETL com Airflow em Docker/Oracle Cloud para reduzir o esforço manual em ~35%.
Criou dashboards dinâmicos no Power BI para rastrear KPIs críticos, métricas financeiras e desempenho operacional para stakeholders em múltiplos domínios de clientes.

Jun 2020 — Feb 2023 Curitiba, Brazil · HybridCuritiba, PR · Híbrido

Data Analyst

Analista de Dados

Itaete Group

Grupo Itaete

Designed a SQL Server Data Warehouse and robust Python/SQL pipelines using Pandas to cleanse, transform, and enrich data from IoT devices, PostgreSQL, APIs, and CSV sources.
Built Power BI dashboards and automated legacy Excel/VBA reporting workflows, slashing data processing time by ~50% and significantly reducing manual operational workloads.
Developed internal systems for inventory management and financial automation, streamlining processes such as invoice generation and automated weekly report distribution.

Projetou um Data Warehouse no SQL Server e pipelines robustos em Python/SQL usando Pandas para limpar, transformar e enriquecer dados de dispositivos IoT, PostgreSQL, APIs e fontes CSV.
Criou dashboards no Power BI e automatizou fluxos de relatórios legados em Excel/VBA, reduzindo o tempo de processamento de dados em ~50% e diminuindo significativamente a carga operacional manual.
Desenvolveu sistemas internos para controle de estoque e automação financeira, otimizando processos como geração de notas fiscais e distribuição automatizada de relatórios semanais.

Selected Work

Trabalhos Selecionados

NOTABLE PROJECTS

PROJETOS DE DESTAQUE

★ Latest · Gen. AI · TK Technologies — 2026

★ Mais Recente · IA Generativa · TK Technologies — 2026

AUTOMOTIVE MARKET PRICE INTELLIGENCE PLATFORM

PLATAFORMA DE INTELIGÊNCIA DE PREÇOS AUTOMOTIVOS

Engineered a distributed web scraping architecture in Python with proxy rotation to extract pricing/metadata from 10+ sites. Orchestrated complex LLM-driven ETL workflows via n8n, utilizing Claude AI and Google AI Studio for unstructured data parsing. Built a RAG-based conversational agent with LangChain to enable natural language querying of SQL datasets. Infrastructure fully containerised using Docker on Azure VMs.

Engenhou uma arquitetura de web scraping distribuída em Python com rotação de proxies para extrair preços e metadados de 10+ sites. Orquestrou workflows ETL complexos baseados em LLMs via n8n, utilizando Claude AI e Google AI Studio para parsing de dados não estruturados. Desenvolveu um agente conversacional baseado em RAG (LangChain) para consultas em linguagem natural a bancos SQL. Infraestrutura conteinerizada com Docker em Azure VMs.

Pythonn8n Claude AIGoogle AI Studio LangChainAzure DockerWeb Scraping RAG / LLMs

Personal Project — Jan 2026

Projeto Pessoal — Jan 2026

MODERN CLOUD DATA PIPELINE

PIPELINE DE DADOS EM NUVEM

Designed a scalable ELT architecture leveraging Snowflake as a cloud data warehouse. Orchestrated complex DAG dependencies using Apache Airflow to trigger containerised dbt executions via Docker. Implemented incremental materializations and CI/CD data testing in dbt, reducing data anomalies. Configured role-based access control (RBAC) and optimized Snowflake compute warehouses to balance performance and cost.

Projetou uma arquitetura ELT escalável utilizando Snowflake como data warehouse em nuvem. Orquestrou dependências complexas de DAGs usando Apache Airflow para acionar execuções do dbt conteinerizadas via Docker. Implementou materializações incrementais e testes de dados CI/CD no dbt, reduzindo anomalias. Configurou controle de acesso baseado em funções (RBAC) e otimizou os warehouses virtuais do Snowflake.

Snowflakedbt Core Apache AirflowDocker PythonSQL

Client Project — Feb 2024

Projeto de Cliente — Fev 2024

IOT DATA LAKEHOUSE ON AWS

IOT DATA LAKEHOUSE NA AWS

Architected an enterprise-grade AWS S3 Lakehouse processing 100M+ daily IoT/RFID records. Pioneered a Medallion architecture using PySpark and Delta Lake, with a rigorous focus on Data Governance and Compliance. Enforced strict LGPD/GDPR standards through row-level security and automated data masking, ensuring secure handling of sensitive judicial telemetry. Configured Trino for high-performance federated querying.

Arquitetou um Lakehouse corporativo na AWS S3 processando 100M+ registros diários. Pioneirismo na arquitetura Medallion usando PySpark e Delta Lake, com foco rigoroso em Governança e Compliance de Dados. Garantiu conformidade estrita com LGPD/GDPR através de segurança em nível de linha (RLS) e mascaramento automático, assegurando o manuseio de dados sensíveis.

AWS S3PySpark Delta LakeApache Airflow TrinoApache Superset Docker

Client Project — Jul 2023

Projeto de Cliente — Jul 2023

PAYMENTS DATA WAREHOUSE

DATA WAREHOUSE DE PAGAMENTOS

Developed a robust data integration framework connecting to multiple REST APIs (PagSeguro, Stone, Cielo) handling pagination, rate limiting, and OAuth authentication. Built Python-based incremental extraction pipelines, loading raw JSON payloads into a staging area before transforming them into a Kimball dimensional model (Star Schema) on SQL Server. Implemented rigorous data quality checks orchestrated via Airflow.

Desenvolveu um framework robusto de integração de dados conectando a múltiplas REST APIs (PagSeguro, Stone, Cielo), lidando com paginação, rate limiting e autenticação OAuth. Construiu pipelines Python de extração incremental, carregando payloads JSON brutos em uma staging area antes da transformação para um modelo dimensional de Kimball (Star Schema) no SQL Server. Implementou verificações de qualidade orquestradas via Airflow.

PythonSQL REST APIsSQL Server DW Apache AirflowPower BI

Client Project — Oct 2022

Projeto de Cliente — Out 2022

JOHN DEERE AGRIBUSINESS DATA PIPELINE

PIPELINE DE DADOS JOHN DEERE — AGRONEGÓCIO

Engineered an automated data ingestion pipeline targeting the John Deere Operations Center API. Implemented advanced Python handlers for complex JSON responses, robust error handling with exponential backoff, and secure credential management. Structured the extracted agronomic and telemetry data into optimized tables within an Oracle Autonomous Database, indexing critical dimensions to accelerate heavy analytical queries in Power BI.

Engenhou um pipeline de ingestão automatizado focado na API do John Deere Operations Center. Implementou scripts avançados em Python para o tratamento de respostas JSON complexas, gerenciamento de erros com exponential backoff e gestão segura de credenciais. Estruturou dados agronômicos em tabelas otimizadas no Oracle Autonomous Database, criando índices nas dimensões críticas para acelerar consultas analíticas no Power BI.

PythonJohn Deere REST API Oracle Cloud (OCI)Apache Airflow Power BISQL

LUCAS
CRUZ

TECHNICAL SKILLS

COMPETÊNCIAS TÉCNICAS

WORK EXPERIENCE

EXPERIÊNCIA PROFISSIONAL

NOTABLE PROJECTS

PROJETOS DE DESTAQUE

CERTIFICATIONS/COURSES

CERTIFICAÇÕES/CURSOS

LUCASCRUZ

TECHNICAL SKILLS

COMPETÊNCIAS TÉCNICAS

WORK EXPERIENCE

EXPERIÊNCIA PROFISSIONAL

NOTABLE PROJECTS

PROJETOS DE DESTAQUE

CERTIFICATIONS/COURSES

CERTIFICAÇÕES/CURSOS

LUCAS
CRUZ