AWS Big Data Engineer

Summary (French version 👉🏻👉🏻👉🏻👉🏻)

Global Data and BI is hiring on a rolling basis for Data, BI & analytics and ML/AI projects that we are involved in for large corporations. We offer enterprise-grade services with certified engineers in AWS and Microsoft Azure / Power BI technologies. Our focus is mostly on transformation projects within the financial industry. Our mission is to transform the corporate data journey from complexity to strategic clarity, ensuring data is not just collected, but leveraged to drive smarter decisions, stronger businesses, and lasting impact.

Our teams integrate the client’s operations. As a data engineer, you will collaborate with business stakeholders and your data team, to provide a data product that is sustainable and with highest maintainability over the long-term. 

You build solutions using big data technologies such as Apache Spark, Hive/Hadoop, and distributed query engines. As a Big Data Engineer, you will be working in a large, extremely complex and dynamic data environment. You should be passionate about working with big data and are able to learn new technologies rapidly and evaluate them critically. You should have excellent communication skills and be able to work with business owners to translate business requirements into system solutions. You are a self-starter, comfortable with ambiguity, and working in a fast-paced and ever-changing environment. Ideally, you are also experienced with at least one of the programming languages such as Java, C++, Spark/Scala, Python, etc.

What you’ll do (roles & responsibilities):

  • Work with a team of product and program managers, engineering leaders, and business leaders to build data architectures and platforms to support business

  • Design, develop, and operate high-scalable, high-performance, low-cost, and accurate data pipelines in distributed data processing platforms

  • Recognize and adopt best practices in data processing, reporting, and analysis: data integrity, test design, analysis, validation, and documentation

  • Keep up to date with big data technologies, evaluate and make decisions around the use of new or existing software products to design the data architecture

  • Design, build and own all the components of a high-volume data warehouse end to end.

  • Provide end-to-end data engineering support for project lifecycle execution (design, execution and risk assessment)

  • Continually improve ongoing reporting and analysis processes, automating or simplifying self-service support for customers

  • Interface with other technology teams to extract, transform, and load (ETL) data from a wide variety of data sources

  • Own the functional and nonfunctional scaling of software systems in your ownership area.

  • Implement big data solutions for distributed computing.

  • Ensure proper data governance policies are followed by implementing or validating data lineage, quality checks, classification, etc.

  • Integrate diverse data sources, including real-time, streaming, batch, and API-based data, to enrich platform insights and drive data-driven decision-making.

What you should have (Must-Haves):

  • Bachelor's degree required (master's an asset) in Software Engineering, Computer Science, or equivalent work experience in a Technology or business environment

  • Must-Have certifications: AWS Big Data Specialty, AWS Solution Architect Associate, AWS Solution Architect Professional

  • 4+ years of big data engineering experience

  • 7+ years of experience working in developing and following structured work processes in data engineering

  • 4+ years of experience with AWS technologies like Redshift, S3, RDS, EC2, Lambda, DynamoDB, Athena, AWS Glue, EMR, Kinesis, FireHose, and IAM roles and permissions

  • 4+ years of SQL experience

  • Experience with data modeling, warehousing and building ETL pipelines

  • Proficiency in application development frameworks (Python, Java/Scala) and data processing/storage frameworks (Databricks, Spark, Kafka).

  • Experience in designing and managing data orchestration workflows using tools such as Apache NiFi, Apache Airflow, or similar platforms to automate and streamline data pipelines using various types of Databricks connectors like Lakeflow and Spark Python Data Source API and Auto loader.

  • Experience with performance tuning of database schemas, databases, SQL, ETL jobs, and related scripts, Unity catalog and Delta Live tables

  • Minimum of 4 years of experience in Data Solutions Architecture

  • Minimum of 4 years of experience in integration solutions development with any pipeline Tools (Qlik, Talend, Informatica, DataStage, SSIS)

  • Experience with non-relational databases / data stores (object storage, document or key-value stores, graph databases, column-family databases)

  • Experience working with DevOps pipelines (Git, Gitlab, Jenkins), continuous integration/delivery, automated testing (unit, functional, performance)

  • Ability to take initiative, operate independently, and drive complex data management projects to completion.

  • Excellent analytical and problem-solving skills, with the ability to analyze complex data issues and develop practical solutions.

  • Strong communication and interpersonal skills, with the ability to collaborate effectively with and facilitate activities across cross-functional teams, geographically distributed, and stakeholders.

  • Proficiency in English both written and spoken

It would be great if you also had (Nice-to-Haves):  

  • An experience with project management and progress tracking tools

  • An experience with Agile development methodologies. 

  • Strong knowledge of data governance frameworks and practices (e.g., DAMA, RDM, MDM, Data Quality).

  • Strong knowledge of master data management and metadata management

  • AWS DevOps Engineer Professional Certification

Location: Remote, EST Timezone for all team members

Reporting Relationship : You will report to the Product Manager

Our commitment to diversity, equity, and inclusion 

We’re committed to employment equity and encourage women, Indigenous Peoples, persons with disabilities, veterans and persons of all races, ethnicities, religions, abilities, sexual orientations, and gender identities and expressions to apply. 

We also welcome applications from Latin America countries, as the position is remote.

What happens after you apply 

We know that applying for a new job can be both exciting and daunting, and we appreciate your effort. Our process is simple: 1.Apply, 2.Initial Call (1 hour) if pre-selected, 3.Panel Interview with 3 Experts in your domain (1h to 1h30) if you are shortlisted by our expert team 4.Hiring Decision: if you are selected we will send you an offer and next steps, otherwise, we will inform you by email.

If you are selected for an interview or testing, we will contact you via the email address you have provided. If we would like you to progress in the interview process, we will send you the Panel Interview invitation. If you don’t hear back from us after application or Initial Call, it means that we do not pursue your application.

If you applied before and you were not successful don’t worry, we're always posting new positions, so don’t hesitate to give it another shot. We’re excited to see what you bring to the table this time around!

Ingénieur Données AWS

Résumé

Global Data and BI recrute en continu pour des projets de données, BI & analytiques et ML/IA auxquels nous participons pour de grandes entreprises. Nous offrons des services de niveau entreprise avec des ingénieurs certifiés dans les technologies AWS et Microsoft Azure / Power BI. Notre focus principal porte sur les projets de transformation au sein de l'industrie financière. Notre mission est de transformer le parcours des données corporatives de la complexité vers la clarté stratégique, en s'assurant que les données ne soient pas seulement collectées, mais exploitées pour prendre des décisions plus intelligentes, créer des entreprises plus fortes et avoir un impact durable.

Nos équipes s'intègrent aux opérations du client. En tant qu'ingénieur de données, vous collaborerez avec les parties prenantes métier et votre équipe de données pour fournir un produit de données durable et avec la plus haute maintenabilité à long terme.

Vous construirez des solutions utilisant des technologies de big data telles qu'Apache Spark, Hive/Hadoop, et des moteurs de requête distribués. En tant qu'ingénieur Big Data, vous travaillerez dans un environnement de données vaste, extrêmement complexe et dynamique. Vous devriez être passionné par le travail avec les big data et être capable d'apprendre rapidement de nouvelles technologies et de les évaluer de manière critique. Vous devriez avoir d'excellentes compétences en communication et être capable de travailler avec les propriétaires d'entreprise pour traduire les exigences métier en solutions système. Vous êtes autonome, à l'aise avec l'ambiguïté, et travaillez dans un environnement rapide et en constante évolution. Idéalement, vous avez également de l'expérience avec au moins un des langages de programmation tels que Java, C++, Spark/Scala, Python, etc.

Ce que vous ferez (rôles et responsabilités) :

  • Travailler avec une équipe de gestionnaires de produits et de programmes, dirigeants d'ingénierie et dirigeants d'entreprise pour construire des architectures et plateformes de données pour soutenir l'entreprise

  • Concevoir, développer et exploiter des pipelines de données haute échelle, haute performance, faible coût et précis dans des plateformes de traitement de données distribuées

  • Reconnaître et adopter les meilleures pratiques en traitement de données, rapports et analyse : intégrité des données, conception de tests, analyse, validation et documentation

  • Se tenir au courant des technologies de big data, évaluer et prendre des décisions concernant l'utilisation de produits logiciels nouveaux ou existants pour concevoir l'architecture de données

  • Concevoir, construire et posséder tous les composants d'un entrepôt de données à haut volume de bout en bout

  • Fournir un support d'ingénierie de données de bout en bout pour l'exécution du cycle de vie du projet (conception, exécution et évaluation des risques)

  • Améliorer continuellement les processus de rapport et d'analyse en cours, automatisant ou simplifiant le support en libre-service pour les clients

  • Interfacer avec d'autres équipes technologiques pour extraire, transformer et charger (ETL) des données à partir d'une grande variété de sources de données

  • Posséder la mise à l'échelle fonctionnelle et non fonctionnelle des systèmes logiciels dans votre domaine de propriété

  • Implémenter des solutions de big data pour l'informatique distribuée

  • S'assurer que les politiques de gouvernance des données appropriées sont suivies en implémentant ou validant la lignée des données, les vérifications de qualité, la classification, etc.

  • Intégrer diverses sources de données, incluant les données en temps réel, en streaming, par lots et basées sur API, pour enrichir les insights de la plateforme et stimuler la prise de décision basée sur les données

Ce que vous devriez avoir (Exigences essentielles) :

  • Diplôme de baccalauréat requis (maîtrise un atout) en Génie logiciel, Informatique, ou expérience de travail équivalente dans un environnement technologique ou d'affaires

  • Certifications obligatoires : AWS Big Data Specialty, AWS Solution Architect Associate, AWS Solution Architect Professional

  • 4+ années d'expérience en ingénierie de big data

  • 7+ années d'expérience en développement et suivi de processus de travail structurés en ingénierie de données

  • 4+ années d'expérience avec les technologies AWS comme Redshift, S3, RDS, EC2, Lambda, DynamoDB, Athena, AWS Glue, EMR, Kinesis, FireHose, et les rôles et permissions IAM

  • 4+ années d'expérience SQL

  • Expérience avec la modélisation de données, l'entreposage et la construction de pipelines ETL

  • Compétence dans les frameworks de développement d'applications (Python, Java/Scala) et les frameworks de traitement/stockage de données (Databricks, Spark, Kafka)

  • Expérience dans la conception et la gestion de flux de travail d'orchestration de données utilisant des outils tels qu'Apache NiFi, Apache Airflow, ou plateformes similaires pour automatiser et rationaliser les pipelines de données utilisant divers types de connecteurs Databricks comme Lakeflow et Spark Python Data Source API et Auto loader

  • Expérience avec l'optimisation des performances des schémas de base de données, bases de données, SQL, tâches ETL, et scripts connexes, Unity catalog et Delta Live tables

  • Minimum de 4 années d'expérience en Architecture de Solutions de Données

  • Minimum de 4 années d'expérience en développement de solutions d'intégration avec n'importe quels outils de pipeline (Qlik, Talend, Informatica, DataStage, SSIS)

  • Expérience avec les bases de données/magasins de données non relationnels (stockage d'objets, magasins de documents ou clé-valeur, bases de données graphiques, bases de données de familles de colonnes)

  • Expérience de travail avec les pipelines DevOps (Git, Gitlab, Jenkins), intégration/livraison continue, tests automatisés (unitaires, fonctionnels, performance)

  • Capacité à prendre l'initiative, opérer de manière indépendante, et mener des projets complexes de gestion de données à leur achèvement

  • Excellentes compétences analytiques et de résolution de problèmes, avec la capacité d'analyser des problèmes de données complexes et de développer des solutions pratiques

  • Fortes compétences en communication et interpersonnelles, avec la capacité de collaborer efficacement avec et faciliter les activités à travers des équipes interfonctionnelles, géographiquement distribuées, et les parties prenantes

  • Maîtrise de l'anglais tant à l'écrit qu'à l'oral

Ce serait formidable si vous aviez aussi (Atouts) :

  • Une expérience avec les outils de gestion de projet et de suivi des progrès

  • Une expérience avec les méthodologies de développement Agile

  • Une solide connaissance des cadres et pratiques de gouvernance des données (ex. DAMA, RDM, MDM, Qualité des données)

  • Une solide connaissance de la gestion des données maîtres et de la gestion des métadonnées

  • Certification AWS DevOps Engineer Professional

Localisation : Télétravail, fuseau horaire EST pour tous les membres de l'équipe

Relation hiérarchique : Vous relèverez du Gestionnaire de Produit

Notre engagement envers la diversité, l'équité et l'inclusion

Nous nous engageons à l'équité en matière d'emploi et encourageons les femmes, les Peuples autochtones, les personnes handicapées, les vétérans et les personnes de toutes races, ethnies, religions, capacités, orientations sexuelles, et identités et expressions de genre à postuler.

Nous accueillons également les candidatures des pays d'Amérique latine, car le poste est en télétravail.

Que se passe-t-il après votre candidature

Nous savons que postuler pour un nouvel emploi peut être à la fois excitant et intimidant, et nous apprécions votre effort. Notre processus est simple : 1. Postuler, 2. Appel initial (1 heure) si présélectionné, 3. Entretien de panel avec 3 experts de votre domaine (1h à 1h30) si vous êtes présélectionné par notre équipe d'experts 4. Décision d'embauche : si vous êtes sélectionné, nous vous enverrons une offre et les prochaines étapes, sinon, nous vous informerons par courriel.

Si vous êtes sélectionné pour un entretien ou un test, nous vous contacterons via l'adresse courriel que vous avez fournie. Si nous souhaitons que vous progressiez dans le processus d'entretien, nous vous enverrons l'invitation à l'entretien de panel. Si vous n'avez pas de nouvelles de nous après la candidature ou l'appel initial, cela signifie que nous ne poursuivons pas votre candidature.

Si vous avez postulé auparavant et que vous n'avez pas été retenu, ne vous inquiétez pas, nous publions toujours de nouveaux postes, alors n'hésitez pas à retenter votre chance. Nous sommes impatients de voir ce que vous apportez cette fois-ci !