RB

RAED BEN YOUSSEF

Ingénieur Système & Observabilité senior → Consultant IA appliquée (orchestration d'agents & IA locale / privacy) Senior Systems & Observability Engineer → Applied-AI Consultant (agent orchestration & private / local-first AI)

Ingénieur Système/Ops senior (7+ ans : public, luxe, retail, VFX) pivoté vers l'IA appliquée. J'exploite en continu un système multi-agents qui administre une vraie infrastructure Proxmox — pas un POC : une preuve vivante d'orchestration d'agents, de LLMOps et d'IA 100 % souveraine. A senior Systems/Ops engineer (7+ years across critical public-sector, luxury, retail and VFX) who pivoted into applied AI. I run a live multi-agent system that administers a real Proxmox infrastructure — not a toy POC, but living proof of agent orchestration, LLMOps and fully sovereign AI.

Freelance (SASU) · Paris / Remote · contact@ben-youssef.com · +33 7 77 86 54 18 Freelance (SASU) · Paris / Remote · contact@ben-youssef.com · +33 7 77 86 54 18
7+
ans d'expérience ITyears IT experience
24/7
agents IA autonomes (17 crons)autonomous AI agents (17 crons)
17 LXC
3 VLAN · 91 Go RAM (Proxmox)3 VLANs · 91 GB RAM (Proxmox)
~400
services supervisés (16 hosts)services monitored (16 hosts)
10
LLM locaux benchmarkés (Mac + AMD)local LLMs benchmarked (Mac + AMD)
Projets pharesFeatured projects
Ce que je construis, en productionWhat I build, in production

Tous les chiffres sont mesurés et tracés. Les limites sont assumées — c'est le meilleur signal anti-bullshit sur un marché saturé.Every figure is measured and sourced. Limits are owned — the best anti-bullshit signal in a saturated market.

01

Jim — agent IA SRE/SysAdmin autonome (OpenClaw)Jim — autonomous SRE/SysAdmin AI agent (OpenClaw)

Problème. Administrer une infra homelab réelle (Proxmox, 17 conteneurs, 3 VLANs) demande une vigilance 24/7. Comment déléguer ce « Run » à un agent LLM sans perdre le contrôle ni la fiabilité ? Problem. Running a real homelab (Proxmox, 17 containers, 3 VLANs) demands 24/7 vigilance. How do you delegate that "Run" workload to an LLM agent without losing control or reliability?

RéalisationWhat I did
  • Conçu et opère « Jim », un agent LLM (OpenClaw, Mac Mini M4) qui administre une vraie infra Proxmox via SSH + MCP, piloté par une flotte de crons autonomes.
  • Designed and operate "Jim", an LLM agent (OpenClaw, Mac Mini M4) administering a real Proxmox infra via SSH + MCP, driven by a fleet of autonomous crons.
  • Mémoire persistante maison + consolidation automatique nocturne. Gouvernance par matrice de permissions N1-N4 + human-in-the-loop (boutons Discord).
  • Home-grown persistent memory + automatic nightly consolidation. Governed by an N1-N4 permission matrix + human-in-the-loop (Discord buttons).
Résultats (sourcés)Results (sourced)
  • 17 conteneurs LXC administrés sur 3 VLANs · 24 crons définis / 17 actifs (vérifiés live 2026-06-03)17 LXC containers administered across 3 VLANs · 24 crons defined / 17 active (live-checked 2026-06-03)
  • Fallback 3 modèles (sonnet → opus → haiku) · concurrence 4 agents / 8 sub-agents3-model fallback (sonnet → opus → haiku) · concurrency 4 agents / 8 sub-agents
  • Optimisation du cache de prompt & de la mémoire de l'agent (latence & coût réduits)Prompt-cache & agent-memory optimization (reduced latency & cost)
OpenClawClaude (MCP)SSHProxmoxDiscord HITLgitObsidian
02

Harry — agent basculé sur LLM 100 % local + harness de benchmarkHarry — agent moved to a 100% local LLM + benchmark harness

Problème. Un agent sur modèle cloud = coût récurrent + dépendance. Peut-on le faire tourner sur un LLM 100 % local (0 token cloud) sans sacrifier fiabilité ni vitesse — et choisir le modèle objectivement ? Problem. An agent on a cloud model = recurring cost + dependency. Can it run on a 100% local LLM (zero cloud tokens) without losing reliability or speed — and pick the model objectively?

RéalisationWhat I did
  • Conçu un harness de benchmark reproductible couvrant tool-calling (BFCL), sécurité et anti-hallucination → score composite ajusté-vitesse.
  • Built a reproducible benchmark harness covering tool-calling (BFCL), safety and anti-hallucination → speed-adjusted composite score.
  • Bascule end-to-end de l'agent « Harry » d'un modèle cloud vers Qwen3.5-4B-4bit sur MLX (:11435, LaunchAgent, fallback conservé) — debug runtime bas-niveau (Python 3.14 free-threading → venv 3.13).
  • End-to-end cutover of "Harry" from a cloud model to Qwen3.5-4B-4bit on MLX (:11435, LaunchAgent, fallback kept) — low-level runtime debugging (Python 3.14 free-threading → 3.13 venv).
Résultats (sourcés)Results (sourced)
  • 6 modèles benchés ; gagnant qwen3:8b composite 81,1 @ 17,8 tok/s6 models benchmarked; winner qwen3:8b composite 81.1 @ 17.8 tok/s
  • MLX ≈ 2× Ollama sur le 4B (38-40 vs 18,3 tok/s) ; cold-start 60-70 s → warm 1-2 s (prompt caching)MLX ≈ 2× Ollama on the 4B (38-40 vs 18.3 tok/s); cold-start 60-70 s → warm 1-2 s (prompt caching)
  • Tuning d'inférence : ×3 et ×11 sur le tool-calling · rigueur d'éval : bug de harness corrigé (BFCL 48 % → ~84 %)Inference tuning: ×3 and ×11 on tool-calling · eval rigor: harness bug fixed (BFCL 48% → ~84%)
  • Cross-platform prouvé : sur GPU AMD RX 6800XT (LM Studio/Vulkan, full GPU) — 9B @ ~70 tok/s, 12B @ 43, 4B @ 122 (Q4_K_M) — 100 % local, 0 coût APICross-platform proven: on AMD RX 6800XT GPU (LM Studio/Vulkan, full GPU) — 9B @ ~70 tok/s, 12B @ 43, 4B @ 122 (Q4_K_M) — 100% local, zero API cost
MLXQwen3.5OllamaLM StudioAMD RX 6800XTVulkanBFCL v4Apple Silicon
Cross-platform (mesuré). LLM locaux sur deux plateformes : Apple Silicon (Mac M4, MLX) et GPU AMD RDNA2 (RX 6800XT 16 Go, Windows, LM Studio / Vulkan). Sur le GPU AMD, full offload, Q4_K_M : Nemotron-4B 122 tok/s · Qwen3.5-9B ~70 tok/s · Gemma-4-12B 43 tok/s (TTFT < 0,12 s) — 100 % local, hors-ligne, 0 coût API. Pas de fine-tuning ; sur l'iGPU Radeon 890M du Proxmox, le 27B dense plafonnait à ~1-2,5 tok/s → règle « tok/s < 5 → cloud ». Cross-platform (measured). Local LLMs on two platforms: Apple Silicon (Mac M4, MLX) and AMD RDNA2 GPU (RX 6800XT 16 GB, Windows, LM Studio / Vulkan). On the AMD GPU, full offload, Q4_K_M: Nemotron-4B 122 tok/s · Qwen3.5-9B ~70 tok/s · Gemma-4-12B 43 tok/s (TTFT < 0.12 s) — 100% local, offline, zero API cost. No fine-tuning; on the Proxmox Radeon 890M iGPU the dense 27B capped at ~1-2.5 tok/s → rule "tok/s < 5 → cloud".
03

Infra Proxmox auto-gérée par agents + socle AIOpsAgent-operated Proxmox infra + AIOps foundation

Problème. Avant d'orchestrer des agents, il faut un substrat fiable, sécurisé et observable. Sans télémétrie, pas d'AIOps. Problem. Before orchestrating agents you need a reliable, secure, observable substrate. Without telemetry, no AIOps.

RéalisationWhat I did
  • Conçu et opère un homelab Proxmox single-node : 17 LXC unprivileged, 3 VLANs isolés (MGMT/DMZ/DATA), firewall iptables FORWARD-DROP, accès zero-trust Tailscale, reverse-proxy NPM durci, DNS Pi-hole, IPAM NetBox, observabilité Checkmk + Prometheus/Grafana + Uptime Kuma.
  • Designed and operate a single-node Proxmox homelab: 17 unprivileged LXC, 3 isolated VLANs (MGMT/DMZ/DATA), iptables FORWARD-DROP firewall, zero-trust Tailscale, hardened NPM reverse proxy, Pi-hole DNS, NetBox IPAM, observability Checkmk + Prometheus/Grafana + Uptime Kuma.
  • Build-to-Run prouvé : RCA d'un incident firewall réel (forwarding cassé ~19 h → restauré, cause racine éliminée — 3 loaders rendus byte-identiques).
  • Build-to-Run proven: RCA of a real firewall incident (forwarding broken ~19 h → restored, root cause eliminated — 3 loaders made byte-identical).
Résultats (sourcés)Results (sourced)
  • 17 LXC / 3 VLAN / 91 Go RAM (Ryzen AI 9 HX PRO 370), PVE 9.2.3 · 16 hosts / ~400 services supervisés17 LXC / 3 VLANs / 91 GB RAM (Ryzen AI 9 HX PRO 370), PVE 9.2.3 · 16 hosts / ~400 services monitored
  • Surface WAN réduite à 2 services exposés · SSH key-only · tailnet 6 nodes · ZFS 3,62 To mirror + L2ARC, ~1050 snapshotsWAN surface cut to 2 exposed services · SSH key-only · 6-node tailnet · ZFS 3.62 TB mirror + L2ARC, ~1050 snapshots
Proxmox VEZFSiptablesTailscaleNPMCheckmkPrometheus/GrafanaNetBox
AIOps = direction R&D (enrichissement d'alertes LLM, RCA assistée), soutenue par la télémétrie existante — pas de ROI client mesuré à date. Limites assumées : single-node, SPOF NPM + vm-pool single-NVMe, backups sans offsite. Posture sécurité auto-évaluée 6,5/10 (transparence). AIOps = R&D direction (LLM-augmented alerting, assisted RCA), backed by existing telemetry — no measured client ROI to date. Owned limits: single-node, NPM + single-NVMe vm-pool SPOFs, backups without offsite. Self-rated security posture 6.5/10 (transparency).
04

RAG self-hosted (JimDB) + intégration MCPSelf-hosted RAG (JimDB) + MCP integration

Problème. Un agent fiable a besoin de mémoire sémantique et d'un accès outillé standardisé à ses sources — sans envoyer les données dans le cloud. Problem. A reliable agent needs semantic memory and standardized tooled access to its sources — without sending data to the cloud.

Réalisation & résultatsWhat I did & results
  • Déployé JimDB : vector store PostgreSQL 16 + pgvector sur conteneur isolé, API FastAPI, interrogeable via MCP.Deployed JimDB: a PostgreSQL 16 + pgvector vector store on an isolated container, FastAPI API, queryable via MCP.
  • 2411 embeddings indexés, latence <100 ms · accès outillé standardisé via MCP2,411 embeddings indexed, <100 ms latency · standardized tooled access via MCP
PostgreSQL 16pgvectorsentence-transformersFastAPIMCP
POC archivé. Le conteneur JimDB a depuis été détruit ; la cible est memorySearch natif + Ollama. Présenté au passé, chiffre non gonflé (2411, pas « des millions »). Archived POC. The JimDB container has since been destroyed; the target is native memorySearch + Ollama. Presented in the past tense, figure not inflated (2,411, not "millions").
05

OpenClaw-PME — offre « Assistant IA autonome self-hosted »OpenClaw-SMB — "self-hosted autonomous AI assistant" offering

Problème. Les PME veulent de l'IA utile mais craignent l'envoi de leurs données dans le cloud (RGPD, Cloud Act). Comment packager une IA souveraine, abordable et gouvernée ? Problem. SMBs want useful AI but fear sending data to the cloud (GDPR, Cloud Act). How do you package sovereign, affordable, governed AI?

RéalisationWhat I did
  • Packagé l'orchestration d'agents en offre commerciale : DAT complet d'un assistant IA 100 % on-premise (OpenClaw + Ollama local, connecteurs Teams/Slack/Email/SSH/ITSM/Zabbix/AD-LDAP), 3 dimensionnements hardware, matrice de sécurité, RGPD by design.Packaged agent orchestration into a commercial offering: full design of a 100% on-premise AI assistant (OpenClaw + local Ollama, Teams/Slack/Email/SSH/ITSM/Zabbix/AD-LDAP connectors), 3 hardware sizings, a security matrix, GDPR by design.
  • 3 packs : Starter 500 € / Pro 1200 € / Enterprise 2500 €/mois HT — LLM 100 % local (0 donnée cloud)3 packs: Starter €500 / Pro €1,200 / Enterprise €2,500/month — 100% local LLM (zero cloud data)
OpenClaw (Docker hardened)Ollamaconnecteurs ITSMRGPD/GDPRCaddy
Offre conçue et packagée, pas encore de référence client IA : value prop et ROI = hypothèses de business plan, pas des résultats clients mesurés. Designed and packaged, no AI client reference yet: value prop and ROI are business-plan assumptions, not measured client results.
Compétences IAAI skills
Du modèle au monitoringFrom the model to monitoring

Orchestration d'agentsAgent orchestration

Conception multi-agents superviseur/exécutant (Jim ↔ Harry) · crons autonomes 24/7 · fallback multi-modèles · sub-agents concurrents · matrice de permissions N1-N4 + human-in-the-loop · skills modulaires.Supervisor/worker multi-agent design (Jim ↔ Harry) · 24/7 autonomous crons · multi-model fallback · concurrent sub-agents · N1-N4 permission matrix + human-in-the-loop · modular skills.

Via OpenClaw / Hermes + tooling custom — LangChain/LangGraph non revendiqués comme frameworks.Via OpenClaw / Hermes + custom tooling — LangChain/LangGraph not claimed as frameworks.

LLM local & privacyLocal LLM & privacy

Bascule cloud → local (MLX, Qwen) · runtimes MLX & Ollama (Apple Silicon) + LM Studio (GPU AMD RX 6800XT, Vulkan) = local cross-platform · prompt caching · harness de benchmark (BFCL, safety) · tuning d'inférence mesuré (3×-11×) · red-teaming & hardening · 0 token cloud.Cloud → local cutover (MLX, Qwen) · MLX & Ollama runtimes (Apple Silicon) + LM Studio (AMD RX 6800XT GPU, Vulkan) = cross-platform local · prompt caching · benchmark harness (BFCL, safety) · measured inference tuning (3×-11×) · red-teaming & hardening · zero cloud tokens.

Pas de fine-tuning/training ; local cross-platform (Apple Silicon + AMD).No fine-tuning/training; cross-platform local (Apple Silicon + AMD).

AIOps & observabilitéAIOps & observability

Observabilité full-stack (Checkmk 16 hosts/~400 services, Prometheus/Grafana, Uptime Kuma, ELK en mission) · corrélation de logs · incident management & RCA · vision d'enrichissement d'alertes par LLM.Full-stack observability (Checkmk 16 hosts/~400 services, Prometheus/Grafana, Uptime Kuma, ELK on assignment) · log correlation · incident management & RCA · LLM-augmented alerting vision.

AIOps = R&D/direction soutenue par la télémétrie, pas un produit livré.AIOps = telemetry-backed R&D, not a shipped product.

Automatisation & socle dataAutomation & data foundation

Orchestration à grande échelle (SaltStack 180 minions, Ansible) · industrialisation PowerShell (20+ scripts) · GitOps · MCP (3 serveurs) · Python Avancé (FastAPI, RAG) · PostgreSQL + pgvector · Cloud public Intermédiaire.Large-scale orchestration (SaltStack 180 minions, Ansible) · PowerShell industrialization (20+ scripts) · GitOps · MCP (3 servers) · Advanced Python (FastAPI, RAG) · PostgreSQL + pgvector · Intermediate public cloud.

IaC via Ansible/GitOps — pas Terraform/Kubernetes en prod.IaC via Ansible/GitOps — not Terraform/Kubernetes in production.
ParcoursTrack record
7+ ans en production critique7+ years in critical production
Conforama · 2024-2025
  • Migration de 230 serveurs Windows (2012 R2 → 2019/2022) en 6 vagues : 0 incident de prod, downtime 2h15 vs 4h planifié, rollback testé.Migrated 230 Windows servers (2012 R2 → 2019/2022) in 6 waves: 0 production incidents, 2h15 downtime vs 4h planned, rollback tested.
  • Supervision Centreon 500+ serveurs + corrélation de logs ELK ; bastion (point d'entrée unique, audit trail) + EDR SentinelOne / BAS XM Cyber.Centreon monitoring of 500+ servers + ELK log correlation; bastion (single entry point, audit trail) + SentinelOne EDR / XM Cyber BAS.
  • Industrialisation PowerShell (20+ scripts, logging CSV → Grafana) : RUN 40 h → 8 h/mois (-80 %), détection proactive quotidienne.PowerShell industrialization (20+ scripts, CSV logging → Grafana): RUN 40h → 8h/month (-80%), daily proactive detection.
AMI Paris · 2023-2024
  • Zabbix 6.4 from scratch (50+ templates, API Veeam, webhooks Teams) : détection des incidents -90 %, ~30 k€/an économisés.Zabbix 6.4 from scratch (50+ templates, Veeam API, Teams webhooks): incident detection -90%, ~€30k/year saved.
  • MDM Addigy + Apple Business Manager sur 150+ iPads / 90 boutiques (3 continents) : déploiement d'app 2 j → 30 min (-96 %), coût de gestion -66 %.Addigy MDM + Apple Business Manager across 150+ iPads / 90 stores (3 continents): app deployment 2 days → 30 min (-96%), management cost -66%.
  • Administration AD / Azure AD hybride (330 utilisateurs), migration firewall SonicWall → Sophos, ticketing GestSup from scratch, DAT 30p + DEX 45p.Hybrid AD / Azure AD administration (330 users), SonicWall → Sophos firewall migration, GestSup ticketing from scratch, 30p DAT + 45p ops guide.
Brunchstudio / Nightshift · 2022-2023
  • SaltStack + 180 minions (states + provisioning PXE) : provisioning d'une machine 4 h → 20 min (-88 %), incidents de config 15 → 2/mois.SaltStack + 180 minions (states + PXE provisioning): machine provisioning 4h → 20 min (-88%), config incidents 15 → 2/month.
  • Supervision Zabbix 300+ serveurs + 20+ dashboards Grafana (discovery rules auto) ; disponibilité render farm 92 → 98 %.Zabbix monitoring of 300+ servers + 20+ Grafana dashboards (auto discovery rules); render-farm uptime 92 → 98%.
  • Remplacement de 60 serveurs Blades + 4 hyperviseurs (refonte réseau intersite, continuité de service) ; PostgreSQL/MongoDB from scratch (DaVinci Resolve).Replaced 60 blade servers + 4 hypervisors (inter-site network redesign, zero service loss); PostgreSQL/MongoDB from scratch (DaVinci Resolve).
Ministère de l'Intérieur (DCSP) · 2018-2021
  • Migration Windows 7 → 10 sur 300 postes VIP en environnement ANSSI : masters MDT/SCCM, packaging, task sequences zero-touch (PXE).Windows 7 → 10 migration across 300 VIP workstations in an ANSSI environment: MDT/SCCM masters, packaging, zero-touch task sequences (PXE).
  • iTop ITSM from scratch : SLA respectés 40 % → 85 %, résolution 4 j → 1,5 j, 150+ articles de KB, 3000+ tickets importés.iTop ITSM from scratch: SLA compliance 40% → 85%, resolution 4 days → 1.5 day, 150+ KB articles, 3,000+ tickets imported.
  • Administration AD/GPO, 50+ serveurs vSphere, supervision Centreon ; gestion de crise Covid (télétravail + visioconférence interministérielle).AD/GPO administration, 50+ vSphere servers, Centreon monitoring; Covid crisis management (remote work + inter-ministerial video-conferencing).

Parlons de votre projet IALet's talk about your AI project

Orchestration d'agents · LLM local / privacy · AIOps — Freelance (SASU), Paris & Remote, 7+ ans.Agent orchestration · local / private LLM · AIOps — Freelance (SASU), Paris & Remote, 7+ years.

Raed Ben Youssef · Paris, Île-de-France · Tous les chiffres sont sourcés et vérifiables.All figures are sourced and verifiable.