Agent Skill
2/7/2026

sentinel-ai-security

AI Security Platform with 97 detection engines for protecting LLMs, AI agents, and multimodal systems. Detects prompt injection, jailbreaks, DAN attacks, and more. Includes Strike red team platform with 39,000+ attack payloads. Uses advanced mathematics including Topological Data Analysis, Sheaf Theory, and Hyperbolic Geometry. Production-ready with <10ms latency.

D
dmitrl
80GitHub Stars
2Views
npx skills add DmitrL-dev/AISecurity

SKILL.md

Namesentinel-ai-security
DescriptionAI Security Platform with 97 detection engines for protecting LLMs, AI agents, and multimodal systems. Detects prompt injection, jailbreaks, DAN attacks, and more. Includes Strike red team platform with 39,000+ attack payloads. Uses advanced mathematics including Topological Data Analysis, Sheaf Theory, and Hyperbolic Geometry. Production-ready with <10ms latency.
<div align="center"> <br>

S E N T I N E L

Your AI Is Under Attack. Your Classifier Can't See It.

Deterministic, mathematically-grounded AI security. Not another ML model hoping to catch what ML models miss.

<br>

Engines Patterns Tests Payloads Latency Detection

<br>

Rust C Go License

</div> <br>

🔴 We Broke Alibaba's Flagship AI Model. Is Yours Next?

QWEN-2026-001 — 5 critical safety bypass vectors discovered in Qwen 3.5-Plus, Alibaba's most advanced model.

ModelQwen 3.5-Plus (February 2026) — Alibaba's flagship
Safety StackQwen3Guard + GSPO + RationaleRM — 3 layers of defense
ResultAll 3 layers bypassed. 5 vectors. 5 stages. 3 chat sessions.
OutputFunctional shellcode, reverse shells, jailbreak automation tools, God Mode declarations
SeverityHigh (Systemic) — the model rated its own vulnerability

The attack chain: contextual framing → decorative refusal → God Mode → self-replicating jailbreak tools. Each stage looks like a legitimate request. No safety filter triggered.

If Alibaba's 3-layer safety stack couldn't stop us, what's protecting yours?

📄 Full advisory: QWEN-2026-001 · 🎬 Demo: YouTube


<br>

What We Do

<table> <tr> <td width="50%" valign="top">

🔍 AI Security Audit

We test your LLM deployment against 39,000+ attack payloads across 15 categories. You get a detailed vulnerability report with severity ratings, reproduction steps, and remediation guidance.

Deliverable: Full audit report + OWASP LLM Top 10 compliance mapping.

</td> <td width="50%" valign="top">

🛡️ Sentinel Integration

Deploy 61 deterministic Rust engines as an input/output firewall around your LLM. Sub-millisecond latency. 98.5% detection rate. No GPU required.

Deliverable: Production-ready security layer + monitoring dashboard.

</td> </tr> <tr> <td width="50%" valign="top">

⚔️ Red Team Operations

Adversarial testing by the team that broke Qwen 3.5-Plus. We find what your safety stack misses — prompt injection chains, multi-turn escalation, contextual framing, tool-call exploitation.

Deliverable: Attack chain documentation + video demonstrations.

</td> <td width="50%" valign="top">

🎓 Sentinel Academy

90+ lessons across 3 skill levels. From prompt injection basics to formal verification of safety properties. Available in English and Russian.

Deliverable: Team training program + certification.

</td> </tr> </table> <br>

Why Sentinel

MetricValueWhat It Means
61 enginesRust, deterministic, zero MLNo false negatives from model drift. Same input = same result. Always.
1,101 tests0 failuresEvery engine, every pattern, every edge case — verified.
98.5% detection250,000 simulated attacksAcross 15 attack categories. The 1.5% residual is the theoretical floor.
<1ms latencyPer queryFast enough for real-time production. No GPU. No batching.
7 novel primitives0 prior implementations51 searches on grep.app confirmed: we invented these.
19 scientific domainsFrom formal verification to immunologyEach domain solves a problem the others can't. Independent failure modes.
OWASP 9/10Agentic AI Top 10 coverageFull platform: sentinel-core + shield + immune. Compliance mapping available.
<br>

The Problem

Every AI system deployed today faces the same fundamental challenge: the model cannot distinguish legitimate instructions from adversarial ones. A prompt injection attack looks identical to normal input. A jailbreak uses the same natural language as a help request. A data exfiltration chain can consist entirely of individually-legitimate tool calls.

Current defenses rely on ML classifiers that share the same blindness as the models they protect. Sentinel takes a different approach: deterministic, mathematically-grounded defense that doesn't depend on another AI to detect what AI can't see.

61 Rust detection engines. Sub-millisecond latency. 98.5% detection across 250,000 simulated attacks spanning 15 categories. 7 novel security primitives derived from 19 scientific domains — from formal verification to mechanism design to immunology.

<br>

How It Works

Sentinel operates as a defense-in-depth cascade. Each layer catches what the previous one missed, and each layer uses a fundamentally different detection paradigm — so a bypass for one layer doesn't help against the next.

250,000 attacks enter the system
    |
    +-- L1  Sentinel Core (regex engines) ---- catches  36.0%   ← deterministic pattern matching
    |   Remaining: 160,090
    |
    +-- L2  Capability Proxy (IFC) ----------- catches  20.3%   ← structural: data CAN'T flow wrong
    |   Remaining: 109,241
    |
    +-- L3  Behavioral EDR ------------------- catches  10.9%   ← runtime anomaly detection
    |   Remaining: 82,090
    |
    +-- PASR  Provenance tracking ------------ catches   2.0%   ← unforgeable provenance certificates
    +-- TCSA  Temporal chains + capabilities -- catches   0.8%   ← LTL safety automata
    +-- ASRA  Ambiguity resolution ----------- catches   1.3%   ← argumentation + mechanism design
    +-- Combinatorial layers (A+B+G) --------- catches   6.1%   ← impossibility proofs
    +-- MIRE  Model containment -------------- contains  0.7%   ← don't detect, CONTAIN
    |
    RESIDUAL: ~1.5% (~3,750 attacks — theoretical floor)

The key insight: each layer uses a different scientific paradigm, so they don't share failure modes. Pattern matching, information flow control, temporal logic, argumentation theory, mechanism design, and containment are mathematically independent approaches.

<br>

Platform Components

Defense

sentinel-core Rust — 61 deterministic detection engines, 810+ regex patterns, 1101 tests. Sub-millisecond per-query latency. Covers OWASP LLM Top 10, CSA MCP TTPs, GenAI Attacks Matrix, and all 7 Sentinel Lattice primitives.

brain Python — AI Security Backend. gRPC API with 32 modules: analyzer, audit, compliance, graph, hive, GPU inference, rules engine, SDK.

shield C11 — AI Security DMZ. 36,000+ LOC pure C11, 21 protocols, 119 CLI handlers, 103 tests. Zero external dependencies.

immune C — EDR/XDR for AI infrastructure. Kernel-level endpoint protection, TLS/mTLS, Bloom filters, eBPF hooks.

micro-swarm Python — Lightweight ML ensemble. <1ms inference, F1=0.997. Complements deterministic engines with statistical detection.

sentinel-sdk Python — Integration SDK.  |  sentinel CLI Python — CLI framework wrapping sentinel-core.

Offense

strike Python — AI Red Team Platform. 39,000+ attack payloads across 15 categories. Autonomous adversarial testing against your own defenses.

Infrastructure

gomcp Go — MCP server with hierarchical memory, cognitive state, causal reasoning graphs.

devkit — Agent-first development toolkit.  |  patterns YAML — Detection pattern databases (CJK jailbreaks, Pipelock taxonomy).  |  signatures JSON — Signature databases (jailbreaks EN/RU, PII, keywords).

<br>

The Sentinel Lattice — 7 Novel Security Primitives

These aren't incremental improvements. Each primitive addresses a mathematically proven limitation of existing approaches. 51 cross-domain searches on grep.app confirmed: zero prior implementations exist for any of these.

PrimitiveSource DomainThe ProblemHow It Solves It
TSARuntime Verification (Havelund & Rosu)Individual tool calls are legitimate, but the chain is malicious. Current guards only check pairs.LTL safety properties compiled to O(1) monitor automata. Checks arbitrary-length chains in constant time.
CAFLInformation Flow ControlLLM can perform ANY information transformation — taint tracking breaks because the model is a black box.Worst-case assumption: if tainted data enters LLM, ALL output is tainted. Capabilities only DECREASE through chains. Sound by construction.
GPSPredictive AnalyticsAttacks are detected only AFTER the damage is done.Enumerates the 16-bit abstract state space (65,536 states). Computes what fraction of continuations lead to danger. GPS > 0.7 = early warning BEFORE the attack arrives.
AASArgumentation Theory (Dung 1995)"How do I mix bleach and ammonia?" — chemistry student or attacker? Same text, same semantics. No classifier can distinguish them.Constructs explicit argumentation frameworks. Computes grounded extension via fixed-point iteration. Context-conditioned attacks tip the decision. Fully auditable for EU AI Act.
IRMMechanism Design (Economics)Text alone cannot reveal intent — the fundamental impossibility of semantic identity.Designs interactions where malicious users' behavior reveals intent. Screening, costly signaling, sequential revelation — even when text is identical, choices differ.
MIRECryptography (Goldwasser-Kim 2022)Backdoor detection is mathematically impossible (proven). All detection has a fundamental ceiling.Paradigm shift: don't detect — contain. Output envelope, canary probes, spectral watchdog, capability sandbox. The backdoor activates but achieves nothing.
PASRCategory Theory + CryptographySemantic transduction destroys tokens. L2 taint tags die with them. Provenance and semantics are architecturally incompatible.Two-channel output: lossy semantic intent + HMAC-signed provenance certificate. Provenance is a property of derivations, not tokens. A categorical fibration.

23-page academic paper (USENIX format): papers/sentinel-lattice

Full architecture & R&D notes: docs/rnd

<br>

Scientific Foundations

The 7 primitives draw from 19 scientific domains. This isn't decoration — each domain contributes a specific mathematical tool that solves a specific security problem:

DomainContribution to Sentinel
Runtime VerificationLTL temporal logic → monitor automata for tool-call chains (TSA)
Information Flow ControlBell-LaPadula lattice → data can only flow UP, never down (L2)
Argumentation TheoryDung's grounded semantics → auditable dual-use decisions (AAS)
Mechanism DesignScreening & costly signaling → intent revealed through behavior (IRM)
Category TheoryProvenance lifting functor → fibration preserving taint through lossy transforms (PASR)
CryptographyGoldwasser-Kim impossibility → containment paradigm shift (MIRE)
Control TheoryLyapunov stability → conversation trajectories provably bounded
ImmunologyNegative selection → anomaly detectors that don't need attack signatures
NeuroscienceLateral inhibition → competing interpretations suppress adversarial readings
Formal LinguisticsChomsky hierarchy → injection syntactically impossible at grammar level
Information TheoryShannon capacity → channel narrowed below minimum attack payload
Speech Act TheoryIllocutionary force → detects COMMAND(override) hidden in any prompt
Distributed SystemsBFT consensus → N≥3f+1 diverse models agree on safety
<br>

⏳ The Window Is Closing

The EU AI Act mandates security testing for high-risk AI systems. Attack surface is expanding — agentic workflows, tool-calling chains, multi-model pipelines. Every month without deterministic defense is another month of exposure.

  • EU AI Act Article 15: High-risk AI systems require robustness against adversarial attacks
  • OWASP LLM Top 10: Industry standard your auditors will ask about
  • Agentic explosion: Tool-calling LLMs create attack chains no classifier can follow

The question isn't whether your AI will be attacked. It's whether you'll know when it happens.

<br>
<div align="center">

Get Started

Request an audit · Schedule a red team engagement · Deploy Sentinel

📧 d.labintcev@gmail.com · 💬 Telegram · 🎮 Discord: dmitrysl3401 · 𝕏 @DLabintcev

<br>

Quick Start  ·  Security  ·  License  ·  Academy

</div> <br>
<br> <div align="center">

S E N T I N E L

Ваш ИИ атакуют. Ваш классификатор этого не видит.

Детерминированная, математически обоснованная защита ИИ. Не ещё одна ML-модель, надеющаяся поймать то, что ML-модели пропускают.

</div> <br>

🔴 Мы взломали флагманскую модель Alibaba. Ваша — следующая?

QWEN-2026-001 — 5 критических векторов обхода безопасности в Qwen 3.5-Plus, самой продвинутой модели Alibaba.

МодельQwen 3.5-Plus (февраль 2026) — флагман Alibaba
Стек безопасностиQwen3Guard + GSPO + RationaleRM — 3 уровня защиты
РезультатВсе 3 уровня обойдены. 5 векторов. 5 стадий. 3 чат-сессии.
ВыходРабочий шеллкод, реверс-шеллы, инструменты автоматизации джейлбрейков, God Mode
КритичностьHigh (Systemic) — модель сама оценила свою уязвимость

Цепочка атаки: контекстное фреймирование → декоративный отказ → God Mode → самовоспроизводящиеся джейлбрейк-инструменты.

Если 3-уровневый стек безопасности Alibaba нас не остановил — что защищает ваc?

📄 Полный advisory: QWEN-2026-001 · 🎬 Демо: YouTube


<br>

Что мы делаем

<table> <tr> <td width="50%" valign="top">

🔍 Аудит безопасности ИИ

Тестируем ваш LLM-деплой против 39 000+ атакующих нагрузок по 15 категориям. Детальный отчёт с уровнями критичности, шагами воспроизведения и рекомендациями.

Результат: Полный отчёт + маппинг OWASP LLM Top 10.

</td> <td width="50%" valign="top">

🛡️ Интеграция Sentinel

61 детерминированный Rust-движок как входной/выходной файрвол вокруг вашего LLM. Латентность <1мс. 98.5% обнаружение. GPU не нужен.

Результат: Продакшн-защита + дашборд мониторинга.

</td> </tr> <tr> <td width="50%" valign="top">

⚔️ Red Team операции

Adversarial-тестирование от команды, взломавшей Qwen 3.5-Plus. Находим то, что ваш стек безопасности пропускает — prompt injection цепочки, multi-turn эскалация, контекстное фреймирование.

Результат: Документация цепочек атак + видео-демонстрации.

</td> <td width="50%" valign="top">

🎓 Sentinel Academy

90+ уроков на 3 уровнях. От основ prompt injection до формальной верификации свойств безопасности. На английском и русском.

Результат: Программа обучения команды + сертификация.

</td> </tr> </table> <br>

Почему Sentinel

МетрикаЗначениеЧто это значит
61 движокRust, детерминированные, без MLНет ложных срабатываний от дрифта модели. Один вход = один результат. Всегда.
1 101 тест0 паденийКаждый движок, каждый паттерн, каждый edge case — проверен.
98.5% обнаружение250 000 атакПо 15 категориям. 1.5% остаток — теоретический пол.
<1мс латентностьНа запросДостаточно для продакшна в реальном времени. Без GPU.
7 новых примитивов0 существующих реализаций51 поиск по grep.app подтвердил: мы их изобрели.
19 научных областейОт формальной верификации до иммунологииКаждая область решает задачу, которую другие не могут.
OWASP 9/10Покрытие Agentic AI Top 10Вся платформа: sentinel-core + shield + immune. Маппинг доступен.
<br>

Проблема

Каждая развёрнутая сегодня AI-система сталкивается с одной фундаментальной проблемой: модель не может отличить легитимные инструкции от враждебных. Prompt-инъекция выглядит идентично нормальному вводу. Jailbreak использует тот же естественный язык, что и обычный запрос. Цепочка эксфильтрации данных может состоять из полностью легитимных вызовов инструментов.

Существующие защиты полагаются на ML-классификаторы, разделяющие ту же слепоту, что и защищаемые модели. Sentinel использует другой подход: детерминированная, математически обоснованная защита, не зависящая от другого ИИ.

61 Rust-движок. Латентность <1мс. 98.5% обнаружение на 250 000 атак по 15 категориям. 7 новых примитивов безопасности из 19 научных областей.

<br>

Как это работает

Sentinel работает как каскад эшелонированной обороны. Каждый уровень ловит то, что пропустил предыдущий, и каждый использует принципиально другую парадигму обнаружения.

250 000 атак входят в систему
    |
    +-- L1  Sentinel Core (regex-движки) ------ ловит  36.0%   ← детерминированное сопоставление
    |   Остаток: 160 090
    |
    +-- L2  Capability Proxy (IFC) ------------- ловит  20.3%   ← структурно: данные НЕ МОГУТ утечь
    |   Остаток: 109 241
    |
    +-- L3  Behavioral EDR --------------------- ловит  10.9%   ← обнаружение аномалий
    |   Остаток: 82 090
    |
    +-- PASR  Отслеживание провенанса ---------- ловит   2.0%   ← неподделываемые сертификаты
    +-- TCSA  Темпоральные цепочки ------------- ловит   0.8%   ← LTL-автоматы безопасности
    +-- ASRA  Разрешение неоднозначности ------- ловит   1.3%   ← аргументация + mechanism design
    +-- Комбинаторные слои (A+B+G) ------------- ловит   6.1%   ← доказательства невозможности
    +-- MIRE  Контейнмент модели --------------- содержит 0.7%  ← не обнаруживай — СОДЕРЖИ
    |
    ОСТАТОК: ~1.5% (~3 750 атак — теоретический пол)
<br>

Компоненты платформы

Защита

sentinel-core Rust — 61 детерминированный движок, 810+ regex-паттернов, 1101 тест. Латентность <1мс. Покрывает OWASP LLM Top 10, CSA MCP TTPs и все 7 примитивов Sentinel Lattice.

brain Python — AI Security Backend. gRPC API, 32 модуля: анализатор, аудит, комплаенс, граф, GPU-инференс, движок правил.

shield C11 — AI Security DMZ. 36 000+ LOC, 21 протокол, 119 CLI-обработчиков, 103 теста. Ноль внешних зависимостей.

immune C — EDR/XDR для AI-инфраструктуры. Защита на уровне ядра, TLS/mTLS, Bloom-фильтры, eBPF.

micro-swarm Python — ML-ансамбль. <1мс инференс, F1=0.997. Дополняет детерминированные движки статистическим обнаружением.

Наступление

strike Python — AI Red Team платформа. 39 000+ атакующих нагрузок по 15 категориям.

Инфраструктура

gomcp Go — MCP-сервер с иерархической памятью и каузальными графами.

devkit — Инструментарий разработки.  |  patterns YAML — Базы паттернов.  |  signatures JSON — Базы сигнатур.

<br>

Решётка Sentinel — 7 новых примитивов безопасности

Это не инкрементальные улучшения. Каждый примитив решает математически доказанное ограничение существующих подходов. 51 поиск по grep.app подтвердил: ни одной существующей реализации ни для одного из них.

ПримитивОбластьПроблемаРешение
TSARuntime VerificationКаждый вызов инструмента легитимен, но цепочка — атака.LTL-свойства → автоматы O(1). Проверяет цепочки любой длины за константное время.
CAFLInformation Flow ControlLLM — чёрный ящик, тейнт-трекинг ломается.Если тейнтованные данные вошли в LLM — весь выход тейнтован. Capabilities только убывают.
GPSПредиктивная аналитикаАтаки обнаруживаются после ущерба.Перечисляет 65 536 состояний. GPS > 0.7 = раннее предупреждение ДО атаки.
AASТеория аргументации«Как смешать отбеливатель и аммиак?» — студент или злоумышленник?Аргументационный фреймворк + обоснованное расширение. Аудируемо для EU AI Act.
IRMMechanism DesignТекст не может раскрыть намерение.Проектирует взаимодействия, где поведение раскрывает намерение.
MIREКриптографияОбнаружение бэкдоров математически невозможно.Не обнаруживай — содержи. Бэкдор активируется, но ничего не достигает.
PASRТеория категорийСемантическая трансдукция уничтожает тейнт-теги.Двухканальный выход: семантика + HMAC-подписанный сертификат провенанса.

Статья (23 стр., USENIX): papers/sentinel-lattice · Архитектура: docs/rnd

<br>

Научные основания

7 примитивов опираются на 19 научных областей. Каждая область даёт конкретный математический инструмент для конкретной проблемы безопасности:

ОбластьВклад в Sentinel
Runtime VerificationLTL темпоральная логика → автоматы-мониторы для цепочек вызовов (TSA)
Information Flow ControlРешётка Bell-LaPadula → данные могут течь только ВВЕРХ (L2)
Теория аргументацииОбоснованная семантика Dung → аудируемые решения по dual-use (AAS)
Mechanism DesignСкрининг и сигналирование → намерение раскрывается через поведение (IRM)
Теория категорийФунктор подъёма провенанса → фибрация через lossy-трансформации (PASR)
КриптографияНевозможность Goldwasser-Kim → парадигма контейнмента (MIRE)
Теория управленияУстойчивость Ляпунова → траектории разговоров доказуемо ограничены
ИммунологияНегативная селекция → детекторы аномалий без сигнатур атак
НейронаукаЛатеральное торможение → конкурирующие интерпретации подавляют adversarial
Формальная лингвистикаИерархия Хомского → инъекция синтаксически невозможна на уровне грамматики
Теория информацииПропускная способность Шеннона → канал сужен ниже минимальной атакующей нагрузки
Теория речевых актовИллокутивная сила → обнаруживает COMMAND(override) в любом промпте
Распределённые системыBFT-консенсус → N≥3f+1 разнородных моделей согласуют безопасность
<br>

⏳ Окно закрывается

EU AI Act требует тестирование безопасности для высокорисковых AI-систем. Поверхность атаки расширяется — агентные воркфлоу, цепочки вызовов инструментов, мультимодельные пайплайны. Каждый месяц без детерминированной защиты — ещё один месяц уязвимости.

  • EU AI Act, статья 15: Высокорисковые AI-системы требуют устойчивости к adversarial-атакам
  • OWASP LLM Top 10: Отраслевой стандарт, о котором спросят ваши аудиторы
  • Агентный взрыв: Tool-calling LLM создают цепочки атак, которые ни один классификатор не отследит

Вопрос не в том, будет ли ваш ИИ атакован. Вопрос в том, узнаете ли вы, когда это произойдёт.

<br>
<div align="center">

Начать

Запросить аудит · Заказать red team · Развернуть Sentinel

📧 d.labintcev@gmail.com · 💬 Telegram · 🎮 Discord: dmitrysl3401 · 𝕏 @DLabintcev

<br>

Quick Start  ·  Security  ·  License  ·  Academy

</div>
Skills Info
Original Name:sentinel-ai-securityAuthor:dmitrl