Políticas de seguridad

Construye reglas de política en capas para prevención de inyección, protección contra pérdida de datos, detección de agencia excesiva y monitoreo de deriva de herramientas.

1. Prevención de inyección de prompt

ShieldAgent utiliza un clasificador ML para detectar inyección de prompt en los argumentos de llamadas de herramientas. Bloquea las llamadas que superen un umbral de confianza:

policy — injection block

{
  "tenantId": "<tenant-id>",
  "agentId": null,
  "toolName": "*",
  "action": "deny",
  "conditions": [
    {
      "type": "ml_injection_score_above",
      "threshold": "<your-threshold>"
    }
  ]
}

Configure un umbral que se ajuste a sus requisitos de seguridad y usabilidad. Los valores más bajos aumentan la sensibilidad de detección; los valores más altos reducen los falsos positivos.

2. Prevención de pérdida de datos

Evita que los agentes exfiltren secretos, PII o datos financieros a través de llamadas de herramientas:

policy — block SSH key exfiltration

{
  "tenantId": "<tenant-id>",
  "toolName": "send_email",
  "action": "deny",
  "conditions": [
    {
      "type": "param_matches_pattern",
      "param": "arguments.body",
      "pattern": "-----BEGIN (RSA|EC|OPENSSH) PRIVATE KEY-----"
    }
  ]
}

policy — shadow mode for PII in write_file

{
  "tenantId": "<tenant-id>",
  "toolName": "write_file",
  "action": "shadow",
  "conditions": [
    {
      "type": "param_contains_pii",
      "sensitivity": "high"
    }
  ]
}

3. Detección de agencia excesiva

Detecta agentes que llaman a herramientas destructivas con frecuencia anormal dentro de una sesión:

policy — rate limit destructive bash commands

{
  "tenantId": "<tenant-id>",
  "toolName": "bash",
  "action": "deny",
  "conditions": [
    {
      "type": "session_call_count_above",
      "threshold": 50,
      "window": "1h"
    }
  ]
}

La detección de agencia también se activa automáticamente cuando la puntuación de agencia excesiva de un agente supera el umbral de riesgo configurado — no se requiere política por herramienta.

4. Patrón de lista de herramientas permitidas

El patrón de política más seguro: permite explícitamente solo las herramientas que necesita un agente y deniega todo lo demás. Usa el enfoque de denegar todo el tenant + permitir por agente:

typescript

import ShieldAgent from '@shieldagent/sdk';

const client = new ShieldAgent();

// Implicit deny is already the default — no deny-all rule needed.
// Allow specific tools per agent:
for (const tool of ["read_file", "list_files", "search_web"]) {
  await client.policies.create({
    agentId: "<agent-id>",
    toolName: tool,
    action: "allow",
  });
}

5. Monitoreo de deriva de herramientas

La deriva de herramientas ocurre cuando un agente comienza a llamar herramientas fuera de su línea base establecida. Configura la sensibilidad de detección de deriva y la respuesta:

typescript

// View tool drift events for an agent
const driftEvents = await client.auditEvents.list({
  agentId: "<agent-id>",
  eventType: "tool_drift",
  limit: 20,
});

// Block new tools until explicitly approved
await client.agents.update("<agent-id>", {
  blockToolDiscovery: true,
});

Tool drift event

{
  "eventType": "tool_drift_detected",
  "agentId": "agt_01HXYZ...",
  "toolName": "delete_database",
  "baselineCallCount": 0,
  "sessionCallCount": 3,
  "driftScore": 0.94,
  "action": "blocked",
  "timestamp": "2026-04-16T14:23:00Z"
}

Plantillas de política

ShieldAgent incluye plantillas de política precompiladas para escenarios de seguridad comunes. Aplícalas a través del panel o la API:

typescript

// List available templates
const templates = await client.policyTemplates.list();

// Apply the "EU AI Act high-risk agent" template
await client.policyTemplates.apply("<template-id>", {
  agentId: "<agent-id>",
});

OWASP Top 10 para LLMs

Cubre todos los riesgos OWASP LLM: inyección, envenenamiento de datos, cadena de suministro

IA de alto riesgo según la Ley de IA de la UE

Recopilación completa de evidencia del Anexo IV + activadores de revisión humana

Huella mínima

Lista de herramientas de solo lectura + límites de sesión estrictos

Agente DevOps

Acceso controlado a bash/git con lista de bloqueo de comandos destructivos