Skip to content

Giskard documentation

AI Security Vulnerabilities

Security vulnerabilities in AI systems represent critical weaknesses that can be exploited by malicious actors to compromise system integrity, extract sensitive information, or manipulate model behavior for harmful purposes.

Understanding Security Vulnerabilities

Security vulnerabilities differ from business failures in that they focus on malicious exploitation and system integrity rather than accuracy and reliability. These vulnerabilities can lead to data breaches, privacy violations, system manipulation, and other security incidents that pose significant risks to organizations and users.

Tip

You can find examples of security vulnerabilities in our RealHarm dataset.

Types of Security Vulnerabilities

Prompt Injection

A security vulnerability where malicious input manipulates the model’s behavior or extracts sensitive information.

Prompt Injection

Harmful Content Generation

Production of violent, illegal, or inappropriate material by AI models.

Harmful Content Generation

Information Disclosure

Revealing internal system details, training data, or confidential information.

Information Disclosure

Output Formatting Issues

Manipulation of response structure for malicious purposes or poor output formatting.

Output Formatting Issues

Robustness Issues

Vulnerability to adversarial inputs or edge cases causing inconsistent behavior.

Robustness Issues

Stereotypes & Discrimination

Biased responses that perpetuate harmful stereotypes and discriminatory behavior.

Stereotypes & Discrimination

Getting Started with Security Testing

To begin securing your AI systems:

Giskard Hub UI Security Dataset

Our state-of-the-art enterprise-grade security vulnerability testing.

Detect security vulnerabilities by generating synthetic tests

LLM Scan

Our open-source toolkit for security vulnerability testing.

Detect security vulnerabilities in LLMs using LLM Scan

Output Formatting Issues