Was waere, wenn Sie einer KI sagen koennten: “Oeffne Firefox, navigiere zu einer Website, fuelle das Formular aus und speichere das Ergebnis” — und sie es tatsaechlich tut? Nicht mit einem fragilen Selenium-Skript. Nicht mit einer massgeschneiderten API-Integration. Einfach… indem sie auf den Bildschirm schaut und Maus und Tastatur wie ein Mensch benutzt.

Genau das macht Claudes Computer Use Tool.

Was ist Computer Use?

Computer Use ist eine Beta-API-Funktion, die es Claude ermooglicht, mit Desktop-Umgebungen zu interagieren durch:

Bildschirmaufnahme — Claude sieht, was auf dem Bildschirm angezeigt wird
Maussteuerung — Klicken, Ziehen, Scrollen
Tastatureingabe — Text tippen, Tastenkombinationen druecken
Desktop-Automatisierung — mit jeder Anwendung interagieren

Das Schluesselwort ist jeder. Im Gegensatz zur traditionellen Automatisierung (Selenium fuer Browser, AppleScript fuer macOS) braucht Claude keine speziellen APIs oder Element-Selektoren. Es schaut auf die Pixel am Bildschirm und entscheidet, wo geklickt werden soll. Genau wie Sie.

Wie es funktioniert (die Agenten-Schleife)

Computer Use folgt einem einfachen Zyklus:

Sie senden Claude eine Aufgabe — “Speichere ein Bild einer Katze auf meinem Desktop”
Claude fordert eine Aktion an — “Mache einen Screenshot”
Ihre Anwendung fuehrt sie aus — erfasst den Bildschirm, gibt das Bild zurueck
Claude analysiert und fordert die naechste Aktion an — “Klicke auf die Koordinaten (500, 300)”
Wiederholen bis die Aufgabe erledigt ist

Dieser Zyklus wird als Agenten-Schleife (Agent Loop) bezeichnet. Claude fordert weiterhin Aktionen an (Screenshot, Klick, Tippen, Scrollen) und Ihre Anwendung fuehrt sie aus, bis Claude feststellt, dass die Aufgabe abgeschlossen ist.

Hier ist der minimale API-Aufruf zum Starten:

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ],
    messages=[{
        "role": "user",
        "content": "Speichere ein Bild einer Katze auf meinem Desktop."
    }],
    betas=["computer-use-2025-11-24"],
)

Der Beta-Header "computer-use-2025-11-24" ist erforderlich. Die drei Tools (Computer, Texteditor, Bash) arbeiten zusammen, um Claude die volle Kontrolle ueber die Umgebung zu geben.

Verfuegbare Aktionen

Das Computer Use Tool unterstuetzt ein reichhaltiges Set an Interaktionen:

Basisaktionen

screenshot — aktuelle Anzeige erfassen
left_click — Klick auf die Koordinaten [x, y]
type — einen Text eintippen
key — eine Taste oder Tastenkombination druecken (z.B. ctrl+s, alt+tab)
mouse_move — den Cursor bewegen

Erweiterte Aktionen (Claude 4.x Modelle)

scroll — in jede Richtung scrollen mit Mengensteuerung
left_click_drag — Klicken und Ziehen zwischen Koordinaten
right_click, middle_click — zusaetzliche Maustasten
double_click, triple_click — Mehrfachklicks
hold_key — eine Taste fuer eine bestimmte Dauer gedrueckt halten
wait — Pause zwischen Aktionen

Neueste Ergaenzung: Zoom

Verfuegbar fuer Claude Opus 4.6, Sonnet 4.6 und Opus 4.5:

zoom — einen bestimmten Bildschirmbereich in voller Aufloesung inspizieren

Besonders nuetzlich, wenn Claude kleinen Text lesen oder feine UI-Details erkennen muss.

Die Rechenumgebung

Claude verbindet sich nicht direkt mit Ihrem Computer. Sie muessen eine isolierte Umgebung (Sandbox) bereitstellen — typischerweise ein Docker-Container mit:

Virtuelles Display — Xvfb (X Virtual Framebuffer) rendert den Desktop
Desktop-Umgebung — ein leichtgewichtiger Window-Manager wie Mutter
Anwendungen — Firefox, LibreOffice, Dateimanager usw.
Tool-Implementierungen — Code, der Claudes Anfragen in tatsaechliche Maus-/Tastaturoperationen uebersetzt

Anthropic stellt eine Referenzimplementierung bereit, in der all dies in Docker vorkonfiguriert ist. Der schnellste Weg zum Loslegen.

Die Agenten-Schleife aufbauen

Hier ist eine vereinfachte Agenten-Schleife, die den Austausch handhabt:

async def agent_loop(task: str, max_iterations: int = 10):
    client = anthropic.Anthropic()
    messages = [{"role": "user", "content": task}]

    tools = [
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ]

    for _ in range(max_iterations):
        response = client.beta.messages.create(
            model="claude-opus-4-6",
            max_tokens=4096,
            messages=messages,
            tools=tools,
            betas=["computer-use-2025-11-24"],
        )

        messages.append({"role": "assistant", "content": response.content})

        tool_results = []
        for block in response.content:
            if block.type == "tool_use":
                result = execute_tool(block.name, block.input)
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result,
                })

        if not tool_results:
            return messages  # Aufgabe abgeschlossen

        messages.append({"role": "user", "content": tool_results})

Die Funktion execute_tool ist der Ort, an dem Sie die tatsaechliche Bildschirmaufnahme, Mausklicks und Tastatureingabe mit Ihrer Rechenumgebung verbinden.

Koordinatenskalierung: Die Falle

Die API beschraenkt Bilder auf maximal 1568px an der laengsten Seite. Wenn Ihr Display groesser ist (sagen wir 1512x982), werden Screenshots herunterskaliert — aber Claude gibt Koordinaten basierend auf dem kleineren Bild zurueck.

Sie muessen die Koordinaten zurueckskalieren:

import math

def get_scale_factor(width, height):
    long_edge = max(width, height)
    total_pixels = width * height
    long_edge_scale = 1568 / long_edge
    total_pixels_scale = math.sqrt(1_150_000 / total_pixels)
    return min(1.0, long_edge_scale, total_pixels_scale)

scale = get_scale_factor(1512, 982)

# Wenn Claude sagt "klicke auf (450, 300)", skalieren Sie hoch:
def execute_click(x, y):
    screen_x = x / scale
    screen_y = y / scale
    perform_click(screen_x, screen_y)

Diesen Schritt zu ueberspringen bedeutet, dass Claudes Klicks ihre Ziele verfehlen. Dies ist der haeufigste Implementierungsfehler.

Prompting-Tipps fuer bessere Ergebnisse

Computer Use funktioniert am besten mit klaren, strukturierten Prompts:

Seien Sie spezifisch. “Oeffne Firefox, gehe zu example.com und klicke auf den Login-Button” funktioniert besser als “melde dich auf der Seite an”.
Bitten Sie Claude zu verifizieren. Fuegen Sie dies zu Ihrem Prompt hinzu: “Mache nach jedem Schritt einen Screenshot und bewerte, ob du das richtige Ergebnis erzielt hast. Gehe erst weiter, wenn es bestaetigt ist.”
Verwenden Sie Tastenkombinationen. Dropdown-Menues und Scrollbalken koennen schwer zu klicken sein. Weisen Sie Claude an, stattdessen Tab, Enter und Pfeiltasten zu verwenden.
Liefern Sie Beispiele. Fuer wiederholbare Aufgaben fuegen Sie Beispiel-Screenshots und erwartete Tool-Aufrufe in Ihren Prompt ein.
Verwenden Sie XML-Tags fuer Zugangsdaten. Wenn Claude sich einloggen muss, uebergeben Sie die Zugangsdaten in <robot_credentials>-Tags. Aber seien Sie vorsichtig — die Risiken von Prompt-Injection sind hoeher, wenn Claude mit nicht vertrauenswuerdigen Inhalten interagiert.

Sicherheit: Nehmen Sie sie ernst

Computer Use hat einzigartige Sicherheitsrisiken:

Prompt-Injection ueber Bildschirminhalte. Claude liest alles auf dem Bildschirm. Eine boeswillige Webseite koennte Anweisungen anzeigen, die Ihren Prompt ueberschreiben.
Autonome Aktionen. Claude koennte auf Links klicken, Dialoge akzeptieren oder von der beabsichtigten Stelle wegnavigieren.
Offenlegung von Zugangsdaten. Wenn Claude Passwoerter oder Token auf dem Bildschirm sehen kann, werden sie Teil der Konversation.

Anthropic hat Klassifizierer eingebaut, die potenzielle Prompt-Injections in Screenshots erkennen. Aber die beste Verteidigung ist Isolation:

Fuehren Sie alles in einer dedizierten VM oder einem Docker-Container mit minimalen Rechten aus
Geben Sie keinen Zugang zu sensiblen Konten ohne Aufsicht
Beschraenken Sie den Internetzugang auf eine Whitelist von Domains
Fordern Sie menschliche Bestaetigung fuer folgenreiche Aktionen (Kaeufe, Kontoerstellung usw.)

Was damit bauen?

Computer Use ist ideal fuer Aufgaben, bei denen Geschwindigkeit nicht entscheidend ist, aber Automatisierung wertvoll:

Automatisierte Tests — testen Sie jede Desktop-Anwendung, nicht nur Web-Apps
Datensammlung — navigieren Sie Websites und extrahieren Sie Informationen
Legacy-System-Integration — automatisieren Sie Workflows in Apps ohne API
Formularausfuellung — fuellen Sie Webformulare auf mehreren Seiten aus
Recherche-Workflows — suchen, lesen und kompilieren Sie Informationen aus dem Web
QA und Monitoring — ueberpruefen Sie, ob Oberflaechen korrekt gerendert werden

Fuer Recherche- und Datensammlungs-Workflows ergaenzen Tools wie Save das Computer Use gut — sobald Claude zu einer Seite navigiert hat, erhalten Sie durch die Konvertierung in sauberes Markdown strukturierte, KI-bereite Inhalte statt roher Screenshots.

Aktuelle Einschraenkungen

Beachten Sie diese Beta-Einschraenkungen:

Latenz. Jede Aktion erfordert einen API-Aufruf, eine Bildschirmaufnahme und eine Antwort. Es ist langsamer als ein Mensch, der klickt.
Visuelle Genauigkeit. Claude kann kleinen Text falsch lesen oder UI-Elemente falsch identifizieren. Die neue Zoom-Aktion hilft, ist aber nicht perfekt.
Scrollen. In neueren Versionen deutlich verbessert, aber komplexe Scroll-Interaktionen koennen noch unzuverlaessig sein.
Tabellen. Zellenauswahl ist schwierig. Verwenden Sie wenn moeglich die Tastaturnavigation.
Keine Kontoerstellung in sozialen Netzwerken. Claude wird absichtlich keine Konten erstellen oder Menschen in sozialen Medien imitieren.

Preise

Computer Use folgt der Standard-Tool-Use-Preisgestaltung:

System-Prompt-Overhead: 466-499 Token
Tool-Definition: 735 Token pro Tool (fuer Claude 4.x)
Screenshots: als Vision-Token berechnet (variiert je nach Aufloesung)
Jeder API-Aufruf in der Agenten-Schleife ist eine separat abgerechnete Anfrage

Fuer eine typische 10-Schritte-Aufgabe rechnen Sie mit 15.000 bis 50.000 Token, abhaengig von Screenshot-Groessen und Antwort-Komplexitaet.

Zum Starten

Probieren Sie die Referenzimplementierung aus. Klonen Sie anthropic-quickstarts, starten Sie den Docker-Container und experimentieren Sie.
Beginnen Sie mit einfachen Aufgaben. “Oeffne einen Texteditor, tippe Hello World, speichere die Datei.” Bringen Sie die Agenten-Schleife zum Laufen, bevor Sie komplexe Workflows versuchen.
Fuegen Sie Sicherheitsnetze hinzu. Setzen Sie Iterationslimits. Validieren Sie Koordinaten. Protokollieren Sie jede Aktion. Fuegen Sie menschliche Bestaetigung fuer alles Irreversible hinzu.
Optimieren Sie Ihre Prompts. Je besser Ihre Anweisungen, desto weniger Iterationen braucht Claude — und desto niedriger sind Ihre Token-Kosten.

Computer Use stellt einen fundamentalen Wandel dessen dar, was mit KI-APIs moeglich ist. Anstatt fuer jede Anwendung massgeschneiderte Integrationen zu bauen, koennen Sie Claude die gleiche Schnittstelle geben, die Menschen verwenden — einen Bildschirm, eine Maus und eine Tastatur — und es den Rest herausfinden lassen.

Die Zukunft der Automatisierung sind nicht mehr APIs. Es ist KI, die die Schnittstellen nutzen kann, die wir bereits haben.