Claude Computer Use Tool: Der komplette Entwickler-Guide zur KI-Desktop-Automatisierung
Was waere, wenn Sie einer KI sagen koennten: “Oeffne Firefox, navigiere zu einer Website, fuelle das Formular aus und speichere das Ergebnis” — und sie es tatsaechlich tut? Nicht mit einem fragilen Selenium-Skript. Nicht mit einer massgeschneiderten API-Integration. Einfach… indem sie auf den Bildschirm schaut und Maus und Tastatur wie ein Mensch benutzt.
Genau das macht Claudes Computer Use Tool.
Was ist Computer Use?
Computer Use ist eine Beta-API-Funktion, die es Claude ermooglicht, mit Desktop-Umgebungen zu interagieren durch:
- Bildschirmaufnahme — Claude sieht, was auf dem Bildschirm angezeigt wird
- Maussteuerung — Klicken, Ziehen, Scrollen
- Tastatureingabe — Text tippen, Tastenkombinationen druecken
- Desktop-Automatisierung — mit jeder Anwendung interagieren
Das Schluesselwort ist jeder. Im Gegensatz zur traditionellen Automatisierung (Selenium fuer Browser, AppleScript fuer macOS) braucht Claude keine speziellen APIs oder Element-Selektoren. Es schaut auf die Pixel am Bildschirm und entscheidet, wo geklickt werden soll. Genau wie Sie.
Wie es funktioniert (die Agenten-Schleife)
Computer Use folgt einem einfachen Zyklus:
- Sie senden Claude eine Aufgabe — “Speichere ein Bild einer Katze auf meinem Desktop”
- Claude fordert eine Aktion an — “Mache einen Screenshot”
- Ihre Anwendung fuehrt sie aus — erfasst den Bildschirm, gibt das Bild zurueck
- Claude analysiert und fordert die naechste Aktion an — “Klicke auf die Koordinaten (500, 300)”
- Wiederholen bis die Aufgabe erledigt ist
Dieser Zyklus wird als Agenten-Schleife (Agent Loop) bezeichnet. Claude fordert weiterhin Aktionen an (Screenshot, Klick, Tippen, Scrollen) und Ihre Anwendung fuehrt sie aus, bis Claude feststellt, dass die Aufgabe abgeschlossen ist.
Hier ist der minimale API-Aufruf zum Starten:
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{
"role": "user",
"content": "Speichere ein Bild einer Katze auf meinem Desktop."
}],
betas=["computer-use-2025-11-24"],
)
Der Beta-Header "computer-use-2025-11-24" ist erforderlich. Die drei Tools (Computer, Texteditor, Bash) arbeiten zusammen, um Claude die volle Kontrolle ueber die Umgebung zu geben.
Verfuegbare Aktionen
Das Computer Use Tool unterstuetzt ein reichhaltiges Set an Interaktionen:
Basisaktionen
screenshot— aktuelle Anzeige erfassenleft_click— Klick auf die Koordinaten[x, y]type— einen Text eintippenkey— eine Taste oder Tastenkombination druecken (z.B.ctrl+s,alt+tab)mouse_move— den Cursor bewegen
Erweiterte Aktionen (Claude 4.x Modelle)
scroll— in jede Richtung scrollen mit Mengensteuerungleft_click_drag— Klicken und Ziehen zwischen Koordinatenright_click,middle_click— zusaetzliche Maustastendouble_click,triple_click— Mehrfachklickshold_key— eine Taste fuer eine bestimmte Dauer gedrueckt haltenwait— Pause zwischen Aktionen
Neueste Ergaenzung: Zoom
Verfuegbar fuer Claude Opus 4.6, Sonnet 4.6 und Opus 4.5:
zoom— einen bestimmten Bildschirmbereich in voller Aufloesung inspizieren
Besonders nuetzlich, wenn Claude kleinen Text lesen oder feine UI-Details erkennen muss.
Die Rechenumgebung
Claude verbindet sich nicht direkt mit Ihrem Computer. Sie muessen eine isolierte Umgebung (Sandbox) bereitstellen — typischerweise ein Docker-Container mit:
- Virtuelles Display — Xvfb (X Virtual Framebuffer) rendert den Desktop
- Desktop-Umgebung — ein leichtgewichtiger Window-Manager wie Mutter
- Anwendungen — Firefox, LibreOffice, Dateimanager usw.
- Tool-Implementierungen — Code, der Claudes Anfragen in tatsaechliche Maus-/Tastaturoperationen uebersetzt
Anthropic stellt eine Referenzimplementierung bereit, in der all dies in Docker vorkonfiguriert ist. Der schnellste Weg zum Loslegen.
Die Agenten-Schleife aufbauen
Hier ist eine vereinfachte Agenten-Schleife, die den Austausch handhabt:
async def agent_loop(task: str, max_iterations: int = 10):
client = anthropic.Anthropic()
messages = [{"role": "user", "content": task}]
tools = [
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
]
for _ in range(max_iterations):
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
messages=messages,
tools=tools,
betas=["computer-use-2025-11-24"],
)
messages.append({"role": "assistant", "content": response.content})
tool_results = []
for block in response.content:
if block.type == "tool_use":
result = execute_tool(block.name, block.input)
tool_results.append({
"type": "tool_result",
"tool_use_id": block.id,
"content": result,
})
if not tool_results:
return messages # Aufgabe abgeschlossen
messages.append({"role": "user", "content": tool_results})
Die Funktion execute_tool ist der Ort, an dem Sie die tatsaechliche Bildschirmaufnahme, Mausklicks und Tastatureingabe mit Ihrer Rechenumgebung verbinden.
Koordinatenskalierung: Die Falle
Die API beschraenkt Bilder auf maximal 1568px an der laengsten Seite. Wenn Ihr Display groesser ist (sagen wir 1512x982), werden Screenshots herunterskaliert — aber Claude gibt Koordinaten basierend auf dem kleineren Bild zurueck.
Sie muessen die Koordinaten zurueckskalieren:
import math
def get_scale_factor(width, height):
long_edge = max(width, height)
total_pixels = width * height
long_edge_scale = 1568 / long_edge
total_pixels_scale = math.sqrt(1_150_000 / total_pixels)
return min(1.0, long_edge_scale, total_pixels_scale)
scale = get_scale_factor(1512, 982)
# Wenn Claude sagt "klicke auf (450, 300)", skalieren Sie hoch:
def execute_click(x, y):
screen_x = x / scale
screen_y = y / scale
perform_click(screen_x, screen_y)
Diesen Schritt zu ueberspringen bedeutet, dass Claudes Klicks ihre Ziele verfehlen. Dies ist der haeufigste Implementierungsfehler.
Prompting-Tipps fuer bessere Ergebnisse
Computer Use funktioniert am besten mit klaren, strukturierten Prompts:
-
Seien Sie spezifisch. “Oeffne Firefox, gehe zu example.com und klicke auf den Login-Button” funktioniert besser als “melde dich auf der Seite an”.
-
Bitten Sie Claude zu verifizieren. Fuegen Sie dies zu Ihrem Prompt hinzu: “Mache nach jedem Schritt einen Screenshot und bewerte, ob du das richtige Ergebnis erzielt hast. Gehe erst weiter, wenn es bestaetigt ist.”
-
Verwenden Sie Tastenkombinationen. Dropdown-Menues und Scrollbalken koennen schwer zu klicken sein. Weisen Sie Claude an, stattdessen
Tab,Enterund Pfeiltasten zu verwenden. -
Liefern Sie Beispiele. Fuer wiederholbare Aufgaben fuegen Sie Beispiel-Screenshots und erwartete Tool-Aufrufe in Ihren Prompt ein.
-
Verwenden Sie XML-Tags fuer Zugangsdaten. Wenn Claude sich einloggen muss, uebergeben Sie die Zugangsdaten in
<robot_credentials>-Tags. Aber seien Sie vorsichtig — die Risiken von Prompt-Injection sind hoeher, wenn Claude mit nicht vertrauenswuerdigen Inhalten interagiert.
Sicherheit: Nehmen Sie sie ernst
Computer Use hat einzigartige Sicherheitsrisiken:
- Prompt-Injection ueber Bildschirminhalte. Claude liest alles auf dem Bildschirm. Eine boeswillige Webseite koennte Anweisungen anzeigen, die Ihren Prompt ueberschreiben.
- Autonome Aktionen. Claude koennte auf Links klicken, Dialoge akzeptieren oder von der beabsichtigten Stelle wegnavigieren.
- Offenlegung von Zugangsdaten. Wenn Claude Passwoerter oder Token auf dem Bildschirm sehen kann, werden sie Teil der Konversation.
Anthropic hat Klassifizierer eingebaut, die potenzielle Prompt-Injections in Screenshots erkennen. Aber die beste Verteidigung ist Isolation:
- Fuehren Sie alles in einer dedizierten VM oder einem Docker-Container mit minimalen Rechten aus
- Geben Sie keinen Zugang zu sensiblen Konten ohne Aufsicht
- Beschraenken Sie den Internetzugang auf eine Whitelist von Domains
- Fordern Sie menschliche Bestaetigung fuer folgenreiche Aktionen (Kaeufe, Kontoerstellung usw.)
Was damit bauen?
Computer Use ist ideal fuer Aufgaben, bei denen Geschwindigkeit nicht entscheidend ist, aber Automatisierung wertvoll:
- Automatisierte Tests — testen Sie jede Desktop-Anwendung, nicht nur Web-Apps
- Datensammlung — navigieren Sie Websites und extrahieren Sie Informationen
- Legacy-System-Integration — automatisieren Sie Workflows in Apps ohne API
- Formularausfuellung — fuellen Sie Webformulare auf mehreren Seiten aus
- Recherche-Workflows — suchen, lesen und kompilieren Sie Informationen aus dem Web
- QA und Monitoring — ueberpruefen Sie, ob Oberflaechen korrekt gerendert werden
Fuer Recherche- und Datensammlungs-Workflows ergaenzen Tools wie Save das Computer Use gut — sobald Claude zu einer Seite navigiert hat, erhalten Sie durch die Konvertierung in sauberes Markdown strukturierte, KI-bereite Inhalte statt roher Screenshots.
Aktuelle Einschraenkungen
Beachten Sie diese Beta-Einschraenkungen:
- Latenz. Jede Aktion erfordert einen API-Aufruf, eine Bildschirmaufnahme und eine Antwort. Es ist langsamer als ein Mensch, der klickt.
- Visuelle Genauigkeit. Claude kann kleinen Text falsch lesen oder UI-Elemente falsch identifizieren. Die neue Zoom-Aktion hilft, ist aber nicht perfekt.
- Scrollen. In neueren Versionen deutlich verbessert, aber komplexe Scroll-Interaktionen koennen noch unzuverlaessig sein.
- Tabellen. Zellenauswahl ist schwierig. Verwenden Sie wenn moeglich die Tastaturnavigation.
- Keine Kontoerstellung in sozialen Netzwerken. Claude wird absichtlich keine Konten erstellen oder Menschen in sozialen Medien imitieren.
Preise
Computer Use folgt der Standard-Tool-Use-Preisgestaltung:
- System-Prompt-Overhead: 466-499 Token
- Tool-Definition: 735 Token pro Tool (fuer Claude 4.x)
- Screenshots: als Vision-Token berechnet (variiert je nach Aufloesung)
- Jeder API-Aufruf in der Agenten-Schleife ist eine separat abgerechnete Anfrage
Fuer eine typische 10-Schritte-Aufgabe rechnen Sie mit 15.000 bis 50.000 Token, abhaengig von Screenshot-Groessen und Antwort-Komplexitaet.
Zum Starten
- Probieren Sie die Referenzimplementierung aus. Klonen Sie anthropic-quickstarts, starten Sie den Docker-Container und experimentieren Sie.
- Beginnen Sie mit einfachen Aufgaben. “Oeffne einen Texteditor, tippe Hello World, speichere die Datei.” Bringen Sie die Agenten-Schleife zum Laufen, bevor Sie komplexe Workflows versuchen.
- Fuegen Sie Sicherheitsnetze hinzu. Setzen Sie Iterationslimits. Validieren Sie Koordinaten. Protokollieren Sie jede Aktion. Fuegen Sie menschliche Bestaetigung fuer alles Irreversible hinzu.
- Optimieren Sie Ihre Prompts. Je besser Ihre Anweisungen, desto weniger Iterationen braucht Claude — und desto niedriger sind Ihre Token-Kosten.
Computer Use stellt einen fundamentalen Wandel dessen dar, was mit KI-APIs moeglich ist. Anstatt fuer jede Anwendung massgeschneiderte Integrationen zu bauen, koennen Sie Claude die gleiche Schnittstelle geben, die Menschen verwenden — einen Bildschirm, eine Maus und eine Tastatur — und es den Rest herausfinden lassen.
Die Zukunft der Automatisierung sind nicht mehr APIs. Es ist KI, die die Schnittstellen nutzen kann, die wir bereits haben.