Die Büros der Zukunft sind nicht leise? Wie Sprachsteuerungs-KI die Arbeitsweise verändert

Die Büros der Zukunft sind nicht leise? Wie Sprachsteuerungs-KI die Arbeitsweise verändert

Der Tag, an dem das Tippen verstummt und das "Flüstern" im Büro zunimmt

Einst waren die Geräusche im Büro vor allem das Klappern der Tastaturen.

Stimmen, die aus dem Konferenzraum dringen, das leise elektronische Geräusch von Slack-Benachrichtigungen, das Geräusch des Druckers, das Geräusch, wenn jemand eine Tasse abstellt. Doch das Tippen war das Symbol schlechthin für das Gefühl, zu arbeiten. Wenn die Finger stillstanden, dachte man nach. Wenn man heftig tippte, war man konzentriert. Wenn man die Enter-Taste drückte, wurde etwas gesendet. Diese körperliche Wahrnehmung und der Arbeitsrhythmus waren lange Zeit miteinander verbunden.

Doch im Zeitalter der KI könnte sich diese Klanglandschaft im Büro ändern.

TechCrunch berichtet über eine Zukunft, in der immer mehr Menschen mit ihren Computern sprechen. Der Auslöser dafür ist die Verbreitung von KI-Spracherkennungs-Apps. Mit Tools wie Wispr Flow können Menschen ihre Gedanken leise aussprechen, anstatt sie in die Tastatur zu tippen, und die App wandelt diese in gut formulierte Texte oder Eingabeaufforderungen um. In Kombination mit Codierungsunterstützungstools wie Claude Code oder Codex können Entwickler Funktionen implementieren, Fehlerursachen finden oder Anpassungen gemäß Spezifikationen vornehmen, indem sie Anweisungen mündlich geben, anstatt Code Zeichen für Zeichen zu schreiben.

Das bedeutet, dass in den Büros der Zukunft Menschen sprechen, ohne in einer Besprechung zu sein. Sie sprechen in ein Mikrofon, ohne zu telefonieren. Stimmen, die wie Selbstgespräche wirken, sind in Wirklichkeit Arbeitsanweisungen an die KI.

Dies ist nicht nur eine Veränderung der Eingabemethode, sondern eine Veränderung der Regeln des Arbeitsraums selbst.

Der Artikel von TechCrunch zitiert einen Bericht des Wall Street Journal, der zeigt, wie sich die Nutzung von Spracherkennungstools im Silicon Valley ausbreitet. Ein Risikokapitalgeber sagte, dass er sich beim Besuch von Start-up-Büros wie in einem gehobenen Callcenter fühle. Edward Kim, Mitbegründer von Gusto, äußerte, dass zukünftige Büros möglicherweise wie Verkaufsflächen klingen könnten.

Der Ausdruck "Verkaufsflächencharakter" ist ziemlich symbolisch.

Verkaufsflächen sind Orte, an denen die Stimme im Mittelpunkt der Arbeit steht. Man telefoniert, erklärt, überzeugt und passt seine Worte an die Reaktionen des Gegenübers an. Im Gegensatz dazu galten Ingenieur-, Schreib- und Planungsarbeiten traditionell als relativ ruhige Tätigkeiten. Doch mit dem Fortschritt der Zusammenarbeit mit KI könnten Programmierer, Redakteure, Marketer und Designer wie Vertriebsmitarbeiter "sprechend arbeiten".

Warum wollen Menschen überhaupt mit ihrer Stimme eingeben?

Der Hauptgrund ist, dass es einfacher ist, die Menge an Gedanken direkt auszudrücken. Kurze Befehle an die KI führen selten zu guten Ergebnissen. Um generative KI effektiv zu nutzen, muss man Hintergrund, Zweck, Einschränkungen, Vorlieben, zu vermeidende Aspekte und das erwartete Ausgabeformat detailliert mitteilen. Doch all dies über die Tastatur einzugeben, ist mühsam. Besonders das wiederholte Schreiben von Eingabeaufforderungen mit Hunderten bis Tausenden von Zeichen ist selbst für schnelle Tipper eine Belastung.

Mit Spracherkennung kann man vage Gedanken im Kopf auf einmal aussprechen. Selbst wenn man sich verspricht, korrigiert die KI es. Auch wenn man umgangssprachlich spricht, formatiert das Tool es in einen geschäftlichen E-Mail-Stil, einen Spezifikationsstil oder einen Chat-Antwortstil. Die Kosten für die Nutzung der KI sinken.

Auch in sozialen Netzwerken und Entwicklergemeinschaften gibt es viele Stimmen, die diesen Punkt schätzen. In einigen Reddit-Beiträgen wird über Spracherkennungstools wie Wispr Flow gesagt, dass es einfacher wird, der KI lange Kontexte zu übermitteln, dass das Erstellen von E-Mails oder Entwürfen schneller wird und dass systemweite Spracherkennung, die in jeder App verwendet werden kann, praktisch ist. Besonders im sogenannten Vibe-Coding, einem KI-unterstützten Entwicklungsstil, ist es wichtiger, der KI lange Absichten zu übermitteln, als detaillierten Code direkt zu schreiben, weshalb die Stimme gut dazu passt.

Andererseits sind die Reaktionen nicht nur lobend.

Vielmehr ist das Thema interessant, weil es technisch praktisch, aber gesellschaftlich ziemlich unangenehm ist.

Im TechCrunch-Artikel wird ein Beispiel erwähnt, in dem die KI-Unternehmerin Mollie Amkraut Mueller, die nachts neben ihrem Mann arbeitet, die Angewohnheit hat, leise mit ihrem Computer zu sprechen, was ihren Partner irritiert hat. Infolgedessen arbeiten sie nun an getrennten Orten. Dies ist eine häusliche Angelegenheit, aber das gleiche Problem kann auch im Büro auftreten.

Die Person am Nachbartisch spricht ständig leise etwas. Man denkt, es sei ein Telefonat, aber es ist kein Gespräch mit jemandem. Man weiß nicht, ob die Person mit einem selbst oder mit der KI spricht. Man hört bruchstückhaft Inhalte und wird abgelenkt. Man hört Worte, die wie vertrauliche Informationen klingen. Ein Ort, der einst ein ruhiger Arbeitsraum war, ist nun ständig von einem leisen Stimmengewirr erfüllt.

Dies ist kein einfaches Lärmproblem. Die menschliche Stimme zieht mehr Aufmerksamkeit auf sich als das Geräusch einer Tastatur. Da sie Bedeutung hat, nimmt das Gehirn sie automatisch wahr. Genau wie es schwierig ist, in einem Café zu arbeiten, in dem man die Gespräche um sich herum hört, kann das "Flüstern zur KI" am Nachbartisch die Konzentration der Umgebung mehr beeinträchtigen, als man denkt.

Auch in den Reaktionen in sozialen Netzwerken zeigt sich diese Besorgnis.

Auf Reddit gibt es Beiträge, die darauf hinweisen, dass Spracherkennungstools so wirken, als seien sie für Menschen gedacht, die allein in einem ruhigen Büro arbeiten, und dass es in einer Umgebung mit Kindern oder Lärm noch schwierig ist. Ein anderer Nutzer weist darauf hin, dass Spracherkennung zwar effizient ist, es jedoch Probleme mit Satzzeichen, Grammatik und dem Verhalten in bestimmten Apps wie Microsoft Teams gibt. In Entwicklergemeinschaften gibt es auch die nüchterne Sichtweise, dass Spracherkennung nicht alle Codierungen ersetzt, sondern sich eher für bestimmte Aufgaben oder lange Erklärungen eignet.

Auch auf LinkedIn gibt es Beiträge, die darauf hinweisen, dass Spracherkennung zwar Zeit sparen kann, aber im Büro dazu führt, dass Kollegen denken, man spreche mit ihnen, weshalb man in einen separaten Raum geht, um sie zu nutzen. Dies ist eine sehr realistische Reaktion. Auch wenn die Leistung der Tools steigt, werden die zwischenmenschlichen Abstände und die Etikette am Arbeitsplatz nicht automatisch optimiert.

Hier stellt sich die Frage nach dem Gleichgewicht zwischen dem "Recht, mit der KI zu sprechen" und dem "Recht, in Ruhe zu arbeiten".

Offene Büros wurden schon immer dafür kritisiert, dass sie sich nicht für Konzentration eignen. Blicke, Gespräche, Benachrichtigungen, Stimmen aus Besprechungen. Nun kommt das neue Geräusch der KI-Spracherkennung hinzu. Wenn Unternehmen diese Veränderung ernsthaft annehmen wollen, reicht es nicht aus, einfach zu sagen: "Es ist praktisch, also nutzen wir es." Es muss das Design des Büros, die Platzierung der Schreibtische, Einzelkabinen, die Regeln für die Nutzung von Mikrofonen, den Umgang mit vertraulichen Informationen und die Lautstärkeetikette während der Arbeit überdenken.

Zum Beispiel könnte es in zukünftigen Büros nicht nur "Telefonkabinen", sondern auch "KI-Eingabekabinen" geben. Schon jetzt gibt es immer mehr Unternehmen, die Einzelkabinen für Online-Meetings bereitstellen, aber wenn Spracherkennung weit verbreitet ist, wird auch für normale Arbeiten, die keine Meetings sind, ein Sprechraum benötigt. Oder es könnte sein, dass Geräuschunterdrückungsmikrofone, Knochenleitungsmikrofone, Richtmikrofone und tragbare Geräte zur Standardausstattung werden. Wie Tastaturen und Mäuse könnte eine "eigene Mikrofonumgebung" ein Arbeitswerkzeug werden.

Allerdings ist Spracherkennung nicht für jeden geeignet.

Erstens gibt es Menschen, die gut denken können, während sie sprechen, und solche, die gut denken können, während sie schreiben. Wer schreibt, weiß, dass das Tippen nicht nur eine Eingabe ist. Der Prozess, bei dem Buchstaben auf dem Bildschirm erscheinen, hilft, Gedanken zu ordnen. Man bemerkt Unstimmigkeiten, löscht, ordnet um und formuliert um. Diese Feedback-Schleife unterscheidet sich von der Eingabe durch Sprechen.

In der Tat gibt es auch in sozialen Netzwerken den Hinweis, dass es bei der Spracherkennung schwierig ist, seine Gedanken in Echtzeit zu korrigieren, da man das Ergebnis erst nach dem Sprechen sieht. Dies ist ein wichtiger Punkt. Spracherkennung ist schnell, aber Schnelligkeit führt nicht immer zu Qualität. Vielmehr kann es vorkommen, dass man eine große Menge an Worten an die KI weitergibt, bevor man nachdenkt, und später Zeit benötigt, um sie zu ordnen.

Zweitens gibt es das Problem der Privatsphäre und Sicherheit.

Im Büro laut zu sprechen bedeutet, dass die Inhalte möglicherweise von anderen gehört werden können. Kundeninformationen, unveröffentlichte interne Informationen, Vertragsbedingungen, Personalinformationen, Codenamen, strategische Dokumente. Wenn man diese in die KI eingibt, kann man bei der Tastatur zumindest den Bildschirm nicht sehen, aber bei der Stimme können nahe stehende Personen sie hören. Wenn man cloudbasierte Spracherkennung verwendet, stellt sich auch die Frage, wo die Sprachdaten verarbeitet werden und ob sie mit den Sicherheitsrichtlinien des Unternehmens übereinstimmen.

Drittens gibt es im Hinblick auf die Barrierefreiheit großes Potenzial. Für Menschen mit Belastungen in Händen oder Armen, für die langes Tippen schwierig ist, oder für diejenigen, die unterwegs Notizen machen möchten, kann Spracherkennung eine starke Unterstützungstechnologie sein. Es reicht also nicht aus, Spracherkennung nur als "neues Gadget für Produktivitätshacks" zu betrachten. Es ist auch eine Technologie, die die Wahlmöglichkeiten der Arbeitsweise erweitert.

Wird KI-Spracherkennung wirklich zum Mainstream im Büro?

Derzeit befinden wir uns wahrscheinlich noch in einer Übergangsphase. Die Leistung verbessert sich rasant, aber die gesellschaftliche Gewöhnung hinkt hinterher. Auch Smartphones wirkten anfangs unnatürlich, wenn man sie in der Öffentlichkeit ständig ansah. Auch das Sprechen mit kabellosen Kopfhörern wie Selbstgespräche war anfangs seltsam. Heute haben es viele Menschen akzeptiert. Dass der Gründer von Wispr glaubt, dass es irgendwann normal wird, liegt in dieser Verlängerung.

Allerdings gibt es Unterschiede zwischen Smartphones, Kopfhörern und KI-Spracherkennung. Smartphones haben hauptsächlich den Blick auf sich gezogen, während Spracherkennung den Raum einnimmt. Bei Kopfhörergesprächen ist klar, dass das Gegenüber ein Mensch ist, aber das Flüstern zur KI ist für die Umgebung schwer zu verstehen. Es ist schwer zu beurteilen, ob jemand mit jemandem spricht, Selbstgespräche führt oder vertrauliche Informationen preisgibt. Diese Unklarheit führt zu Unbehagen am Arbeitsplatz.

In diesem Sinne wird in Zukunft "KI-Spracherkennungs-Etikette" erforderlich sein.

Zum Beispiel sollte man im Büro nicht lange an einem normalen Schreibtisch Spracherkennung verwenden. Lange Eingabeaufforderungen oder Codierungsanweisungen sollten in speziellen Kabinen durchgeführt werden. Man sollte keine Kundennamen oder vertraulichen Informationen in hörbarer Lautstärke sprechen. Man sollte Mikrofone oder Headsets verwenden und eine Umgebung schaffen, in der man möglichst leise sprechen kann. Innerhalb des Teams sollte man festlegen, wann Spracherkennung verwendet werden darf und wann sie vermieden werden sollte. Solche Regeln könnten in naher Zukunft in vielen Unternehmen notwendig werden.

Interessant ist, dass diese Veränderung einerseits so aussieht, als würde sie die "Menschlichkeit" zurück in die Arbeit bringen, andererseits aber tatsächlich die Gespräche zwischen Menschen reduzieren könnte.

Menschen konsultieren die KI leise, anstatt sich mit dem Kollegen nebenan zu beraten. Anstatt vor dem Whiteboard zu diskutieren, spricht jeder für sich selbst vor seinem Bildschirm. Im Büro gibt es mehr Stimmen, aber es ist nicht unbedingt Kommunikation zwischen Menschen. Vielmehr könnte es sein, dass jeder mit seinem eigenen KI-Assistenten in einem geschlossenen Gespräch ist.

Ein geschäftiges, aber einsames Büro.

Das ist das seltsame Bild des Arbeitsplatzes im Zeitalter der Sprach-KI.

Für Unternehmen besteht die Herausforderung nicht darin, diese Technologie zu verbieten. Wahrscheinlich wird sich das, was sich verbreitet, auch verbreiten, selbst wenn es verboten wird. Wie bei KI-Tools wird sich das Praktische von selbst durchsetzen. Wichtig ist, zu gestalten, wo, wie und wofür es genutzt wird.

Spracherkennung hat das Potenzial, viele Aufgaben wie das Erstellen von Texten, Codierung, Ideenfindung, E-Mail-Antworten, Protokollerstellung und Recherche-Notizen zu beschleunigen. Besonders bei der Übergabe eines langen Kontextes an generative KI ist die Stimme in manchen Situationen natürlicher als die Tastatur. Aber wenn dies die Konzentration der Umgebung stört oder das Risiko von Informationslecks erhöht, entstehen auf der Kehrseite der Produktivitätssteigerung andere Kosten.

In der Ära der Tastatur war die Eingabe eine Tätigkeit, die näher am Inneren des Körpers war. In der Ära der Stimme breitet sich die Eingabe im Raum aus. Deshalb muss man gleichzeitig an die Effizienz des Einzelnen und den Komfort der Gruppe denken.

Wird das Büro der Zukunft wirklich von Flüstern erfüllt sein?

Die Antwort lautet wahrscheinlich "teilweise ja". Nicht jeder wird den ganzen Tag mit der KI sprechen. Aber die Situationen, in denen Menschen beim Schreiben von E-Mails, beim Übermitteln von Code-Richtlinien, beim Erstellen von Entwürfen oder beim Ordnen von Notizen nach Meetings die Stimme statt der Tastatur verwenden, werden sicherlich zunehmen.

Sind wir dann bereit, die neuen Geräusche am Arbeitsplatz zu akzeptieren?

Die Ära, in der das Klappern der Tastatur das Symbol der Arbeit war, neigt sich dem Ende zu. Das nächste Geräusch, das wir hören, könnte das leise Flüstern von jemandem sein, der mit der KI spricht.

Und diese Stimme ist sowohl das Geräusch der Bequemlichkeit als auch das Geräusch der neuen Reibung, die der zukünftige Arbeitsplatz lösen muss.

Zusammenfassung der Reaktionen in sozialen Netzwerken und Gemeinschaften

 

In dem Umfang, der durch öffentliche Suche überprüft werden kann, sind die Reaktionen in drei Hauptkategorien unterteilt.

Zunächst die Befürworter, die schätzen, dass durch Spracherkennung die Anweisungen an die KI länger und spezifischer werden und die Effizienz beim Erstellen von E-Mails, Entwürfen und Vibe-Coding steigt. Besonders die Punkte "in jeder App verwendbar" und "einfacher, der KI Kontext zu übermitteln" werden unterstützt.

Dann die Vorsichtigen, die der Meinung sind, dass Spracherkennung nicht allmächtig ist und sich für lange Erklärungen und Entwürfe eignet, aber für genaue Korrekturen und präzise Code-Eingaben die Tastatur besser geeignet ist. Praktische Herausforderungen wie Satzzeichen, Verhalten in verschiedenen Apps, Konflikte mit Tastenkombinationen und Mikrofonqualität werden ebenfalls angesprochen.

##HTML_TAG