К основному содержимому
Вернуться к кейсам

Open-source проект

Windows x64

OpenWhisper

Голос в текст прямо в рабочих приложениях

OpenWhisper ускоряет набор заметок, сообщений и рабочих текстов в Windows: пользователь нажимает одну клавишу, диктует фразу, а готовый текст попадает в буфер обмена или активное поле.

v0.1.0 публичная версия

v0.1.0

публичная версия

готовая Windows x64 сборка без установки Python

1 клавиша быстрый запуск

1 клавиша

быстрый запуск

одна комбинация включает запись и завершает диктовку

локально без облачной обработки

локально

без облачной обработки

после загрузки модели речь распознается на компьютере пользователя

GitHub открытый проект

GitHub

открытый проект

код, документация, тесты и процесс сборки доступны публично

Проблема

Во многих рабочих процессах голос быстрее клавиатуры, но обычная диктовка часто требует отдельного сервиса, аккаунта, переключения контекста или отправки данных в облако.

Где теряется скорость

Заметки после звонков, черновики писем, идеи для контента и комментарии к задачам приходится вручную переносить в текстовые поля, документы, CRM или мессенджеры.

Почему облако подходит не всегда

Для части рабочих сценариев важны локальная обработка, контроль папки данных и отсутствие постоянной зависимости от внешнего API распознавания речи.

Решение

OpenWhisper упаковывает Whisper-модель в простой настольный сценарий: нажать горячую клавишу, продиктовать фразу, остановить запись и получить текст в буфере обмена или активном поле.

Локальный AI-инструмент

Приложение работает в системном трее, пишет звук с выбранного микрофона, распознает его через faster-whisper и возвращает результат без отдельного веб-интерфейса.

Что получает пользователь

Диктовка в привычных Windows-приложениях через одну горячую клавишу.
Контроль над папкой данных, моделями, логами и временными файлами.
Переносимая поставка, которую можно запустить без установки Python.

Как работает система

Кейс показывает не просто вызов AI-модели, а связку настольного UX, аудиозаписи, локального распознавания, буфера обмена и системной интеграции.

1

Пользователь запускает переносимое приложение и выбирает папку данных.

2

В настройках выбираются микрофон, модель, язык, горячая клавиша и режим автоматической вставки.

3

Глобальная горячая клавиша включает запись, повторное нажатие останавливает ее.

4

Аудио проходит предобработку и распознается через faster-whisper.

5

Распознанный текст копируется в буфер обмена и при включенной настройке вставляется в активное окно.

Ключевые функции

Функции подобраны вокруг реального рабочего сценария: быстро записать голос, получить текст и продолжить работу в активном приложении.

Что реализовано в проекте

Локальное распознавание речи через faster-whisper
Запись и остановка одной горячей клавишей
Копирование в буфер обмена и опциональная автоматическая вставка
Работа из системного трея
Окно настроек на Tkinter
Выбор папки данных, микрофона, модели и языка
Предобработка аудио, VAD и аварийная защита от тишины
Защита от второго экземпляра приложения и техническое логирование
Переносимая Windows x64 сборка через PyInstaller

Архитектура

Внутри OpenWhisper есть отдельные слои для системного трея, состояния приложения, аудио, распознавания, вывода результата, конфигурации и сборки релиза.

Системный трей: иконка pystray, действия меню, настройки и выход
Состояния приложения: IDLE, RECORDING, TRANSCRIBING
Аудио-слой: sounddevice, soundfile, NumPy и временные WAV
Модуль распознавания: faster-whisper / WhisperModel
Слой вывода: pyperclip и keyboard Ctrl+V
Конфигурация: YAML config, папка данных, логи и хранение моделей
Сборка релиза: PyInstaller spec, build script, zip и SHA-256

Технологии

Стек выбран под локальный настольный Windows-инструмент: аудио, распознавание через Whisper, настройки, системный трей, горячая клавиша, буфер обмена и воспроизводимая сборка в exe.

Технический стек

Pythonfaster-whisperCTranslate2sounddevicesoundfileNumPyTkinterpystraykeyboardpyperclipPyInstallerGitHub Actions

Что можно адаптировать под клиента

OpenWhisper можно использовать как основу для кастомной локальной диктовки, транскрибации и автоматизации документов под конкретные рабочие процессы.

Настольная диктовка под рабочие приложения клиента: CRM, служба поддержки, документы, браузер или внутренние системы.
Форматирование результата после распознавания: шаблоны заметок, структурирование, очистка текста, краткое резюме или список действий.
Автодублирование распознанного текста с переводом на другой язык для международных команд, клиентских сообщений или документации.
Локальный AI-сценарий под ограничения по данным: хранение моделей, логов и временных файлов в контролируемой папке.
Интеграции с документами, Telegram, CRM или корпоративными базами после получения текста.

Публичный проект с открытым исходным кодом

OpenWhisper можно посмотреть не только как демо на сайте: у проекта есть публичный репозиторий, инструкции, релизная сборка и проверяемая история изменений.

Что видно в репозитории

Это не закрытая презентационная заглушка, а опубликованный рабочий проект: исходный код, документация EN/RU, тесты, GitHub Actions, чеклист релиза и сборка для Windows x64 лежат в одном месте.

Открыть GitHub

Нужен похожий локальный AI-инструмент под ваш процесс?

OpenWhisper можно адаптировать под корпоративную диктовку, транскрибацию, заметки в CRM, автоматизацию документов или другой настольный сценарий с локальной обработкой данных.

Обсудить похожий проект