AI については好きに言ってください (私はたくさん言いました) が、文字起こしと音声テキスト変換ソフトウェアの進歩は本当に目覚ましいものです。以前は、そのようなソフトウェアは使いにくいか高価でしたが、今では適切に動作するあらゆる種類の優れたオープンソース ツールが存在します。
そこで、Pipit を紹介します。これは、オフラインで動作する無料の Mac ディクテーション アプリです。つまり、完全にプライベートです。さらに興味深いのは、単に音声を文字に起こすだけでなく、アプリの起動、設定の切り替え、さらには Web 検索の起動や AI サービスのクエリも実行できることです。
初めてアプリケーションを開くと、オフライン文字起こし用の Parakeet モデルをダウンロードする前に、マイクの使用許可を求められます。すべての設定が完了したら、ボタンを押したままにすることでアプリケーションを使用できるようになります。 オプション キーを押してから話す - アプリケーションはユーザーの発言を記録し、それをテキストに変換し、そのテキストを現在アクティブなテキスト フィールドに貼り付けます。
数日間これを試してみましたが、文字起こしは一般的にかなり正確で、句読点も含まれていることがわかりました。オプションの後処理があり、非構造化音声を適切にフォーマットされたドキュメントに変換できますが、これを使用するには OpenRouter API キーが必要です。
設定ウィンドウでは、トリガー キーの変更、入力デバイスの選択、メニュー バー アイコンの切り替えを行うことができます。話者の識別機能を備えた音声ファイルを文字に起こすためのツールもあります。ファイル上にドラッグするだけで文字起こしが得られます。

Pipit のアップロード画面。音声ファイルの文字起こしが可能です。
クレジット: ジャスティン・ポット
最後に、 強化する タブで、 クイックアクション 特徴。これにより、コンピュータに何をすべきかを口頭で伝え、それが起こるのを確認することができます。これを使用するには、通常どおり文字起こしを開始しますが、「Safari を開いて」などと言ってアプリを開くか、「クロードに質問して」と続けて質問して、ブラウザ内の AI アシスタントとの会話を開始します。確かに少しギミックはありますが、使っていて楽しかったです。

Pipit で使用できる音声コマンドは設定に表示されます。
クレジット: ジャスティン・ポット
このようなツールが現在広く無料で提供されているのは素晴らしいことです。また、Pipit には興味深い機能が揃っています。