福知山公立大学 / 情報学部情報学科
画面内の文字を認識して翻訳するアプリケーション
開発期間: 2025/09/08 ~ 2025/09/16 本アプリケーションは、PC画面上のテキストを認識し、翻訳するためのデスクトップツールです。まず、ユーザーはOCR翻訳開始ボタンを押します。次に、画面上の矩形範囲をマウスで選択し、スクリーンショットを撮影します。その画像に含まれる文字をOCRでテキストデータへと変換します。 そして、抽出されたテキストは自動的に日本語へ翻訳され、結果が画面上に表示されます。これにより、画像化されたドキュメントなど、通常は翻訳が困難なテキストをリアルタイムで理解することができます。 本アプリケーションの設計には、コードの拡張性を意識し、MVPアーキテクチャが採用されています。このアーキテクチャに基づき、Model、View、Presenterという3つの層に責任を分割しました。 主要な技術として、Pythonを基盤に、GUI構築にはクロスプラットフォームで動作するPyQt6、OCRにはGoogleが提供するTesseract、翻訳にはgoogletransライブラリを選定しました。また、画像処理にはOpenCV-Pythonを、画面キャプチャにはmss、キー入力にはpynputを利用しています。これによって、利用者の環境に依存しない動作を可能しています。また、配布にはPyInstallerを用いて単一の実行可能ファイルにすることで、ツールとしての利便性についても意識しました。対応OSはWindows、Linux(Ubuntu)です。