最近Ankiノートを作成するために、PDFからテキストを抽出する必要があり、使用した方法をまとめました。
以下では国家教育研究院-全国中小学題庫網の中学1年生国語テスト用紙を例として操作します。
1. Google ドキュメント、LibreOffice
PDFファイルをGoogleドライブにアップロードし、Google ドキュメントで開きます。
内容が複雑または多すぎる場合、しばしば画像に変換されます。
LibreOffice Writerも簡単なPDFを開くことができますが、LibreOffice Drawに変換されます。
2. Windowsの切り取りツール
Windows 11のバージョンが23H2の場合、内蔵の切り取りツール(SnippingTool.exe)に「テキストアクション」ボタンがあり、テキスト認識機能を実行できます。認識率はかなり良好です。<span class='keybs'>Win+Shift+S</span>を押して切り取りを開始します。
▼ コピーされたテキスト。順序は誤っていますが、すべて正確に認識されています
撒了滿天的珍珠和一枚又大又亮的銀幣」
生機(D)溫暖氣息。
主要營造夏夜何種氛圍?(A)光明希望(B)富麗之感(C)盎然
3. CapCap
日本発のキャプチャツールをテストしました。シンプルで使いやすいという目標にちょうど合致しています。
- 使用前にWindowsに対応する言語(例:日本語、英語)がインストールされていることを確認する必要があります
- 異なる言語には異なる設定が必要です。例えば、ソース言語が英語で、ターゲット言語が中国語の場合
▼ ソースとターゲット言語がともに繁体字中国語の場合。

▼ Copy original後の内容。空白が追加されます
「 撒 了 滿 天 的 珍 珠 和 一 枚 又 大 又 亮 的 銀 幣 」 主 要 營 造 夏 夜 何 種 氛 圍 ? ( A ) 光 明 希 望 ( B ) 富 麗 之 感 ( C ) 盎 然 生 機 ( D ) 溫 暖 乿 息
- キャプチャごとに「ステッカー」が生成され、画面上の任意の位置にドラッグできます。右クリックでコピー、翻訳、非表示が可能で、最後に【Close】で終了します
3.1. デフォルト設定
右下のSampleにチェックを入れると、ID 1、2、3の3つのデフォルト設定が表示されます。それぞれGoogle Apps Script、DeepL API Free、ChatGPT APIです。右側のAdvanced settingsをクリックすると接続URLなどのデータを入力でき、リアルタイム翻訳機能を提供します。
デフォルト設定は参考用です。使用する場合はSampleの右側にあるコピーアイコンをクリックし、生成された個人設定で修正する必要があります。
4. Umi-OCR
- Windows、Linux対応
- 中国語インターフェース有り
5. Text-Grab
- 作者はPowerToysのPower Text Extractorツールの作者
- Windows対応
- デフォルトで<span class='keybs'> Win+Shift+F</span>でフルスクリーン選択範囲をキャプチャ、<span class='keybs'> Win+Shift+G</span>でドラッグ可能でサイズ変更可能な範囲ウィンドウが表示され、Grabをクリックして範囲内のテキストをキャプチャ
▼ 範囲ウィンドウでのキャプチャ
▼ Grabのコンテンツウィンドウをダブルクリックすると編集ウィンドウがポップアップ
6. 💡 関連リンク
💡 解説記事: https://jdev.tw/blog/8530/
✅CapCap (海外ゲームの字幕表示がより便利): https://mecha-uma.blogspot.com/p/capcap.html
✅ Umi-OCR: https://github.com/hiroi-sora/Umi-OCR
✅ Text-Grab: https://github.com/TheJoeFin/Text-Grab