Google の目標は、インターネット上で利用可能な可能な限り多くの情報を分類することです。これを行うために、検索エンジンではさらに多くの種類のファイルのサポートを実装しています。 PDF にテキストが含まれている限り、PDF 内での検索は長い間許可されてきました。
問題は画像を含む PDF 文書にあり、 OCR を使用して画像をテキストに変換することで解決しました。このようにして、他の方法ではインデックスを付けることができなかったスキャンされた文書内を検索することもできます。
これは、アクセス可能ではあるものの、コンピューターによって自動的に解釈できない情報であったため、結果として提供する方法がありませんでした。それが、Google がOCRopusプロジェクトを支援した理由であり、ここで最初の結果を見ることができます。
将来的には (そしてここで私は理論化していますが)、Google 画像の結果を改善するために同様の技術が使用される可能性がありますが、現時点では、画像が配置されているページのコンテキストに依存します。確かに、スキャンしたドキュメントを使用して実行するよりもはるかに複雑ですが、結果の品質は大幅に向上します。
ちなみに、この検索の最初の結果には、このタイプのドキュメントのインデックス付けの例が表示されます。
詳細情報 | グーグル。