今週は、人工知能のリリースに関しては本当に激しいものでした。大きな進歩の 1 つは、まさにGemini 1.5 Proにあり、その後のAstra の発売でもありました。多くの人が「批判」する進歩の中には、私たちの手に届かず、開発の現場に留まっているように見えるものもあります。
しかし、これらの新しいリリースでは、プログラミングの知識を持ち、これらの大きなテクノロジ リリースで何ができるかを知りたいと思っている人がすでにたくさんいます。私たちはピエトロ・シラーノについて話しています。彼はXを通じて、これらのテクノロジーを使って彼が行ったことすべてを示すビデオをリリースしました。
彼は Google の新しいものをすべて使用してスクリプトを作成しましたが、驚きました
彼は著書の中で、GoogleがGeminiで示した、たとえばカメラで捉えたすべてのものを認識できるデモに感銘を受けたことを認めている。だからこそ、あなたは Python を使用したスクリプトの形で独自のバージョンの Gemini 1.5 Pro Flash を作成することにし、そのパワーに驚いたことでしょう。
具体的には、このスクリプトは、コンピュータのカメラをアクティブにすることで、映るものすべてを解釈するようにします。たとえば、彼は携帯電話を手に持っているように見えますが、コンピューター画面上で彼がその瞬間に何をしているのか、つまり iPhone を手に持っているのかを物理的に説明することができます。すべて非常に速い方法で。しかし、画像の背景にドアがあることに気づき、彼は非常に驚きました。
ただし、このスクリプトの作成者は、空港の搭乗ゲートで急いで書いたため、まだ最適化されていないと主張しています。そして、彼はそれをみんなにリリースする前に、 「より魔法のような」ものにするためにそれを最適化することを考えています。さらに、現時点では、このスクリプトは特定のフレームの分析に限定されており、ビデオをリアルタイムで分析することはできません。これは彼が将来達成したいことです。
ここでは、提示されているすべての新しいもので実行できる「魔法」を見ることができます。問題は、このテクノロジすべてで得られるユーティリティやアプリケーションについて考えることです。これは、見ての通り数多くあります。幸運なことに、当社にはこのプログラマーと同じくらいクリエイティブな人材がおり、わずか数分で非常に独創的なものを作成することができ、特にアクセシビリティにおいて非常に興味深いアプリケーションを実現できます。

