BRENT Phone English

グーグル生成AIの新たな技術発表画像や音声なども同時に理解

アメリカのIT大手グーグルは、文章だけでなく画像や音声なども同時に理解して高い精度で回答や提案ができる生成AIを動かすための新たな技術の提供を始めると発表しました。

こうした生成AIはマルチモーダルAIと呼ばれ、アメリカで開発競争が一段と激しくなっています。

アメリカのIT大手グーグルは6日、生成AIを動かすための新たな技術「Gemini」を発表しました。

文章だけでなく画像や動画、音声なども同時に理解できるほか、理解の精度が向上していて、より適切な回答や提案ができるということです。

用途に応じて3つのモデルを提供する計画で、まずは対話式の生成AI「Bard」の英語版を通じて提供を始めるということです。

生成AIをめぐっては、IT大手のマイクロソフトが投資するアメリカのベンチャー企業、オープンAIが去年11月、ChatGPTを公開したことをきっかけに利用が急速に拡大しています。

文章に加えて画像や音声なども同時に理解できる生成AIはマルチモーダルAIと呼ばれ、グーグルとしてはこの分野に力を入れることでオープンAIやマイクロソフトに対抗するねらいがあると見られていて、アメリカで開発競争が一段と激しくなっています。