2023/07/18
前回の続きです。前回のブログで、Bardに画像入力したファイルはGoogleのサイトから入手したもので、画像のみならずサイトの文面も取得している可能性があると疑われたので、今回は「手書きの画像」を使って検証しました。
以下の内容を試しました。
1. 手書き文字の認識
2. 角度を求める算数の問題
3. 化学反応の問題
4. 論理回路の問題
1. 手書き文字の認識 まず、手書きで英文を書いて、その画像に書かれてある文字をBardが認識しているか、確認しました。

私が書いた英文の文法間違い(不定冠詞のaがないこと)も修正して、正しく認識できました。
また、Bardで画像入力モードが利用できるのは、現時点(7/18)で優先言語が「英語」の場合ですが、日本語の文も正しく認識できるのか、確認しました。

日本語も問題なく認識できるようですね。OCRが当たり前の世界なので「生成AI」としては「序の口」なのでしょう。ただ、猛暑日の解説をしてくれている所はAIだからなのでしょうね。
2. 角度を求める算数の問題 以下の問題について、確認しました。今回は四角形です。

回答は以下の通りです。

まず、四角形を三角形と誤解していますね。また46度という記載されていない数字が出てきました。その後の記載内容は全く関係がなく、意味不明です。
次に、四角形であることを教えてあげると、以下の通り、強行策?に出てきました。答えはたまたま正解なのですが・・。

図形問題(角度算出問題)は、生成AIにとって難しいんですね。小学生か中学生の時に頑張って解いていましたが・・。
3. 化学反応の問題 以下の問題を出してみました。フェノールとホルムアルデヒドを原料としたフェノール樹脂の化学反応なのですが、どのように回答するのでしょうか?

回答を日本語に翻訳すると以下の通りです。
図で説明されている化学反応は、ヒドロキシル(OH)ラジカルとホルムアルデヒド(CH2O)の反応である。
この反応の生成物はHCO(ヒドロキシメチルラジカル)とH2Oである。
この反応の釣り合い化学方程式は次のとおりである:
OH + CH2O → HCO + H2O
ヒドロキシルラジカルは非常に反応性の高い化学種で、さまざまな化合物から水素原子を取り出すことができる。
この場合、ホルムアルデヒドから水素原子を取り出し、ヒドロキシメチルラジカルを生成する。
ヒドロキシメチルラジカルは不安定で、すぐに分解してHCOとH2Oを生成する。
HCOラジカルも反応種であるが、ヒドロキシルラジカルほど反応性は高くない。
HCOラジカルは他の化合物と反応し、アルコール、アルデヒド、ケトンなど様々な生成物を形成することができる。
送られてきた画像の文脈からすると、ヒドロキシルラジカルはオゾン(O3)と水蒸気(H2O)の反応によって生成されている可能性が高い。
オゾンと水蒸気の反応により、ヒドロキシルラジカルと酸素ガス(O2)が生成される。
ヒドロキシルラジカルは次にホルムアルデヒドと反応し、HCOとH2Oを生成する。
HCOラジカルはその後、他の化合物と反応して様々な生成物を形成する。
反応全体は複雑なものだが、ヒドロキシルラジカルがHCOや他の反応性種を生成する重要な中間体であることは重要である。
一番左の物質をフェノールと認識していないための回答かなと判断し、物質名を質問しました。
【プロンプト】What is the name of the substance on the far left side of the figure?
図の左端にある物質がヒドロキシルラジカル(OH)である。
反応性の高いフリーラジカルで、大気中ではオゾン(O3)と水蒸気(H2O)の反応によって生成される。
ヒドロキシルラジカルは、対流圏でも太陽光と二酸化窒素(NO2)との反応によって生成される。
ヒドロキシルラジカルは、スモッグやその他の大気汚染物質の生成に関与するため、大気中で非常に重要である。
また、成層圏のオゾン破壊にも一役買っている。
図では、ヒドロキシルラジカルがホルムアルデヒド(CH2O)と反応してヒドロキシメチルラジカル(HCO)とH2Oを生成している。
この反応は、ヒドロキシラジカルが起こしうる多くの反応の一つである。
案の定、フェノールと認識せずに、文字情報である「OH」のラジカル(-OH)のみを認識しているようです。フェノールの骨格であるベンゼン環を六角形を書いて、その中に○を書くという省略形のためなのかなと思い、二重結合(C=C)を反映させた形でも聞いてみました。

結果はほぼ同じ内容だったので割愛します。Google Bardの画像入力ができるようになったとは言え、画像中の「文字情報」に特化して利用が可能な感じがしますね。図形の形状や特徴の認識は、まだまだこれからなのでしょう。
4. 論理回路の問題 以下の論理回路の出力も聞いてみました。

結果は以下の通りです。
送られてきた画像の出力Xの値は不明です。
ANDゲートの入力値が不明だからである。
入力 "1 "と "OR "のANDゲートは、入力 "OR "が1なら1を出力し、入力 "OR "が0なら0を出力します。
入力 "0 "と "1 "のANDゲートは、入力 "1 "の値に関係なく0を出力します。
したがって、出力Xの値は入力 "OR "の値に依存するが、この値は不明である。
入力 "OR "が1であれば、出力Xの値は1になる。
入力「OR」が0の場合、出力Xの値は0になる。
出力Xの値を決定するには、入力「OR」の値を知る必要がある。
しかし、画像はこの情報を提供しない。したがって、出力Xの値は不明である。
論理回路にAND、ORの文字を記載していないパターンでも聞いてみました。

その結果、
送信された画像の出力Xの値は不明です。
入力Aの値が与えられていないからである。
入力Aが0なら出力Xは0になるが、入力Aが1なら出力Xは1になる。
画像の回路は、ANDゲートとORゲートの組み合わせである。
両方の入力が1の場合、ANDゲートの出力は1になる。
ORゲートの出力は、どちらかの入力が1なら1になる。
入力Aが0の場合、ANDゲートの出力は0となり、ORゲートの出力は入力Bの値に関係なく0となる。
入力Aが1の場合、ANDゲートの出力は1になる。ORゲートの出力は、入力Bの値に関係なく1になる。
出力Xの実際の値を決定するには、入力Aの値を知る必要がある。
入力Aは図中に与えていないのですが、この図がAND、ORの論理回路であることは認識しているようです。
以上、今回は手書きの画像ファイルを用いてBardに質問をしましたが、現時点で、
① 画像中に文字情報があれば、認識度が上がる。
② 画像中の図形の形や特徴を捉えることが難しい。
ことがよく分かりました。これからの進化を楽しみに期待したいと思います。