GPT-4は技術文章の翻訳にどこまで使えそうか？

１．GPT-4は技術文章の翻訳にどこまで使えそうか？

・chatGPT(GPT-4指定)であっても、翻訳対象として与えた長文中の一部を全く翻訳しないで飛ばすという現象が割と頻繁にある
・chatGPT(GPT-4指定)であっても、大半の知識が2021年9月以前に制限されているので大きな変化があった事象には対応が難しそう
・chatGPに作業を肩代わりして貰う事を考えるのではなく、今までやってきた事の今後の意義を見つめなおす必要があるかもしれない

２．GPT-4を翻訳に使う際の注意点

アイキャッチ画像は記事内容をGPT-4に伝えて作って貰ったプロンプトでStable Diffusionで一発どりした画像。「GPT-4を象徴するロボットやAIの頭部が、新たな知識や技術を発信するかのように光や電気信号を放つ様子。映画「風の谷のナウシカ」のキャラクターを取り入れることで、より視覚に訴えるイメージに。ブルーやシルバーを基調として、未来や知識の普及をイメージさせる」との事です。

Webbigdataは過去記事と重複しないアイキャッチ画像を素材サイトから探すのに毎回苦慮していた時代がありました。

イラスト生成AIのStable Diffusionが登場した当初はこれでアイキャッチ画像を探す手間の省力化／効率化／時間短縮が出来る！と思ったものですが、実際にはあれもやってみたい、これもやってみたいと、今まではやれなかった事が出来るようになった事が嬉しくて脱線しまくって、明らかにアイキャッチ画像作成にかける時間は従来より増えています。

GPT-4に関しても、やれる事が増えると色々と試したり、より高い品質を求めたくなって作業にかかる時間が指数関数的に増加するという、ドツボ傾向を感じています。「AIが好きな人に高機能AIを与えると余計な事を始めるので生産性が落ちる」という大宇宙の法則がある気がしています。

とは言え、GPT-4に丸投げして翻訳して貰ったそこそこの出来の翻訳と、そこから更に深堀して自分が満足できるレベル以上にした翻訳文では後者は自己満足にすぎない部分もあるかもしれないので、今後の記事投稿のあり方については悩み中ではあるのですが、現時点までに得た知見を徒然なるままに以下に書き散らします。

（１）翻訳漏れは結構ある

chatGPT(GPT-4指定)であっても、長文中の一部を全く翻訳しないで飛ばすという現象を確認しています。しかし、実はこの翻訳漏れ現象は、chatGPT特有の現象ではなくて、流暢な日本語訳が出来ると評判の高いDeepLなどでも良くある事です。

Google翻訳は日本語としてたどたどしい訳になる事はありますが、翻訳漏れは滅多に見る事がありません。しかし、DeepLは結構あって、chatGPT(GPT-4指定)も「全ての文章を翻訳する必要があります。省略してはなりません」と指定しても、洩れる事があるので、これは現時点での限界なのではないかと思っています。

ちなみに翻訳が漏れた事を指摘すると「申し訳ありません。不注意で飛ばしてしまいました。以下に、飛ばした部分の翻訳を追加します。」と謝罪して追加してきますが、追加する場所がそもそも間違っていたりします。

ですので、使うとしたら全訳ではなくて要約用途の方が安全かもしれません。しかし、要約も幻覚(Hallucinate)を見てしまうのか、シレっと元文章内にない表現を入れ込んでくる場合があって、時と場合によってはリスクが高いです。

（２）大半の知識が2021年9月までの知識に制限されているのは大きい

GPT-4は大半の知識が2021年9月までの知識に制限されていると明記されています。

「GPT-4に手伝って貰って知識ゼロで～のプログラムがゼロから書けました！」系のお話は誇張ではないですが、2021年9月以降に大きなVersionUpや仕様変更などが発生している言語やシステム、仕様などに関してはスムーズにいかないです。

GPT-4が教えてくれたコードが動かない理由が何故なのか？現在は何がどう変わったのかを調べるのに、従来と同等な手間がかかります。

上手くいった例では、例えば「Webサイトに画像スライダーを追加する機能をJavascriptなしで実現したいです」は、従来のchatGPT(GPT-3.5 Lagacy)は「わかりました」と言いつつ、Javascriptを使ったコードを出力しますが、chatGPT(GPT-4指定)は、その他にも追加した細かい仕様についても完璧に応えるコードを出力してくれました。これはHTMLの仕様がそんなに頻繁に変わるものではないからだと思います。

あまり上手くいかなかった例では、そんなにメジャーではない某システムのAPIを使うサンプルスクリプトを一瞬で出力してくれたので、感動したのですが、そもそもAPIの体系が一新されていて、使いようがないスクリプトになっていた、なんて事がありました。また、Stable DiffusionやDALL E2は知っているようなのですが、イラスト生成AIの爆発的な進化は知らないのか、イラスト生成AI用のプロンプトも(有効ではありますが)平文の英語に近い感じになります。

ですので2021年9月以前の文脈に基づいて2023年3月時点の文章を翻訳しているので、技術分野、及び世界情勢などでGPT-4が知っている世界と現在の状況がだいぶ異なっているリスクを許容する必要があり、思わぬ落とし穴に落ちる危険性を感じています。

まぁ、今後、この時間差ギャップは徐々に埋められていくのかもしれませんが、ギャップがなくなるにつれて、

・インターネット上に詳しく解説した文章がまだ存在しない状態でもAIは質問に対して回答が出来るのか？
・出来たとしたら、その回答の真偽を人間はどうやって確かめる事が出来るのか？

という別次元の困難さが待ち構えています。

（３）肩代わりして貰う事を考えるのではなくやっている事の意義を見つめなおす必要があるかも

当初、私の考えは「GPT-4であっても、変化が激しい業界は人間と同様に苦戦しそう。完全自動翻訳／要約を導入すると許容できないレベルに品質が下がってしまいそうなので、もう少し私自身がGPT-4に慣れてから段階的に導入する事が良さそう」でした。

理想の役割分担は、私が独自記事を書く方に集中して、GPT-4先生に情報収集／翻訳／要約／タグ付け／記事化／アイキャッチ画像用のプロンプト作成までやってもらって、Stable Diffusion先生にアイキャッチ画像作成をやってもらう事なのかな、と考えていたのですが、おそらく、この発想は古い人の考え方なんですよね。

AIは根本的に世の中を変えるポテンシャルを持つため、おそらく、既にある業務や定型化された作業内に取り入れたり自動化するのではなく「そもそも、それって本当に必要な作業／世の中から求められている仕事なんだっけ？今のやり方を続けていくだけで新しい時代に対応できるのかな？」と問うところが開始点なのかな、と、今は考え直しています。

ずっと続けてきたWebbigdataの存在意義の否定に繋がる事なので、中々、辛い作業ではあるのですが「調べものがある時はAIチャットボットに相談するのが普通。検索エンジンを使って検索する事は専門家がやる事」という状態に世の中がなっていく可能性がある中で「Webサイトって本当に今後も今までと同じ役割を担っていくのかな？」を考えなければいけないタイミングに来ているのかもしれません。

2023年03月10日にAIチャット機能を搭載した新しいBingの1日当たりのアクティブユーザー数が1億人を超えたと言う発表がありました。

従来のBing検索はGoogle Analytics上では参照元が

「bing / organic」

となります。

EdgeブラウザのサイドバーのBing Chat検索ではAIが直接回答を表示しますが、その際、回答を作成するにあたって参照した情報提供元サイトへのリンクも表示します。そのリンク経由でWebサイトに訪問した場合、

「edgeservices.bing.com / referral」

と記録されます。(link.edgepilot.comのパターンもありますがこちらはまだ何者か発表されていません)

現在までにWebbigdata.jpで記録されているedgeservices.bing.com経由で訪問してくれたユニークユーザー数は5です。

5/100,000,000!

同期間に「bing / organic」経由で訪問してくれたユニークユーザー数比で考えてもわずか0.3%です。

やはり、9割以上の人はAIチャットボットの回答で満足するので、情報提供元サイトまで確かめようとする人はほとんどいないのです。AI検索が主流になった後、organic経由の流入が激減した後のインターネットはどんな世界になっていくのでしょうか？

また、最新のBing チャットはチャットボットの回答をソーシャルメディア、電子メール、またはリンクで他のユーザーと共有できるようになったのですが、共有すると情報提供元サイトへの参照リンクが何故か消える仕様になっています。