chatGPTの師匠はあなた!?人工知能が学習データを取得したWebサイトを調べる方法

データセット

1.chatGPTの師匠はあなた!?人工知能が学習データを取得したWebサイトを調べる方法まとめ

・現在の人工知能はインターネットから自動で収集したデータを学習に使っている事が多いが取得元がどこかは明確になっていない事が多い
・直近公開された大規模データセットから日本語のデータを抽出し、それらがどのサイトから取得されたデータなのかを調べてみた
・無断でコンテンツを学習に利用する仕組みを未来永劫持続させる前提で考えるのはそろそろ止めるべきなのではないかというのが今回の提言

2.人工知能がインターネットから学習する仕組み

chatGPT等の最近のAIは非常に賢いですが、これらのAIは何から学習したのでしょうか?

現在の人工知能は、以下のような流れでインターネットから収集したデータを学習に使っている事が多いです。

1)非営利団体がインターネットや著作物から特に許可を得ずにデータを収集し、利用しやすい形にして一般公開
2)研究機関や営利企業が1)のデータを利用して人工知能を学習させ、場合によっては有料サービスを展開
3)有料サービス展開企業の中には、こうして学んだ人工知能の出力に対して自社の権利を主張するケースもある

直近で議論になる事が多いのは画像生成AIですが、文章や音声、音楽、動画などもほぼ同様な流れです。

建前上は1)と2)は無関係な事になっていますが、1)はスポンサーがいなければ成り立ちませんので、2)が何らかの形で援助をしていると考えられています。

つまり営利企業が非営利団体を隠れ蓑に、もしくは科学技術の発展や研究開発を大義名分に、他者の著作物を許可なく使えるようにデータロンダリングをして収益化しているという批判です。

このような状況ですが、具体的にどのページが学習用データとして使われているのかを明確にした資料を見かける事はあまりありませんでした。

何故なら、学習用データは数十~数百テラバイト級(1テラは1024GB)の超ビッグデータであり、ダウンロードするだけでも大変な手間がかかります。更にはAIに携わる人にとってはわざわざ物議をかもすような状況を白日の元に晒すメリットはありません。

しかしながら、私はAI研究者/開発者の側面もあるけれどもブログ執筆者の側面もあるので、実体を明確にするため、直近公開された大規模データセットから日本語のデータを抽出し、それらがどのページから取得されたデータなのかを調べてみました。

なお、全ての学習用データがデータ取得元を明らかにしているわけではありません。今回、調査したのはごく一部のデータであり、本ページに掲載されていなければ使われていないというわけではありません。

しかしながら日本語で書かれているページ一億件以上を分析した結果、例えば、当サイト(webbigdata.jp)からは788ページが学習用データとして使われている事が確認できました。

以下のページから日本語で書かれたWebページが取得されたサイト(ドメイン単位約300万件)を検索ができるようにしてあります。

AI学習データチェッカー

※ ドメインとは本サイトであれば「webbigdata.jp」の部分です。http://の部分は含まず、/post-xxxx/以下の部分も含みません。当初はページ単位で確認できるようにする事を考えていましたが、1億件を超えるため現在のサーバーでは耐えきれず断念しました。記事執筆や研究・取材等でまとまったデータをお望みの方は問い合わせフォームよりお問い合わせください。

もし、皆さんが所有するサイトが人工知能の学習用データとして知らない間に使われている事を知ったら皆さんはどのような気持ちになるでしょうか?

私自身は、超前向きに考えれば「chatGPTはワシが育てた!」と、言えない事もないですし、私が死んだ後も私の書いた文章や知識が人工知能の中で永遠に生き続けるのかな、と好意的に考える事が出来なくもないとは思っています。

しかし、GoogleのBardはまだwebbigdata.jpを知っていたのでギリギリ許せますが、chatGPT(GPT-4.0)は「webbigdata.jp?聞いた事がないサイトですね」と言い出すので788ページを教科書代わりに使用しておきながら知らんとは、心情的にそれはないだろうとも言いたくもなるし、更にはMicrosoft版のchatGPTは他人のコンテンツを流用して作成したページに広告掲載までやりはじめているので、これって悪質なまとめサイトと何が違うんだ、という気持ちになる事もあります。

まぁ、私自身も画像生成AI使ってAIの恩恵を受けているので「画像はタダ乗りしていたのに文章に関しては文句言うのか!」という批判のご意見はあると思うのです。

それは大変もっともなご意見です。確かに主張に一貫性がない。それは悩みました。

しかし、AIに関しては一貫性をもって行動している人や企業は存在しない気がしてきたので考えを改めました。

例えばOpenAIも「汎用人工知能(AGI)が全人類に利益をもたらすようにする」とスローガンを掲げてますが、自社のchatGPTを動かしているサーバーにはAIボットでアクセスできないように制限しています。(プラグインで他サイトにはAIボットにアクセスさせているのに!)

GoogleもMicrosoftもAIボットによる自動アクセスを禁止しているサービスは多々あります。

AIによって世の中を便利に変えていく、これが新時代のゴールドスタンダードであると主張するのであれば、自社サービスやコンテンツもAIを使ったアクセスを制限をすべきではないでしょう。主張に一貫性がない。

まぁ、これは過渡期ゆえに、Before AI時代に設計されたシステム・環境にAIをそのまま持ち込む事に無理があるからであり、しょうがない事と理解はできます。本サイト(webbigdata.jp)も出来の悪いクローラーの大量アクセスでサーバーが落ちた事は一回や二回ではききません。

つまりは、皆、自社サービスやコンテンツにAIがボットとして大量に自動アクセスしてきたり、自動でデータ収集されて無断で使いまわされると困る事や迷惑な事が多いのです。Before AI時代の仕組みにAIを持ち込まれると大企業であっても困るのに、Before AI時代の仕組みである検索エンジンやクローラーに至極当然のような顔をしてAIを持ち込んでくるのはおかしいだろうという話です。

検索エンジンという仕組みも元々は反発もありましたが、個々のWebサイトの集客に繋がる共存の仕組みとして定着しました。

しかし、Webサイトから得た文章で直接回答を表示し、更には広告まで表示するのであれば、情報提供元サイトの集客にはほとんど貢献しないので、それは共存の仕組みではありませんし、従来の検索エンジンと同じ扱いを求めるべきではないでしょう。

「人間の学習とAIの学習は何が違うのか?」という意見も目にする事がありますが、人間にやられても怒りますよ。

788ページ以上を無断で公的データとして扱われて間接的に商用利用、転載され、参照元としてあなた自身に言及される事が一切ない状況でも文句言わない人だけが、私に石を投げてください。

 

とはいえ、私もオープンなAI開発の推進は賛成している人間なので、AI開発やデータ取得そのものを完全否定する事は避けたく、ここに大きな自己矛盾があります。

つまり、この文章をここまで読んで「AIめ、勝手にデータを盗むとは許せん」と思った人はちょっと待って欲しいのです。

AIやデータの取得そのものを責めると、クローズドなAI、つまりこっそりデータを集めてこっそりAIを開発してこっそりAIを使うようになるだけです。実際、隠蔽アプローチである程度の成功をおさめているように見える企業はあります。

現状、私の考える提言はシンプルです。

「時価総額世界上位の大企業群が、いつまでも他人の著作物(画像、サイト、音声、動画、音楽、著作物等々)から黙って情報を収集して使うのはおかしいです。迷惑なので止めて欲しいです。まずはおかしい事を認識してください。そして、元著作権者から許可を得る仕組み、及び利用に応じてお金払う仕組みの構築を目指してください。」

個々の著作者から許可を得る仕組み、もしくは著作者にお金を払う仕組みはやろうと思えばできるはずですけど、大変だし、そもそも無断で使われている事に皆気づいておらず、(大きな業界団体以外は)文句を言ってこないから、個々の著作権者は現状を受け入れているのだろうと都合良く解釈されているのが現状と思っています。

現状改革の第一歩として、本ページは「そもそもどのサイトがAIの学習に使われているのだろうか?」を明確にしたものです。

youtubeなどの配信サービスやTwitter(X)などもコンテンツ作成者にお金を払う時代にシフトしてきていますので、時代の流れに沿っているのではないかとも思います。

AIがもっと発達すれば人間が働かなくて良い世界がくるのかもしれませんが、いつごろになるかはわからないので、使ったものに対して料金を支払う、という当然の事を優先させてください、というお願いです。この当然の事をしないで、責任あるAI開発やベーシックインカムの実現を目指すと言われても嘘くささしか感じません。それこそ、AGIで支払いを自動化すれば事務作業もほとんど人手を介さずにできるでしょう。

AI/LLM開発者、熱狂的AI愛好家の方にとっては本記事を読んで「余計な事するな!」というご感想もあるかと思うのですが、ちょっと立ち止まって考えて欲しいのです。

貴方自身は本当に覚悟できてますか?

あなた独自のアイディアや研究成果、発言が「chatGPTに教えてもらいました」と気軽に転載/流用されていく世界。

ボットがたまに訪問してくるだけで誰も人間が訪問してくれず「インターネット上で拾った無名のデータ」として引用元さえ明確化されない世界。

この状態で創作活動なり研究活動なりにモチベーションが続く人っているんですかね?

貴方がAI推進派であろうがなかろうが、貴方自身の著作物も「引用元:chatGPT」扱いを受ける世界が近づいてきていますが、本当にその世界で生き抜ける覚悟が出来ていますか?

私はそんな世界は持続可能ではないし、以前書いた通り、このままではインターネットは死ぬと思っています。

現状、既になってしまった部分は追認せざるを得ないと思うのですが、このタダ乗りを当然と考えて未来永劫この仕組みが持続する前提で考えるのはそろそろ止めるべきなのではないかというのが今回の提言です。

「AIコミュニティ全体の健全な発展」のためには、今、何が起こっているのかを明確にする教育的側面、この状況を改善するために必要な透明性の確保、最後に持続可能性を確立するために必要な事柄の整備、が必要なのかなと思っています。

 

(1)コンテンツを発信する側の人へのアドバイス

色々な団体が様々なAI規制の提言をしていますが、基本は自団体の権利を主張しているだけなので、あなたのデータ/著作物を誰かが代わりに守ってくれる事は期待薄です。

そのためあなたのデータ/著作物はあなたが守るしかないです。今のところ、以下の3つを案として思いついています。

1-1)海外のサーバーにデータを移す
EU等のデータ利用に関する規制が厳しくなりそうな地域のサーバーにデータを移す案です。

日本の法律に違反するような公序良俗に反するサイトが日本の法律が及ばない海外のサーバーで運営される事がありますが、あれの逆版です。

日本の法律が守ってくれないのであれば、守ってくれそうな地域に移動するしかないです。

1-2)閉じたネットワークで活動する
登録を必須とする会員制サイトやチャット系サービス、SNSで活動する案です。SNSはデータをAIの学習に使う事を明言している会社もあるので気をつけてください。自由で開かれたインターネットはもうあきらめましょう。

1-3)コンテンツの発信を辞める
モチベーションを奪われて自然発生的にこうなってしまう人は少なくはないだろうな、と思います。インターネットは便所の落書きから、人工知能に書かせた広告文や陰謀論、画一的な文章が溢れる場所に進化する事になります。

(2)コンテンツを利用する側の人へのアドバイス

以下は日本語データが掲載されていたページのトップレベルドメインの上位100件です。

日本語のデータ=必ずしも日本国内のサーバーに存在する事を保証するわけではなく全世界的な観点から法的問題がクリアされているわけではありません。日本語のデータを扱ってる限りあらゆる権利問題はクリアされていると思い込むのは危険です。

No トップレベルドメイン 件数
1 com 37,684,107
2 jp 30,078,388
3 URL情報なし 23,025,923
4 net 6,242,627
5 org 2,811,602
6 info 1,428,010
7 app 1,069,402
8 xyz 830,148
9 ru 728,720
10 biz 699,019
11 work 550,466
12 me 355,634
13 tokyo 354,045
14 it 334,602
15 de 212,747
16 site 207,753
17 uk 179,101
18 tv 176,813
19 br 155,671
20 in 147,205
21 club 141,576
22 co 135,726
23 shop 133,998
24 fr 126,989
25 pl 113,097
26 blog 88,427
27 online 87,324
28 fun 85,152
29 nl 76,086
30 cn 75,253
31 id 74,018
32 au 74,006
33 cc 70,243
34 io 65,374
35 link 63,969
36 asia 60,271
37 tw 60,248
38 eu 58,637
39 es 55,463
40 mu 51,955
41 space 51,406
42 ca 50,220
43 top 47,431
44 to 47,226
45 life 46,003
46 ar 43,050
47 mobi 42,863
48 mx 41,774
49 us 41,473
50 news 39,343
51 cl 37,146
52 vn 36,847
53 be 34,880
54 pt 31,704
55 ro 30,661
56 media 29,501
57 ua 28,449
58 rocks 28,383
59 edu 28,160
60 th 27,911
61 za 27,629
62 my 27,134
63 gr 25,996
64 se 24,966
65 cz 24,678
66 pro 24,456
67 ch 23,433
68 click 23,016
69 cat 22,341
70 kr 21,942
71 coop 20,916
72 fm 20,306
73 ir 19,348
74 sg 18,925
75 tech 18,810
76 sk 18,572
77 blue 18,403
78 bz 17,676
79 style 17,543
80 press 17,009
81 nu 16,950
82 website 16,918
83 love 16,888
84 at 15,956
85 st 15,726
86 travel 15,464
87 hu 14,962
88 okinawa 13,844
89 dev 13,721
90 nagoya 13,549
91 yokohama 13,428
92 pk 13,340
93 ac 13,099
94 host 13,043
95 tr 12,591
96 nz 12,028
97 today 11,900
98 red 11,406
99 dk 10,989
100 pw 10,837

私自身もAI開発者としての側面はあるので、自戒を込めて書きますが、アメリカでは訴訟の話を以前より見かけるようになってきています。

開発者の立場になると、現在の仕組みがなくなると非常に困るのは確実です。しかし同時に、現時点ではすぐに法的に問題が発生しない可能性が高くとも、自分自身は防衛しつつ、相手が嫌がるだろう事や迷惑に感じるであろう事をひっそりとやる事は「責任あるAI開発」と言い張れるのだろうか?という気持ちを感じる事が多々あります。

もちろん、本テーマは、AIコミュニティ全体が向き合うべき大きなテーマであり、個々の行動が直接大きな変化を生むわけではないでしょうし、AIコミュニティ側から問題提起する事は勇気がいる事だと思うのです。

しかし、日本で日本語で公開されるコンテンツが減ったら最終的にはAI研究・開発も行き詰ると思うので、機会があったら皆さんも他人事として考えずにご自身の見解を発信してみて頂きたいな、と思います。

最後までお読みいただきありがとうございました。

タイトルとURLをコピーしました