chatGPTの師匠はあなた！？人工知能が学習データを取得したWebサイトを調べる方法

１．chatGPTの師匠はあなた！？人工知能が学習データを取得したWebサイトを調べる方法まとめ

・現在の人工知能はインターネットから自動で収集したデータを学習に使っている事が多いが取得元がどこかは明確になっていない事が多い
・直近公開された大規模データセットから日本語のデータを抽出し、それらがどのサイトから取得されたデータなのかを調べてみた
・無断でコンテンツを学習に利用する仕組みを未来永劫持続させる前提で考えるのはそろそろ止めるべきなのではないかというのが今回の提言

２．人工知能がインターネットから学習する仕組み

chatGPT等の最近のAIは非常に賢いですが、これらのAIは何から学習したのでしょうか？

現在の人工知能は、以下のような流れでインターネットから収集したデータを学習に使っている事が多いです。

１）非営利団体がインターネットや著作物から特に許可を得ずにデータを収集し、利用しやすい形にして一般公開
２）研究機関や営利企業が１）のデータを利用して人工知能を学習させ、場合によっては有料サービスを展開
３）有料サービス展開企業の中には、こうして学んだ人工知能の出力に対して自社の権利を主張するケースもある

直近で議論になる事が多いのは画像生成AIですが、文章や音声、音楽、動画などもほぼ同様な流れです。

建前上は１）と２）は無関係な事になっていますが、１）はスポンサーがいなければ成り立ちませんので、２）が何らかの形で援助をしていると考えられています。

つまり営利企業が非営利団体を隠れ蓑に、もしくは科学技術の発展や研究開発を大義名分に、他者の著作物を許可なく使えるようにデータロンダリングをして収益化しているという批判です。

このような状況ですが、具体的にどのページが学習用データとして使われているのかを明確にした資料を見かける事はあまりありませんでした。

何故なら、学習用データは数十～数百テラバイト級(1テラは1024GB)の超ビッグデータであり、ダウンロードするだけでも大変な手間がかかります。更にはAIに携わる人にとってはわざわざ物議をかもすような状況を白日の元に晒すメリットはありません。

しかしながら、私はAI研究者／開発者の側面もあるけれどもブログ執筆者の側面もあるので、実体を明確にするため、直近公開された大規模データセットから日本語のデータを抽出し、それらがどのページから取得されたデータなのかを調べてみました。

なお、全ての学習用データがデータ取得元を明らかにしているわけではありません。今回、調査したのはごく一部のデータであり、本ページに掲載されていなければ使われていないというわけではありません。

しかしながら日本語で書かれているページ一億件以上を分析した結果、例えば、当サイト(webbigdata.jp)からは788ページが学習用データとして使われている事が確認できました。

以下のページから日本語で書かれたWebページが取得されたサイト(ドメイン単位約300万件)を検索ができるようにしてあります。

「 AI学習データチェッカー」

※ ドメインとは本サイトであれば「webbigdata.jp」の部分です。http://の部分は含まず、/post-xxxx/以下の部分も含みません。当初はページ単位で確認できるようにする事を考えていましたが、1億件を超えるため現在のサーバーでは耐えきれず断念しました。記事執筆や研究・取材等でまとまったデータをお望みの方は問い合わせフォームよりお問い合わせください。

もし、皆さんが所有するサイトが人工知能の学習用データとして知らない間に使われている事を知ったら皆さんはどのような気持ちになるでしょうか？

私自身は、超前向きに考えれば「chatGPTはワシが育てた！」と、言えない事もないですし、私が死んだ後も私の書いた文章や知識が人工知能の中で永遠に生き続けるのかな、と好意的に考える事が出来なくもないとは思っています。

しかし、GoogleのBardはまだwebbigdata.jpを知っていたのでギリギリ許せますが、chatGPT(GPT-4.0)は「webbigdata.jp？聞いた事がないサイトですね」と言い出すので788ページを教科書代わりに使用しておきながら知らんとは、心情的にそれはないだろうとも言いたくもなるし、更にはMicrosoft版のchatGPTは他人のコンテンツを流用して作成したページに広告掲載までやりはじめているので、これって悪質なまとめサイトと何が違うんだ、という気持ちになる事もあります。

まぁ、私自身も画像生成AI使ってAIの恩恵を受けているので「画像はタダ乗りしていたのに文章に関しては文句言うのか！」という批判のご意見はあると思うのです。

それは大変もっともなご意見です。確かに主張に一貫性がない。それは悩みました。

しかし、AIに関しては一貫性をもって行動している人や企業は存在しない気がしてきたので考えを改めました。

例えばOpenAIも「汎用人工知能(AGI)が全人類に利益をもたらすようにする」とスローガンを掲げてますが、自社のchatGPTを動かしているサーバーにはAIボットでアクセスできないように制限しています。(プラグインで他サイトにはAIボットにアクセスさせているのに!)

GoogleもMicrosoftもAIボットによる自動アクセスを禁止しているサービスは多々あります。

AIによって世の中を便利に変えていく、これが新時代のゴールドスタンダードであると主張するのであれば、自社サービスやコンテンツもAIを使ったアクセスを制限をすべきではないでしょう。主張に一貫性がない。

まぁ、これは過渡期ゆえに、Before AI時代に設計されたシステム・環境にAIをそのまま持ち込む事に無理があるからであり、しょうがない事と理解はできます。本サイト(webbigdata.jp)も出来の悪いクローラーの大量アクセスでサーバーが落ちた事は一回や二回ではききません。

つまりは、皆、自社サービスやコンテンツにAIがボットとして大量に自動アクセスしてきたり、自動でデータ収集されて無断で使いまわされると困る事や迷惑な事が多いのです。Before AI時代の仕組みにAIを持ち込まれると大企業であっても困るのに、Before AI時代の仕組みである検索エンジンやクローラーに至極当然のような顔をしてAIを持ち込んでくるのはおかしいだろうという話です。

検索エンジンという仕組みも元々は反発もありましたが、個々のWebサイトの集客に繋がる共存の仕組みとして定着しました。

しかし、Webサイトから得た文章で直接回答を表示し、更には広告まで表示するのであれば、情報提供元サイトの集客にはほとんど貢献しないので、それは共存の仕組みではありませんし、従来の検索エンジンと同じ扱いを求めるべきではないでしょう。

「人間の学習とAIの学習は何が違うのか？」という意見も目にする事がありますが、人間にやられても怒りますよ。

788ページ以上を無断で公的データとして扱われて間接的に商用利用、転載され、参照元としてあなた自身に言及される事が一切ない状況でも文句言わない人だけが、私に石を投げてください。

とはいえ、私もオープンなAI開発の推進は賛成している人間なので、AI開発やデータ取得そのものを完全否定する事は避けたく、ここに大きな自己矛盾があります。

つまり、この文章をここまで読んで「AIめ、勝手にデータを盗むとは許せん」と思った人はちょっと待って欲しいのです。

AIやデータの取得そのものを責めると、クローズドなAI、つまりこっそりデータを集めてこっそりAIを開発してこっそりAIを使うようになるだけです。実際、隠蔽アプローチである程度の成功をおさめているように見える企業はあります。

現状、私の考える提言はシンプルです。

「時価総額世界上位の大企業群が、いつまでも他人の著作物(画像、サイト、音声、動画、音楽、著作物等々)から黙って情報を収集して使うのはおかしいです。迷惑なので止めて欲しいです。まずはおかしい事を認識してください。そして、元著作権者から許可を得る仕組み、及び利用に応じてお金払う仕組みの構築を目指してください。」

個々の著作者から許可を得る仕組み、もしくは著作者にお金を払う仕組みはやろうと思えばできるはずですけど、大変だし、そもそも無断で使われている事に皆気づいておらず、(大きな業界団体以外は)文句を言ってこないから、個々の著作権者は現状を受け入れているのだろうと都合良く解釈されているのが現状と思っています。

現状改革の第一歩として、本ページは「そもそもどのサイトがAIの学習に使われているのだろうか？」を明確にしたものです。

youtubeなどの配信サービスやTwitter(X)などもコンテンツ作成者にお金を払う時代にシフトしてきていますので、時代の流れに沿っているのではないかとも思います。

AIがもっと発達すれば人間が働かなくて良い世界がくるのかもしれませんが、いつごろになるかはわからないので、使ったものに対して料金を支払う、という当然の事を優先させてください、というお願いです。この当然の事をしないで、責任あるAI開発やベーシックインカムの実現を目指すと言われても嘘くささしか感じません。それこそ、AGIで支払いを自動化すれば事務作業もほとんど人手を介さずにできるでしょう。

AI/LLM開発者、熱狂的AI愛好家の方にとっては本記事を読んで「余計な事するな！」というご感想もあるかと思うのですが、ちょっと立ち止まって考えて欲しいのです。

貴方自身は本当に覚悟できてますか？

あなた独自のアイディアや研究成果、発言が「chatGPTに教えてもらいました」と気軽に転載／流用されていく世界。

ボットがたまに訪問してくるだけで誰も人間が訪問してくれず「インターネット上で拾った無名のデータ」として引用元さえ明確化されない世界。

この状態で創作活動なり研究活動なりにモチベーションが続く人っているんですかね？

貴方がAI推進派であろうがなかろうが、貴方自身の著作物も「引用元：chatGPT」扱いを受ける世界が近づいてきていますが、本当にその世界で生き抜ける覚悟が出来ていますか？

私はそんな世界は持続可能ではないし、以前書いた通り、このままではインターネットは死ぬと思っています。

現状、既になってしまった部分は追認せざるを得ないと思うのですが、このタダ乗りを当然と考えて未来永劫この仕組みが持続する前提で考えるのはそろそろ止めるべきなのではないかというのが今回の提言です。

「AIコミュニティ全体の健全な発展」のためには、今、何が起こっているのかを明確にする教育的側面、この状況を改善するために必要な透明性の確保、最後に持続可能性を確立するために必要な事柄の整備、が必要なのかなと思っています。

（１）コンテンツを発信する側の人へのアドバイス

色々な団体が様々なAI規制の提言をしていますが、基本は自団体の権利を主張しているだけなので、あなたのデータ／著作物を誰かが代わりに守ってくれる事は期待薄です。

そのためあなたのデータ／著作物はあなたが守るしかないです。今のところ、以下の３つを案として思いついています。

１－１）海外のサーバーにデータを移す
EU等のデータ利用に関する規制が厳しくなりそうな地域のサーバーにデータを移す案です。

日本の法律に違反するような公序良俗に反するサイトが日本の法律が及ばない海外のサーバーで運営される事がありますが、あれの逆版です。

日本の法律が守ってくれないのであれば、守ってくれそうな地域に移動するしかないです。

１－２）閉じたネットワークで活動する
登録を必須とする会員制サイトやチャット系サービス、SNSで活動する案です。SNSはデータをAIの学習に使う事を明言している会社もあるので気をつけてください。自由で開かれたインターネットはもうあきらめましょう。

１－３）コンテンツの発信を辞める
モチベーションを奪われて自然発生的にこうなってしまう人は少なくはないだろうな、と思います。インターネットは便所の落書きから、人工知能に書かせた広告文や陰謀論、画一的な文章が溢れる場所に進化する事になります。

（２）コンテンツを利用する側の人へのアドバイス

以下は日本語データが掲載されていたページのトップレベルドメインの上位100件です。

日本語のデータ＝必ずしも日本国内のサーバーに存在する事を保証するわけではなく全世界的な観点から法的問題がクリアされているわけではありません。日本語のデータを扱ってる限りあらゆる権利問題はクリアされていると思い込むのは危険です。

No	トップレベルドメイン	件数
1	com	37,684,107
2	jp	30,078,388
3	URL情報なし	23,025,923
4	net	6,242,627
5	org	2,811,602
6	info	1,428,010
7	app	1,069,402
8	xyz	830,148
9	ru	728,720
10	biz	699,019
11	work	550,466
12	me	355,634
13	tokyo	354,045
14	it	334,602
15	de	212,747
16	site	207,753
17	uk	179,101
18	tv	176,813
19	br	155,671
20	in	147,205
21	club	141,576
22	co	135,726
23	shop	133,998
24	fr	126,989
25	pl	113,097
26	blog	88,427
27	online	87,324
28	fun	85,152
29	nl	76,086
30	cn	75,253
31	id	74,018
32	au	74,006
33	cc	70,243
34	io	65,374
35	link	63,969
36	asia	60,271
37	tw	60,248
38	eu	58,637
39	es	55,463
40	mu	51,955
41	space	51,406
42	ca	50,220
43	top	47,431
44	to	47,226
45	life	46,003
46	ar	43,050
47	mobi	42,863
48	mx	41,774
49	us	41,473
50	news	39,343
51	cl	37,146
52	vn	36,847
53	be	34,880
54	pt	31,704
55	ro	30,661
56	media	29,501
57	ua	28,449
58	rocks	28,383
59	edu	28,160
60	th	27,911
61	za	27,629
62	my	27,134
63	gr	25,996
64	se	24,966
65	cz	24,678
66	pro	24,456
67	ch	23,433
68	click	23,016
69	cat	22,341
70	kr	21,942
71	coop	20,916
72	fm	20,306
73	ir	19,348
74	sg	18,925
75	tech	18,810
76	sk	18,572
77	blue	18,403
78	bz	17,676
79	style	17,543
80	press	17,009
81	nu	16,950
82	website	16,918
83	love	16,888
84	at	15,956
85	st	15,726
86	travel	15,464
87	hu	14,962
88	okinawa	13,844
89	dev	13,721
90	nagoya	13,549
91	yokohama	13,428
92	pk	13,340
93	ac	13,099
94	host	13,043
95	tr	12,591
96	nz	12,028
97	today	11,900
98	red	11,406
99	dk	10,989
100	pw	10,837

私自身もAI開発者としての側面はあるので、自戒を込めて書きますが、アメリカでは訴訟の話を以前より見かけるようになってきています。

開発者の立場になると、現在の仕組みがなくなると非常に困るのは確実です。しかし同時に、現時点ではすぐに法的に問題が発生しない可能性が高くとも、自分自身は防衛しつつ、相手が嫌がるだろう事や迷惑に感じるであろう事をひっそりとやる事は「責任あるAI開発」と言い張れるのだろうか？という気持ちを感じる事が多々あります。

もちろん、本テーマは、AIコミュニティ全体が向き合うべき大きなテーマであり、個々の行動が直接大きな変化を生むわけではないでしょうし、AIコミュニティ側から問題提起する事は勇気がいる事だと思うのです。

しかし、日本で日本語で公開されるコンテンツが減ったら最終的にはAI研究・開発も行き詰ると思うので、機会があったら皆さんも他人事として考えずにご自身の見解を発信してみて頂きたいな、と思います。

最後までお読みいただきありがとうございました。