生成AIへの懸念のおさらい
ChatGPTの使用については今の時点での大まかなものは見えてきたように思っている。今後もちょっとした変化が意外にも大きな影響を生み出すといったことも生じてくるだろうとしても。
こんなところにもChatGPTがという文脈が、良きも悪きも継続的に出て来ているところであって、これは今後続いていくのだろう。
私にとっては自分がどのようにChatGPTを使えるかと思って見ているので、組織内での使用の懸念について強い現実感はない。問題になるであろうことは予想はできるし、これは今後顕在化していくことも明らかであろう。
「生成AIの利用ガイドライン」が目についたので、整理のつもりで目を通そうと思う。作成元は一般社団法人日本ディープラーニング協会とのことで、G検定を行っている団体だ。そういえば以前G検定とはどういったものかと興味を持ったことがあった。
JDLAが、『生成AIの利用ガイドライン』を公開 – 一般社団法人日本ディープラーニング協会【公式】
この類のガイドラインや規定例は、いくつかの団体などが少しずつ出していているのが目についてくる。ガイドラインであるから、突飛なものである必要はないし、できるだけ漏れがないように、オーソドックスなところを抑えるのが大切なものだと思う。そのため、内容は似通ったものになってくる。そして、無難で面白みのないものになってしまうことはやむを得ないし、そうあるべきものだ。
ガイドラインの射程
本ガイドラインについては、組織内での利用について、組織として押さえるべきポイントを上げたものとして理解できそうだ。全体的な考え方としては、利用を前提として、いかにうまく利用するか、問題ある利用を避けるかというところだ。
そして、ガイドラインが生成AIの何を具体的に想定しているかを特定している。生成AIという一般名詞では、さまざまな生成AIが想定される。そして生成AIという言葉の射程自体かなり曖昧なものだ。日進月歩で新たな生成AIが生まれている現状で、組織として適宜ガイドラインを定めていくのは本当に大変だと思う。
ガイドラインのアップデートがいつの間にか低迷していき、他方で生成AIの利用は進んでいき、いつのまにか現状と乖離したガイドラインが残されるという状況は容易に想定できる。そして、いざ問題が起こったときに、そのガイドラインを基準として判断されるわけだ。忘れられていた何年も前の契約書が日の目を見るように。
可否の定め
大枠の使用状況について限定することが求められる。業務に関して言えば、何に使用してよくて、何に使用してはいけないかを定めることになる。これをすべて網羅的に定めることは不可能であるが、類例をあげて応用が効くように定めることになるのだろう。
一定の方向性が示せれば、新たな生成AIや利用分野が生じたときの助けになる。あまり抽象化して規範化するよりは、想定事例を上げておくほうが現実的に思える。
大枠の使用状況について限定した上で、使用方法を限定することになる。どのような仕様がよくて、どのような仕様がよろしくないのかを定めることになる。
ここで考えるべきことは、学習データの入力と、生成物の扱いを分けて考え、かつ総合的に考えることだ。
学習データの入力については、かなり穏やかである。これは、著作権法第30条の4が意義が大きい。LLMの学習面についていえば、かなり自由なのだ。学習データとしてよろしくないものとして指摘されているのは、個人情報だ。これは、学習データとしてChatGPT側へ蓄積されてしまうことからの問題だ。最近になって、ChatGPTでは学習データとしないとの選択が選べるようになってきたが、そうであれば問題はChatGPTの(OpenAI)の信用性であろう。同様の問題として、NDAを結んだもの、さらに自社の機密情報があげられている。いずれも、外部へ提供してはならない情報として一括りに整理できる。
生成データの使用
生成データについて考えることは、それがChatGPTにより作成されたのは、それとも従来の手法で組織内で作成されたのか、大きな違いはなさそうだ。
生成データが著作権、商標権または意匠権を侵害しないか、名誉毀損となる内容が含まれていないかは検討されなければならない。これらの権利侵害においては、基本的にはその作成過程は問題とされない。偶然に似てしまったとしても(それについての法的評価はさておき)、ChatGPTが生成したからという主張は反論にはならないと考えておいたほうが良い。
ガイドラインでは、「プロンプトに既存著作物、作家名、作品の名称を入力しないようにしてください」として、プロンプトにおいて著作権等侵害のリスクを高める行為を避けることが盛り込まれており、これは今の点を避けるためであろう。あえて似せる可能性を高めるのは、リスクでしかないわけである。
また、生成データについて、著作権が発生しない可能性があること、商用利用ができない可能性があることがあげられている。著作権が発生しない可能性があることについては、生成AI特有の問題とはなりづらいと考えている。いずれ判例の積み重ねにより判断されることになるであろうが、重要なのは生成データの著作物としての性質次第であろう。商用利用については、ChatGPTがあくまで組織外のサービスであるということだ。ChatGPTはあくまでも一組織(OpenAI)の提供するサービスであって、それを商業利用できるかどうかは、その提供側との契約や利用規約によることになる。重要ではあるのだが、この辺りは使用する組織の外部からは見えづらいところである。商用利用禁止の生成データを商用利用した場合については、海賊版利用のような評価になるのであろうか。感覚としては、規範のハードルが低いように思われるので気をつけたい。
ChatGPTが作成した虚偽の情報について、個人情報保護法違反の可能性が指摘されていた。
「【ChatGPT】などは、個人に関する虚偽の情報を生成する可能性があることが知られています。虚偽の個人情報を生成して利用・提供する行為は、個人情報保護法違反(法19条、20条違反)や、名誉毀損・信用毀損に該当する可能性があります」とある。
個人情報の保護に関する法律
(不適正な利用の禁止)
第十九条 個人情報取扱事業者は、違法又は不当な行為を助長し、又は誘発するおそれがある方法により個人情報を利用してはならない。
(適正な取得)
第二十条 個人情報取扱事業者は、偽りその他不正の手段により個人情報を取得してはならない。
2 個人情報取扱事業者は、次に掲げる場合を除くほか、あらかじめ本人の同意を得ないで、要配慮個人情報を取得してはならない。(略)
どうもしっくりこないのだが。そもそも生成されたデータが個人情報に該当するのかという点もあるが、仮に生成されたデータが個人情報に組み込まれたとして、それと不適切な利用(法19条)は関連性がないであろう(使い方の問題であるから)。また、それは個人情報を入手する手段になり得ないし、やはり個人情報ではないというべきで、強いて言うなら個人情報の偽造であって個人情報の入手方法が不正ということ(法20条)ではないのではないか。
もしかして、改正前の条文で考えているのではなかろうか。
旧 個人情報の保護に関する法律
(データ内容の正確性の確保等)
第十九条 個人情報取扱事業者は、利用目的の達成に必要な範囲内において、個人データを正確かつ最新の内容に保つとともに、利用する必要がなくなったときは、当該個人データを遅滞なく消去するよう努めなければならない。
(安全管理措置)
第二十条 個人情報取扱事業者は、その取り扱う個人データの漏えい、滅失又はき損の防止その他の個人データの安全管理のために必要かつ適切な措置を講じなければならない。
こちらであれば、個人情報の正確性確保についてであるから、ChatGPTが生成した誤りのあるデータを個人情報データに組み込んではならないということで理解できる。ガイドラインでの「利用・提供する行為」に関する指摘条文としても理解しやすい。ちなみに、旧19条20条は、新22条23条に残っている。
ネットで検索してみると、本団体に所属されガイドライン作成にも関わっておられそうな弁護士の事務所にあるガイドライン関係の記事だと、以前の記事にはこのガイドラインと同じ表現があり今は大幅にアップデートされていて当該記述は発展的に(?)なくなっているので、団体として統括の担当者という方はいないのかなあ、修正見逃しかなあといった印象ではあるが。
それとも私の読み方が足りないのだろうか。仮に旧条文で考えたとしても、あまり適切な指摘ではないとも思える。そもそもChatGPTで個人情報を補填しようとするだろうか。ChatGPTが言及できる個人情報もどきは、かなり著名な人物のそれであろうし、そういったものを個人情報として管理することについて個人情報保護法が念頭に置いているというわけでもないだろう。どうも最大公約数的ガイドラインとしても違和感が残る。