韓国のある民間IT業者が2020年、韓国政府から「人工知能(AI)学習用データ構築事業」を受注した。卵・牛肉など畜産物の写真数万件で構成された蓄積データを作成する業務だった。政府がその蓄積データを一般公開すれば、企業がそれをAIに学習させ「卵の外見だけで卵の品質を判定するAI」「牛肉の外見だけで、等級分類できるAI」などを開発することができるものだった。
【写真】「我々はポストコロナ時代のデジタル経済で他国をリードできる」と語る文在寅大統領(2022年6月18日)
しかし、この業者が提出した蓄積データはAI学習に全く使い物にならない「ゴミデータ」だった。政府はA~D等級の卵の写真をそれぞれ1万6000枚、計6万4000枚取りまとめることを要求していたが、問題の業者が提出した写真はB等級の卵の写真43枚にすぎなかった。このほか、牛肉の写真も5等級ごとに各1万6000枚ずつ計8万枚を提出なければならなかったが、1等級の写真は皆無で、2・3等級の牛肉の写真だけ数千枚を提出した。1等級の牛肉の写真がないデータでAIを学習させ、1等級と2・3等級の牛肉を区別させることなどできない。それでも同社は政府から19億ウォン(約2憶1800万円)を受け取った。
この業者は文在寅(ムン・ジェイン)政権が「韓国版ニューディール」という名目で2020年から推進した「AIデータ事業」に参加した。監査院は23日、2020年から25年までに約2兆5000億ウォンが投じられる同事業で、最初の2年間に作成された蓄積データ360件のうち122件(33.8%)の品質が基準を満たしておらず、AI学習には使えない状態だったと発表した。不合格の蓄積データを作成するのに要した費用は1148億ウォンだった。
他社が作成したサッカー競技の動作に関するデータには写真が数万件含まれていたが、 一部の写真には写真のの動作がどんな動作なのかに関する説明が欠落していた。チャージをかけているのか、スライディングをしているのか、反則なのか、正常なプレーなのかなどの表示が全くされていなかった。また別の業者は、聴力検査の結果データを10万8167件集めたが、資料に対する説明が全て欠落していた。これもデータとしては役に立たない。それでも両社は政府からそれぞれ19億ウォン、18億ウォンを受け取った。