AI新世紀:オープンAIも狙った垂涎の日本語データ 「国産」の強みにできるか

Wait 5 sec.

AI新世紀毎日新聞 2025/12/29 05:00(最終更新 12/29 05:00) 有料記事 3601文字ポストみんなのポストを見るシェアブックマーク保存メールリンク印刷岸田文雄首相(当時)との面会を終え、記者団の質問に答えるオープンAIのアルトマン最高経営責任者=首相官邸で2023年4月10日、竹内幹撮影 対話型人工知能(AI)「チャットGPT」を開発した米新興企業オープンAI。2024年4月には日本法人の設立を発表したが、その約2カ月前、開発に向けて日本のデータを手に入れようと国内で動きを見せていた。しかし、同社から打診を受けた“データの宝庫”はその提案を受け入れなかった。日本で普及するチャットGPT チャットGPTは22年11月の発表以降、日本で広く普及した。同社サイトへのアクセスは、米国とインドに次いで多い。23年4月には、サム・アルトマン最高経営責任者(CEO)が来日し、岸田文雄首相(当時)と面会した。チャットGPTを発表してから初の海外訪問だった。 アルトマン氏と親交のある塩崎彰久衆院議員は「日本はチャットGPTの利用率が高く、政府もAIにフレンドリーな方針だったので、来やすかったのではないか」と話す。 チャットGPTのような対話型の生成AIは、基盤となる大規模言語モデル(LLM)に文章データを大量に取り込み、パターンを覚えることで学習する。岸田氏との面会後に開かれた自民党本部での会合で、アルトマン氏は日本関連の学習データの比重を上げることも打ち出した。 なぜ日本語のデータが重要なのか。同社が20年に発表した「GPT-3」の学習データは、英語が大半を占める。日本語はわずか約0・11%に過ぎず、言語別では14位だった。 日本に関するデータが少なく、間違いも頻発していた。23年4月の国会では、自民党の平将明衆院議員が、チャットGPTに自身の名前を入力すると「日本の中世の有力な武将」と返ってきたと指摘して話題になった。 性能を高めるには、質の高い大量の日本語データが欠かせない。同社が目をつけたのは、…この記事は有料記事です。残り2888文字(全文3601文字)【時系列で見る】【前の記事】日本も標的? ロシアに「調教」される生成AI 中国派生系には偏り関連記事あわせて読みたいAdvertisementこの記事の特集・連載この記事の筆者すべて見る現在昨日SNSスポニチのアクセスランキング現在昨日1カ月アクセスランキングトップ' + '' + '' + csvData[i][2] + '' + '' + '' + listDate + '' + '' + '' + '' + '' + '' } rankingUl.innerHTML = htmlList;}const elements = document.getElementsByClassName('siderankinglist02-tab-item');let dataValue = '1_hour';Array.from(elements).forEach(element => { element.addEventListener('click', handleTabItemClick);});fetchDataAndShowRanking();//]]>