IBMが発表したCodeNetプロジェクトはAIにコードの理解方法、さらにはコードの記述方法も教えることを目的とした大規模なデータセットである。
当社はこのプロジェクトはコードの最大のオープンソースデータセットであると主張している(最も近いものの約10倍)。
CodeNetは5億行のコード、1400万のコード例を特徴とし、Python、C ++、Java、Go、COBOL、Pascalなどを含む55のプログラミング言語にまたがっている。
Open AIのGPT-3などのプロジェクトはAIが人間の言語を書くのに非常に熟練していることを示しているが、独自のネイティブコードの記述はまだできていない。 CodeNetはそれを変えることを目指している。
少なくとも当面の間、GPT-3のようなプロジェクトは、まだ人間が主導を持っている創造性、感情、思いやりなどの領域を補うためまた様々なエラを解決するために必要な基準を提供することによって生産性を向上させる人間のツールになるだろう。
CodeNetは、少なくとも最初は、人間によるコードの記述とチェックというタスクを実行する方法についてのAI自身の理解を向上させることにより高速化するのに役立つ拡張ツールにつながるという。
「多数の言語で記述された豊富なプログラムを考えると Code Netプロジェクトはソースからソースへの翻訳のベンチマークデータセットとして機能し、それをAIに対して実行し、ImageNetデータセットがコンピュータービジョンに対して何年も前に行ったことをコーディングできると信じています」と同社が語っている。
米国の起業家であるマーク・アンドリーセンは、2011年に「ソフトウェアは世界を食い尽くしている」と正しく書いている。自動車でさえ1億行を超えるコードを備えているという。(自動運転車の登場によりコーディングが急速に成長している)。
IBMによると、最近、大手自動車クライアントが3,500の多世代Javaファイルで構成される2億ドルの資産の更新を支援するよう同社に働きかけたという。 これらのファイルには100万行を超えるコードが含まれていた。
IBMはAIをコードスタックに適用することにより、クライアントの1年にわたる継続的なコード移行プロセスをわずか4週間に短縮した。この例は、Code Netのおかげで大幅に高速化され、改善されるこれからの多くの例の最初のものになるはずだ。 完全なCode Netプロジェクトのデータセットは、GitHubに乗っている。(参照:https://github.com/IBM/Project_CodeNet)
■参照記事
https://artificialintelligence-news.com/2021/05/11/ibm-project-codenet-wants-teach-ai-how-code/
レヴィアス株式会社
管理部:担当 キシュ・ゲルゲイ
〒105-0012 東京都港区芝大門2-7-7 4F
TEL: 03-6402-3330
E-mail:info@levias.co.jp
LEVIASにご興味をお持ちいただき、ありがとうございます。
開発に関するご相談申し込みはフォームより承ります。