Databricks が Dolly 2.0 をリリース: 商用利用のための Open LLM

Name: Viktor Zinchenko

更新日 2023/7/24

Databricks は最近、Dolly 2.0 をリリースしました。これは、商用利用のための最初のオープンな命令に従う LLM です。この画期的な AI テクノロジの開発は、自然言語命令処理のゲームを変える可能性を秘めています。

トレンド記事

Dolly 2.0 とは?

Dolly 2.0 は、商用利用が許可されている Databricks 機械学習プラットフォームでトレーニングされた、命令に従う大規模言語モデルです。これは Pythia-12b に基づいており、ブレーンストーミング、分類、クローズド QA、生成、情報抽出、オープン QA、要約など、さまざまな機能ドメインで Databricks の従業員によって生成された約 15,000 の指示/応答微調整レコードでトレーニングされています。

Dolly 2.0 はどのように機能しますか?

Dolly 2.0 は、自然言語の命令を処理し、与えられた命令に従う応答を生成することによって機能します。閉ざされた質疑応答、要約、生成など、幅広い用途に使用できます。

Dolly 2.0 を使用するには、Transformers および Accelerate ライブラリをインストールする必要があります。その後、パイプライン関数を使用してパイプラインに続く命令をロードできます。パイプラインを使用して、命令に応答し、テキストを生成できます。

Dolly 2.0 の利点

Dolly 2.0 の正確性と効率性は、自然言語命令を迅速かつ正確に処理しようとする企業や開発者にとって非常に貴重なツールです。そのオープンソースの性質は、AI 業界のイノベーションを促進し、倫理的で責任ある AI テクノロジの開発を促進します。

HugginFace の Databricks Dolly-v2-12b リポジトリ (opens in a new tab) を確認できます。

Dolly 2.0 の制限事項

Dolly 2.0 は最先端の生成言語モデルではなく、より近代的なモデルアーキテクチャや、より大きな事前トレーニングコーパスの対象となるモデルと競合するようには設計されていません。また、構文的に複雑なプロンプト、プログラミングの問題、数学演算、事実上の誤り、日付と時刻、自由回答式の質問応答、幻覚、特定の長さのリストの列挙、文体の擬態、およびユーモアにも苦労します。

さらに、Dolly 2.0 のトレーニングデータは、2023 年 3 月から 4 月までの期間に Databricks の従業員によって生成された自然言語の指示を表し、クローズド QA や要約などの指示カテゴリの参照パッセージとしてウィキペディアのパッセージが含まれています。データセットにはわいせつ、知的財産、または非公人に関する個人を特定する情報は含まれていませんが、タイプミスや事実上の誤りが含まれている可能性があり、Databricks の従業員の興味と意味論的選択を反映している可能性があります。世界人口全体。

結論

Dolly 2.0 は、オープンで命令に従う LLM であり、AI 開発のゲームを変える可能性を秘めています。その正確さと効率性により、自然言語命令を迅速かつ正確に処理しようとする企業や開発者にとって非常に貴重なツールとなっています。そのオープンソースの性質は、AI 業界のイノベーションを促進し、倫理的で責任ある AI テクノロジの開発を促進します。いくつかの制限があるかもしれませんが、Dolly 2.0 は商用利用のためのオープンで命令に従う LLM の開発に向けた重要なステップであり、AI の未来を形成する上で重要な役割を果たすことは間違いありません。

AIに興味がありますか？ RATH (opens in a new tab) は、自然言語でデータの分析情報を提供できる ChatGPT ベースのデータ分析ツールに取り組んでいます。すぐに美しいチャートとビジュアライゼーションを作成できます!

興味ありますか？インスピレーションを受けましたか？ ChatGPTを動力とするRATHは今ベータ版でオープンしています！ボード上に乗ってそれをチェックアウトしてください！

(opens in a new tab)

📚