MicrosoftのSmall Language Models(SLM)戦略は、軽量で高性能なAIモデルを通じて、オンデバイスでのAI活用を推進することを目的としています。以下に、MicrosoftのSLMの概要と最新情報をまとめました。
🔍 Small Language Models(SLM)とは?
SLMは、数百万〜数十億のパラメータを持つ小型の言語モデルで、以下の特徴があります:(WEEL)
- 軽量性:大規模言語モデル(LLM)に比べてモデルサイズが小さく、リソースの限られた環境でも動作可能。
- 高速性:低レイテンシでの推論が可能で、リアルタイム性が求められるアプリケーションに適しています。
- プライバシー:オンデバイスでの処理により、データの外部送信を避け、プライバシーを保護。
- カスタマイズ性:特定のタスクやドメインに特化したファインチューニングが容易。
🧬 MicrosoftのSLMファミリー:Phiシリーズ
Microsoftは、Phiシリーズとして複数のSLMを展開しています:
- Phi-2:27億パラメータのモデルで、数学的推論や科学的質問応答に優れた性能を発揮。
- Phi-3:3.8億パラメータのモデルで、モバイルデバイスやエッジデバイスでの利用を想定。
- Phi-4:14億パラメータのモデルで、複雑な推論タスクに対応。(AIフル装備)
これらのモデルは、Azure AI FoundryやHugging Faceで提供されており、開発者は自身のニーズに合わせて選択・利用できます。(TECHCOMMUNITY.MICROSOFT.COM)
🖥️ Phi Silica:オンデバイスSLMの代表例
Phi Silicaは、Windows 11搭載のCopilot+ PC向けに最適化された3.3億パラメータのSLMで、以下の特徴があります:
- NPU最適化:Neural Processing Unit(NPU)上で動作し、CPU/GPUの負荷を軽減。
- 低消費電力:1.5Wの低消費電力で650トークン/秒の高速処理を実現。
- ローカル推論:デバイス上での推論により、プライバシーと応答性を向上。
- Windows統合:Windows 11のOS機能やアプリ(例: Outlookの要約機能)に統合。
また、Phi SilicaはLoRA(Low-Rank Adaptation)によるカスタムファインチューニングに対応しており、開発者は自身のデータを用いてモデルを微調整できます。
🧠 Phi-4 Reasoning:高度な推論能力を持つSLM
Phi-4 Reasoningは、14億パラメータのモデルで、以下の特徴があります:(Microsoft Azure)
- 高精度な推論:数学的推論や科学的質問応答において、より大規模なモデルに匹敵する性能を発揮。
- 強化学習:強化学習を用いたトレーニングにより、推論能力を強化。
- 効率的な推論:小型ながらも高性能な推論を可能にし、リソースの限られた環境でも利用可能。
Phi-4 Reasoningは、Azure AI FoundryやHugging Faceで提供されており、開発者は自身のアプリケーションに組み込むことができます。(Microsoft Azure)
🛠️ 開発者向けリソース
Microsoftは、SLMの活用を支援するため、以下のリソースを提供しています:
- Windows App SDK:Phi Silicaや他のSLMをWindowsアプリケーションに統合するためのSDK。
- AI Toolkit for Visual Studio Code:LoRAによるファインチューニングやモデルのデプロイを支援。
- Azure AI Foundry:SLMの選択、カスタマイズ、デプロイを行うためのプラットフォーム。
🔗 参考資料
- One year of Phi: Small language models making big leaps in AI
- Phi Silica, small but mighty on-device SLM
- Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning
- Advancing Windows for AI development: New platform capabilities and tools introduced at Build 2025
ご要望があれば、特定のSLMの導入方法やファインチューニングの手順についても詳細にご説明いたします。
Microsoftの「Phi Silica」は、Windows 11搭載のCopilot+ PC向けに最適化されたオンデバイスの小型言語モデル(Small Language Model: SLM)であり、2024年5月のBuildカンファレンスで発表されました。その後、2025年5月のBuild 2025でも新たな機能拡張が発表されています。以下に、Phi Silicaの最新情報をまとめた資料を作成しました。(Medium)
Phi Silica 概要
- モデルサイズ: 3.3Bパラメータ(Phi-3-miniの派生)
- 対応デバイス: Copilot+ PC(Snapdragon Xシリーズ、将来的にIntel/AMDも対応予定)
- 主な特徴:
- NPU(Neural Processing Unit)上で動作し、CPU/GPUの負荷を軽減
- 1.5Wの低消費電力で650トークン/秒の高速処理
- ローカルでの推論により、プライバシーと応答性を向上
- Windows 11のOS機能やアプリ(例: Outlookの要約機能)に統合(PCWorld, Logics Technology Solutions Inc, Medium)
Build 2025での主なアップデート
1. マルチモーダル対応(画像理解機能の追加)
Phi Silicaは、テキストだけでなく画像も理解できるマルチモーダルモデルへと進化しました。これは、既存のPhi Silicaモデルに約80Mパラメータのプロジェクターモデルを追加することで実現され、ディスクやメモリの使用量を最小限に抑えています。画像エンコーダーには、Windowsの「Recall」や検索機能で使用されているFlorenceが再利用されています。 (Windows Blog, PCWorld)
2. LoRAによるカスタムファインチューニング
Phi Silicaは、LoRA(Low-Rank Adaptation)を使用したカスタムデータによるファインチューニングに対応しました。これにより、モデル全体を再学習することなく、特定のタスクに対する性能を向上させることが可能です。この機能は、Windows App SDK 1.8 Experimental 2で利用でき、Visual Studio CodeのAI Toolkitを通じてAzure上でトレーニングを行い、LoRAアダプターをダウンロードしてローカルで使用できます。 (Windows Blog)
3. 新しいAI APIの提供
Windows AI Foundryを通じて、以下の新しいAPIが提供されました:(Windows Blog)
- Text Intelligence Skills: テキストの要約、書き換え、テーブル化などの機能。
- Semantic Search & RAG: 意味ベースの検索や、カスタムデータを活用した検索拡張生成(RAG)機能。(Windows Blog)
これらのAPIは、Windows App SDKを使用してアプリケーションに統合できます。 (strathweb.com)
開発者向け情報
- 利用方法: Phi Silicaは、
Microsoft.Windows.AI
およびMicrosoft.Windows.AI.Text
名前空間を通じてアクセスできます。 - 対応SDK: Windows App SDK 1.8 Experimental 2以降。
- 前提条件: Windows 11 24H2以降、および対応するCopilot+ PC。
- サンプルコード: Microsoft Learnにて、Phi Silicaを使用したテキスト生成や要約のサンプルコードが提供されています。 (Microsoft Learn, Windows Blog, マイクロソフトサポート)
まとめ
Phi Silicaは、Windows 11とCopilot+ PCのために設計された高効率なオンデバイスAIモデルであり、マルチモーダル対応やカスタムファインチューニングなど、最新のAI機能をローカルで実現します。これにより、開発者はプライバシーを重視しながら、高速で応答性の高いAIアプリケーションを構築することが可能となります。(Logics Technology Solutions Inc)
参考資料:
- Microsoft Learn: Phi Silicaの使用方法
- Windows Blog: Phi Silicaのマルチモーダル機能の有効化
- Windows Experience Blog: Phi Silicaの概要
- Microsoft Build 2025 Book of News
ご要望があれば、Phi Silicaを活用したアプリケーション開発の具体的な例や、LoRAを使用したファインチューニングの手順についても詳細にご説明いたします。
コメントを残す