技術記事

HOME
技術記事
AWS
【AWS】 Amazon Inferentiaとは？

2020年9月10日 / Last updated : 2020年9月10日 AcroEditUser AWS

【AWS】 Amazon Inferentiaとは？

はじめに

AWSでは、デベロッパーの日常に深層学習を普及させ、低コストの従量課金モデルで利用できる最先端のインフラストラクチャへより多くの人がアクセスすることを目指しています。AWS Inferentiaは、深層学習ワークロードを加速するために設計されたAmazonの最初のカスタムシリコンであり、このビジョンを実現するための長期的な戦略の一部です。

AWS Inferentiaは、クラウドで高性能の推論を提供し、推論の総コストを削減し、デベロッパーが機械学習をビジネスアプリケーションに簡単に統合できるように設計されています。AWS Inferentiaのワークロードのパフォーマンスを最適化するのに役立つコンパイラ、ランタイム、およびプロファイリングツールから構成されるAWS Neuronソフトウェア開発キット（SDK）は、AWS InferentiaベースのAmazon EC2 Inf1インスタンスを使用して実行されるようにTensorflow、PyTorch、およびMXNetなどの一般的なフレームワークで作成およびトレーニングされた複雑なニュートラルネットモデルを実現します。

メリット

・高性能

AWS Inferentiaの各チップは、最大128 TOPS（1秒あたり数兆回の操作）のパフォーマンスをサポートし、EC2 Inf1インスタンスごとに最大16個のInferentiaチップを有することができます。Inferentiaは、小さいバッチサイズのスループットを最大化するように最適化されています。これは、音声生成や検索などのレイテンシー要件が厳しいアプリケーションに特に役立ちます。

・低レイテンシー

AWS Inferentiaは、大規模なモデルオフチップで保存する代わりにキャッシュするために使用できる大量のオンチップメモリを備えています。これは推論レイテンシーの削減に大きな影響を与えます。その理由は、Neruon Coresと呼ばれるInferentiaのプロセッシングコアは、オンチップメモリに格納され、オフチップメモリの帯域幅によって制限されないモデルに高速でアクセスできるからです。

・柔軟性

デベロッパーは、Tensorflow、PyTorch、MXNetなどの一般的なフレームワークを使用してモデルをトレーニングし、AWS Neruon SDKを使用して AWS InferentiaベースのInf1 インスタンスに簡単にデプロイできます。AWS Inferentiaは、FP16、BF16、およびINT8データ型をサポートしています。さらにInferentiaは32ビットのトレーニング済みモデルを取得しており、BFLoat16を使用して16ビットモデルの速度での自動実行が可能です。

AWS Inferentia が機能するAmazon EC2 Inf1 インスタンス

AWS Inferentia チップに基づくAmazon EC2 Inf1 インスタンスは、すでにクラウドで利用可能な機械学習推論インスタンスで最も低コストなインスタンスであるAmazon EC2 G4 インスタンスと比較しても、推論作業あたり30％高いスループットと45％のコスト削減を実現しました。

Inf1 インスタンスは、最大16個のあWS Inferentiaチップ、最新のカスタムの第2世代プロセッセ、および最大100Gpsのネットワーキングを特徴とし、高スループットの推論を可能にします。Amazon SageMakerを使用すれば、最も簡単かつ迅速にInf1インスタンスを開始できます。これは、デベロッパーが機械学習モデルをすばやく構築、トレーニング、およびデプロイできるようにするフルマネージドサービスです。コンテナ化されたアプリケーションを使用するデベロッパーは、Amazon Elastic Kubernetes Serviceを使用してInf1インスタンスをデプロイすることもできます。

AWS Neuron SDK

AWS Neuron は、AWS Inferentiaチップを使用して機械学習推論を実行するためのソフトウェア開発キット（SDK）です。AWS Inferentiaチップ用のコンパイラ、ランタイム、およびプロファイリングツールから構成されており、デベロッパーは、AWS InferentiaベースのInf1 インスタンスを使用して、高パフォーマンスで低レイテンシーの推論を実行できるようにします。

AWS Neuronは、デベロッパーがTensorflow、PyTorch、MXNetなどの一般的なフレームワークで機械学習モデルをトレーニングし、Amazon EC2 Inf1インスタンスで最適に実行できる柔軟性を実現します。AWS Neuron SDKはAWS Deep Learning AMIにプリインストールされており、近日中にAWS Deep Learning Containersにもプリインストールされて利用できるようになる予定です。

さいごに

今回はAmazon Inferentiaについてご紹介をさせていただきました。お読みいただきありがとうございます。

カテゴリー: AWS

コメントを残すコメントをキャンセル

AWS

2020年9月9日

AWS

2020年9月11日

【AWS】 Amazon Inferentiaとは？

はじめに

メリット

・高性能

・低レイテンシー

・柔軟性

AWS Inferentia が機能するAmazon EC2 Inf1 インスタンス

AWS Neuron SDK

さいごに

コメントを残すコメントをキャンセル

AWS Elemental MediaConvertについて

【AWS】Amazon Simple Queue Service(SQS)について解説します。

はじめに

メリット

・高性能

・低レイテンシー

・柔軟性

AWS Inferentia が機能するAmazon EC2 Inf1 インスタンス

AWS Neuron SDK

さいごに

コメントを残す コメントをキャンセル

AWS Elemental MediaConvertについて

【AWS】Amazon Simple Queue Service(SQS)について解説します。

コメントを残すコメントをキャンセル