Pythonライブラリを使ったネットワーク分析方法3つ!補足情報もご紹介!
Pythonのネットワーク分析ができるライブラリ2つ
さまざまなシミュレーションを行えるPythonですが、エンジニアの方のみならず、入門の方でも簡単にネットワーク分析を行うことができるのはご存じでしょうか。
ネットワーク分析を駆使すれば、情報を分離、管理し今後の対策を立てやすくなります。今回はNetworkXとMatplotlibのライブラリを使って気軽にグラフを描画してみましょう。
ネットワーク分析ができるライブラリ1:Matplotlib
MatplotlibとNetworkXは連携してグラフ描画でできる点でも特徴があります。
Matplotlibは線グラフ、棒グラフ、3Dグラフなどの描画を実現させるライブラリです。医療現場や自然観測、災害シミュレーションなどで広く応用されています。
インストールはhttps://matplotlib.org/からダウンロード可能です。オープンソースなので料金的な心配も不要です。
ネットワーク分析ができるライブラリ2:NetworkX
NetworkXは読んで字の如く、ネットワークに関数ライブラリでネットワークの構造やダイナミクスを生成する機能を有しています。
こちらもオープンソースなので価格は無料となっています。インストールはpipコマンド活用して、pip install networkxとしてインポートすればOKです。エラーが発生していなければ、接続確認完了で、インストールは無事成功しているはずです。
Pythonライブラリを使ってネットワーク分析するメリット2つ
Pythonは、プログラミングでネットワーク分析を可能としている点が大きなメリットとして挙げられます。データ間のやりとりもひとつのプログラミング上で行うことができるため、アナログの作業にすることがなく、効率的な作業が期待できます。
しかもPythonのソースコード自体も書きやすく読みやすいという点もメリットです。誰が書いても同じコードになることも分析のしやすさに繋がっています。
ネットワーク分析のメリット1:中心性解析ができる
グラフ上に表示されるノード(結び目)にも重要度の濃淡があり、重要度の高いノードを見つけるためには高い解析力が必要とされます。
この点、PythonのNetworkXにはPageRank()という関数が実装されており、ノードの重要性をスコアの値に応じて表現することが可能です。具体的には色の濃さや大きさで識別することができます。
ネットワーク分析のメリット2:ネットワークをグラフや図で可視化できる
ネットワークを分析しても、解読に時間がかかったりしてしまうことは作業効率としてもおおきなデメリットになります。
その点、PythonのMatplotlibはネットワーク分析の結果をグラフや図に変換して可視化してくれるため、読み手は常に判読しやすい結果を受け取ることができます。
Pythonライブラリを使ったネットワーク分析方法3つ
では、Pythonの2つのライブラリ、NetworkXとMatplotibをインストール後、どのような手順で作業が進行していくか、具体的にPythonでのネットワーク分析方法を紹介していきましょう。
順序としては、NetworkXの設定をした後に、Matplotlibと組み合わせをしていきます。まずは最初にimport networkx as nxと書いてみましょう。
ネットワーク分析方法1:NetworkXの設定
NetworkXのグラフの構築ですが、G = nx.Graph ()で表現することができます。G = nx.Graph ()によって、グラフを初期化して、生成した変数のGに対して各種のメソッドを呼び出していきます。
具体的なメソッドには頂点(ノード)や辺(エッジ)が当てはまり、以下のように記述されていくことになります。
ノードの追加
早速グラフのNetworkXノードのソースコードを確認していきましょう。
頂点はG.add_node()となります。()の中は英数字や’a’、’b’、’c’のような文字列が入ります。特別な意味はなく、ラベルとしての働きしかしていないからです。
G.add_node()は必要に応じて、追加されたり削除されたりしていきます。
エッジの追加
エッジもG.add_edge()と書いていきます。()の中や、追加削除の概念はノードと同じですが、エッジは文字通りノードを結ぶ線なので、()の中は記載したノードが2つ入ることになります。
例えばG.add_node(1) 、G.add_node(2)と記載したならば、エッジはG.add_edge(1, 2)となります。こうすることで、描写時に1と2のノードとそれを結ぶエッジが描写されることになります。
ネットワーク分析方法2:準備したデータの読み込み
NetworkXに準備したデータを読み込ませる際は外部ファイルの読み込みのコードが必要になります。
ノード間のつながりを示すファイルを読み込ませたい場合、外部ファイルを読み込むリンク名がedge.txtだったとすれば、G = nx.read_edgelist(“edge.txt”, nodetype=int)となります。
上記の記述の際、int型としっかり指定し、結果見やすいグラフ表現にしてください。
ネットワーク分析方法3:Matplotlibと組み合わせる
Matplotlibはすでにインストールされたものとして、あらかじめimport matplotlib.pyplot as pltと記述しておきます。
Matplotlibのライブラリの出番はグラフを構築した後の可視化段階となり、コードはdraw_networkx_nodes()とdraw_networkx_edges()となります。先述設定したそれぞれのエッジとノードを描画(draw)するコードです。
Pythonライブラリを使ったネットワーク分析方法の補足2つ
テクニカルな部分ではありませんが、気付きの観点から補足すると、Pythonのライブラリを活用してネットワーク分析を進める上でコツがあります。コツを抑えればグラフの精度やより視覚的訴求がアップすること請け合いです。
NetworkXもMatplotlibも関数を使うことで、グラフ表現を簡単に表現できますが、より効率的な運用を図るためにもぜひ押さえておいてください。
ネットワーク分析方法の補足1:値によってノードの色を変えてみよう
中心性解析でもちょっと触れましたが、PythonのライブラリであるNetworkXとMatplotlibをよりよく活用するためには、視覚化を重要視させることです。
例えば数個ある中でノードの色を変えたい値が1つ存在した場合を想定してみます。draw_networkx()のnode_colorのパラメータの箇所にノードに対応する色のリストを、条件分岐などで渡して上げることで反映させることができます。
ネットワーク分析方法の補足2:サンプルデータは多めに用意すること
サンプルデータの多さは本記事のテーマであるPythonのライブラリとはあまり関係がありませんが、そもそも論なので補足しておきます。
データサンプルは多い方が、分母がそれだけ大きくなり精度が上がります。10より100、100より1000、1000より10000といった具合にです。
分析対象にもよりますが、可能である限り、多めのデータ収集に基づく分析は、より高い信憑性のあるネットワーク分析と言えます。
ネットワーク分析のプログラミングを行うときに覚えるべき用語5つ
最後にネットワーク分析のプログラミングをいざ実践する際に最低限覚えておく用語があります。普段聴き慣れている用語でもいざ意味を問われると返答に窮する場面も多々見受けられます。
インターネットの用語は概念を理解する上でとても大切です。ネットワークとどのように関係しているか、用語のおさらいも含めて是非押さえておいてください。
プログラミングを行うときに覚えるべき用語1:IPアドレス
IPアドレスは情報機器の識別番号で、ほぼ全てのネットワーク機器に割り当てられています。数字がドットで区切られて、通常4組表記されます。ネットワーク分析ではIPアドレスを分析することでサービスを購入した行動範囲が特定されるので有力です。
余談ですが、IPアドレスもすでに40億以上割り当てられており、人口増および利用人口増加によるIPアドレス枯渇問題が取り沙汰されています。
プログラミングを行うときに覚えるべき用語2:ソケット
ソケットはネットワーク上でプログラムとネットワークをつながる接続口としての意味があります。電球の先のソケットをイメージしてもらえれば、接続部分に該当するので比較的わかりやすいかもしれません。
また、プログラミング言語ではネットワーク通信に関わるソケット関数なるものが存在しているので、この意味の場合でも使われます。ただPythonのネットワーク分析より広義で活用するケースも多く、注意が必要です。
プログラミングを行うときに覚えるべき用語3:サーバー
サーバーとはサービスを提供するコンピューターのことを指します。例えばパソコンやスマートフォンからWEBにアクセスした場合、ユーザーサイドからリクエストを送ります。
このリクエストを受けてレスポンスをすることで、アクセス先の情報を見ることができます。この一連の相手方がサーバーになります。
ちなみにJavaやPHPなどのプログラミング言語はサーバーサイドの言語として有名です。
プログラミングを行うときに覚えるべき用語4:クライアント
クライアントとはネットワーク通信において、サーバーに対してリクエストを送った側であるブラウザ側を指しています。
先述のサーバーサイドは、サーバーがプログラム処理を実行して、クライアント側にレスポンスをするのに対し、クライアントサイドはサーバーの応答を受けて自らプログラムの処理を実行することになります。
プログラミングを行うときに覚えるべき用語5:ポート番号
TCP/IP通信において IPアドレスはネットワーク機器を識別するのに対し、ポート番号はコンピューターのどのプログラムに通信パケットを付与するかを識別する役目を担っています。
ポートはクライアント側とサーバー側双方に番号が付されており、クライアント側はセキュリティのため毎回番号が変更するのに対して、サーバー側はアクセス内容によってポート番号が決定されます。
Python環境でネットワーク分析をプログラムしてみよう
Pythonは将来性の高いプログラミング言語で、今後ますます利用者の増加が予測できます。現在でも参考書などの書籍やインターネットで情報が多く出回っているため、習得をめざして本腰を入れて始めるには適していると言えます。
豊富でシンプルコードなのが特徴なPythonのライブラリは、ネットワーク分析の分野でもツールが多く、かつ慣れれば簡単です。今後ますますの内容の充実を見ることでしょう。