2012/08/01

シェル操作課題 (cut, sort, uniq などで集計を行う) 設問編 - Yamashiro0217の日記

ログファイルをコマンド使って解析するというこの課題。

え。Windows?まさか???cygwin入れたり、vmでやってみたり、開発サーバーで作業すればいいんじゃないっすか(ホジホジ)

いやいやWindowsでシェルと言えばPowerShellでしょう!というわけでやってみました。出力形式に関しては本筋とは関係ないと思うので、PowerShellのデフォルトのままです。

準備
$logs = Import-Csv hoge.log -Header ServerName,UnixTime,UserId,AccessUrl
問1 このファイルを表示しろ
$logs
問2 このファイルからサーバー名とアクセス先だけ表示しろ
$logs|select ServerName,AccessUrl
問3 このファイルからserver4の行だけ表示しろ
$logs|where {$_.ServerName -eq "server4"}
問4 このファイルの行数を表示しろ
$logs|measure
問5 このファイルをサーバー名、ユーザーIDの昇順で5行だけ表示しろ
$logs|sort ServerName,{[int]$_.UserId}|select -First 5
問6 このファイルには重複行がある。重複行はまとめて数え行数を表示しろ
$logs|sort * -Unique|measure
問7 このログのUU(ユニークユーザー)数を表示しろ
$logs|sort UserId -Unique|measure
問8 このログのアクセス先ごとにアクセス数を数え上位1つを表示しろ
$logs|group AccessUrl -NoElement|sort Count -Descending|select -First 1
問9 このログのserverという文字列をxxxという文字列に変え、サーバー毎のアクセス数を表示しろ
$logs|group {$_.ServerName -replace "server","xxx"} -NoElement|sort Count -Descending
問10 このログのユーザーIDが10以上の人のユニークなユーザーIDをユーザーIDでソートして表示しろ
$logs|where {[int]$_.UserId -ge 10}|select -Expand UserId|sort -Unique

PowerShellはテキスト情報をテキストのまま扱うのではなく、オブジェクトとして扱うところが特徴で、CSVファイルもImport-Csvコマンドレットを用いることで、ヘッダ文字列をプロパティ名として各行をオブジェクトとして読み込んでくれます。

あとは各種オブジェクト処理のコマンドレットに、パイプライン経由でオブジェクトを渡していくだけです。コマンドが何をやっているのかも、列番号ではなくプロパティ名を指定してやるので分かりやすいと思います。この課題に寄せられた回答の中では、シェル操作課題 SQLによる解答例が近いかと思います。

今回はCSVから情報を読み込んでいますが、ソースは別になんであってもいいわけです。たとえばGet-EventLogコマンドレットだとイベントログから持ってくることもできますし、XMLなら$xml=[xml](Get-Content file.xml)みたいな感じです。一旦オブジェクトとして取得できてしまえば、あとの処理方法は基本的に同じなので悩む必要がないのが良いところです。

そしてPowerShellの良いところはやはり、外部処理コマンドを使わずとも、シェル言語と組み込みコマンド(コマンドレット)のみで処理が完結するところです。たとえばbashだけでやるとtsekine's miscellaneous thoughts: シェル操作課題への回答のような大変なことになるようです。sortなど基本的なコマンドは使用するにしても、複雑なフィルタ処理などはawkを組みあわせる等しないと、特に後半の処理は辛いでしょう。PowerShellなら異なる処理系を持ち出す必要がなく、PowerShellのみですべて行えます。

もちろん問題点も色々あります。まず第一に、今回の課題のように、ヘッダ文字列がないCSVの場合は例のようにヘッダー文字列(=プロパティ名)を自分で定義してやる必要が出てきます。そのため可読性はともかく、若干、冗長なところがでてきてます。まあ例のように一旦オブジェクトを作って変数に入れてしまえばあとは使いまわせますが、そこはちょっと厳しい点かもしれません。

あとImport-CsvコマンドレットはCSVの各エントリをすべて文字列型のプロパティとしてオブジェクトに格納するところがちょっと微妙な気がしました。数値は数値型で入れてほしいですよね。おかげで何か所か、[int]にキャストせざるを得ない部分が出てきました。

そして処理速度の問題。おそらくログファイルが巨大だとかなりリソースを食って時間もかかると思います。処理を分ける、バックグラウンドジョブやワークフローで動かす、そもそもログファイルを分割保存するようにしておく、等、実運用上では工夫が必要かと思います。

(5:14追記)
既出でした>< [Power Shell] シェル操作課題への回答 - Pastebin.com(by @usamin5885さん)

2009/07/20

こんにちは、むたぐちです。

PowerShellによるWindowsサーバ管理術(永尾 幸夫、小鮒 通成、国井 傑、竹島 友理、牟田口 大介 著)という書籍が、ソフトバンク クリエイティブから2009/07/30に発売予定です。私は1章と2章を執筆させていただきました。

おそらく国内では初の、PowerShell ver.2を使ったスクリプトベースでのWindowsサーバー管理ノウハウの書籍です。ぜひ本屋さんでお手に取ってみてください!

PowerShell ver.2はまだCTP3ですが、いずれWindows Server 2008をはじめ各種OS用のモジュールが提供される予定です。Windows Server 2008 R2とWindows 7ではPSv2が標準機能となっており、現在これらは製品版に近いRC版が公開されていますが、これに含まれるPSv2はほぼ完成しています。そのため、このバージョンのPSv2でも本初収録のスクリプトは動作することを確認しています。そのため、PSv2正式版が公開されてもこの本は問題なく使用できると思います。

# ただ一点だけ、Enable-PSRemotingというコマンドレットがCTPでは関数だったりps1ファイルだったり何となくまだ仕様が謎だったので、winrm quickconfigを使ってありますw

目次はこのような感じです。

第1章 Wndows PowerShellという環境
第2章 PowerShellの基礎知識
第3章 プロセスの管理
第4章 ActiveDirectoryとユーザー管理
第5章 システム情報の管理
第6章 サービスの管理
第7章 イベントログの管理
第8章 ExchangeServerの管理

元記事:http://blogs.wankuma.com/mutaguchi/archive/2009/07/20/178462.aspx

2007/01/15

Windows PowerShell でのスクリプティング
http://www.microsoft.com/japan/technet/scriptcenter/hubs/msh.mspx

Microsoft TechNetに、PowerShellスクリプティングの日本語版サイトが公開されました。英語版記事へのリンクと英語版記事の翻訳、日本語版独自記事があります。

このブログにリンクを張っていただきました。ありがとうございます!

また、私もこのサイトに寄稿させていただきました。
イベントログへのアクセスと filter の使い方
http://www.microsoft.com/japan/technet/scriptcenter/topics/msh/mvpcolumn_eventlog.mspx
Get-EventLogコマンドレットの使い方と、filter構文の使い方を説明しています。

ちなみに英語版はこちらです。
Scripting with Windows PowerShell
http://www.microsoft.com/technet/scriptcenter/hubs/msh.mspx

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/01/15/56347.aspx


Copyright © 2005-2018 Daisuke Mutaguchi All rights reserved
mailto: mutaguchi at roy.hi-ho.ne.jp
プライバシーポリシー

Twitter

Books