2015/12/10
PowerShellでスクレイピング 後編 HTMLをパースする
この記事はPowerShell Advent Calendar 2015の10日目の記事です。
はじめに
前編では、Invoke-WebRequestコマンドレットやWebClientクラスを用いて、WebページからHTMLの文字列を取得するところまで説明しました。
後編の今回は、取得したHTML文字列をパースして、オブジェクトとして利用可能しやすい形に変換する話です。
IEエンジンによるHTMLパース(DOM)
前編でも触れましたが、Invoke-WebRequestコマンドレットは、レスポンス文字列を取得すると同時に、HTMLをパース(構文解析)し、結果をオブジェクトとして構造化してくれます。
実はこのHTMLパース、内部的にInternet Explorerのエンジンを呼び出すことで実現されています。(ちなみに後で説明しますが、-UseBasicParsingパラメータを付与すると、IEエンジンを使わずごく基本的なパースのみ行うようになります。)
Invoke-WebRequestコマンドレットの出力であるHtmlWebResponseObjectオブジェクトのParsedHtmlプロパティを経由することで、HTMLパースされたオブジェクトを、DOM(Document Object Model)に従ってアクセスすることができます。(-UseBasicParsing指定時は不可)
HTMLのtable要素を切り出し、table各行を1オブジェクト、各セルをプロパティとして、オブジェクト配列化する例を以下に示します。
$response = Invoke-WebRequest http://winscript.jp/powershell/301 # DOMを利用して1つ目のtable要素を取得 $table = $response.ParsedHtml.getElementsByTagName("table")| select -First 1 # tableの1行目をプロパティ名として取得 $properties = ($table.rows| select -first 1).Cells| foreach {$_.innerText} # tableの残りの行に対して、各セルのinnerTextをプロパティ値としてオブジェクト化 $objs = foreach($row in ($table.rows| select -skip 1)) { $row.Cells| foreach -Begin { $index = 0 $obj = [ordered]@{} } -Process { $obj += @{$properties[$index] = $_.innerText} $index++ } -End { [pscustomobject]$obj } } $objs| Format-List
ところで前編で軽く触れましたが、IEエンジンによるパースは、Invoke-WebRequestコマンドレットを用いずとも、以下のようにして直接IEのCOMインターフェースを呼ぶことで利用可能です。
$client = New-Object System.Net.WebClient $content = $client.DownloadString("http://winscript.jp/powershell/301") $parsedHtml = New-Object -com "HTMLFILE" $parsedHtml.IHTMLDocument2_write($content) $parsedHtml.Close() $table = $parsedHtml.getElementsByTagName("table")| select -First 1 # 以下同様…
というより実際に試すと直接IEエンジンを呼び出す方がずっと速いです。理由はよく分かりませんが…。
HTML要素コレクションの取得
Invoke-WebRequestコマンドレットを用いると、DOMとは別に、すべての要素(AllElementsプロパティ)、input要素(InputFieldsプロパティ)、img要素(Imagesプロパティ)、a要素(Linksプロパティ)、script要素(Scriptsプロパティ)を含むコレクションを、HtmlWebResponseObjectオブジェクトの対応するプロパティからそれぞれ取得することができます。
コレクションに含まれる各要素は、innerText(タグ内の文字列)、innerHTML(タグ内のHTML)、tagName(タグ名)等のプロパティが共通して利用可能です。また要素の属性(たとえばa要素ならリンク先を示すhref属性)に、プロパティとしてアクセス可能となります。
以下はBingでWeb検索した結果から、ページタイトルとURLを抜き出す例です。HtmlWebResponseObjectのLinksプロパティでa要素の配列を取ってきて、次に検索結果では無いっぽいURLを、hrefプロパティの値を見てwhereで除外し、最後にinnerTextプロパティとhrefプロパティをTitle、Urlとリネームしてから値を出力しています。泥臭い処理が混じってますが、この泥臭さがスクレイピングなのかもなぁと思います。
$searchWord = "PowerShell 配列" $notSearchResults = "/","#","javascript:","http://go.microsoft.com/" $response = Invoke-WebRequest "https://www.bing.com/search?q=$([Uri]::EscapeDataString($searchWord))" $response.Links | where { $href = $_.href !($notSearchResults|? {$href.StartsWith($_)}) }| select @{L = "Title"; E = "innerText"}, @{L = "Url"; E = "href"}| Format-List
form要素についてもほぼ同様にFormsプロパティからコレクションを取得できますが、このコレクションにはFormObjectという特別なオブジェクトが含まれます。FormObjectのFieldsプロパティは、Key=パラメータ名、Value=パラメータ値が格納された連想配列となっています。この連想配列は書き替えが可能なので、前編で説明した、ログオンを要するWebサイト等で用いると便利かと思います。
以下に、HtmlWebResponseObjectオブジェクトのプロパティをまとめます。(×印は使用不可を表す)
プロパティ名 | 説明 | -UseBasicParsing 指定時 |
AllElements | 本文に含まれるすべての要素のコレクション | × |
Forms | フォーム(form要素)のコレクション | × |
InputFields | 入力フィールド(input要素)のコレクション | |
Images | 画像(img要素)のコレクション | |
Links | リンク(a要素)のコレクション | |
Scripts | スクリプト(script要素)のコレクション | × |
このように、一部のプロパティについては-UseBasicParsing指定時でも利用可能です。サーバーOS等でIEエンジンが利用できない場合には-UseBasicParsingパラメータが必須となりますが、その場合でも最低限のパースはしてくれるわけです。
HTML要素のコレクションを利用する方法は、DOMを使う方法に比べると自由度は少ないですが、「ページから画像のリストを取得したい」等の処理は簡便に行うことができます。
その他のHTMLパース手法
最後に、Invoke-WebRequestコマンドレットとIEエンジン以外のHTMLパース手法について軽くご紹介します。
XMLとしてパース(XHTML限定)
XHTMLというのはごくかいつまんで言うと、HTMLをXMLで定義したものです。XHTMLはXMLなので、XMLとしてパースして用いることができます。
PowerShellは[xml](XmlDocument)型アクセラレータと型アダプタにより、XML要素への簡便なアクセス手段を提供しています。以下のように、[xml]型アクセラレータを用い、取得したXHTML文字列を[xml]型に変換すると、以降は型アダプタの機能により、ドット演算子で要素を辿っていくことができます。
$client = New-Object System.Net.WebClient $content = $client.DownloadString("XHTMLなページ") $xml = [xml]$content $xml.html.body.h2.'#text'
ただ世の中のWebページ上のXHTML文書が、すべてXML文書としてvalidなものであるかと言われると、現実はかなり厳しいです。そしてXML文書としてエラーがある場合は、型アクセラレータの処理は容赦なく失敗します。なのでこの手法は「使えたら強いが、大抵使えない」レベルのものと思って頂ければいいと思います。
SgmlReader
標準機能にこだわらなければ、.NET製のHTMLパーサーを使うのが楽かと思います。SgmlReaderは通常のHTML文書(当然、XHTMLに限らず)をXmlDocumentへとパースしてくれるので、PowerShellと相性が良いのではないかと思います。
以下にサンプルを載せておきます。
Add-Type -Path .\SgmlReaderDll.dll function Get-HTMLDocument { param([uri]$Uri) $sgmlReader = New-Object Sgml.SgmlReader -Property @{ Href = $Uri.AbsoluteUri CaseFolding = [Sgml.CaseFolding]::ToLower } $doc = New-Object System.Xml.XmlDocument $doc.Load($sgmlReader) $doc } $xml = Get-HTMLDocument http://winscript.jp/ $xml.html.body.div|? id -eq outer|% div|? id -eq main|% {$_.p.innerText}
ぎたぱそ氏も以前SgmlReaderを取り上げておられるので、そちらも参考にして下さい。:Html Agility Pack と SgmlReader を使って PowerShell でスクレイピングしてみる - tech.guitarrapc.cóm
正規表現等で自前パース
これまではHTMLパースを既存のコマンドやライブラリを用いて行ってきましたが、対象のHTMLが非常にシンプルである場合とか、HTMLですらなく単なるテキストの場合だとか、対象ページは分量が多いものの必要箇所はごくわずかで、かつピンポイントに取得可能な場合等々は、むしろ自前でパースするコードを書いた方が手っ取り早いこともあります。
例えばYAMAHAのルーターで、管理Webのシステム情報レポートからグローバルIPアドレスを取ってくる、みたいなことは、
$response = Invoke-WebRequest http://サーバー/detail/status.html -UseBasicParsing -Credential $credential if($response.Content -match "PP IP Address Local\: (.+)\,") { $ipAddress = $Matches[1] }
のようなコードで十分かと思います。
ConvertFrom-String
これはまだ検証してないんですが、PowerShell5.0の新機能、Auto-Generated Example-Driven Parsingの実装であるConvertFrom-Stringコマンドレットを用いて、HTMLパースができないかな、と考えています。
ConvertFrom-Stringについては過去記事参照:[v5] Auto-Generated Example-Driven Parsing について - PowerShell Scripting Weblog
まとめ
前後編に渡って、PowerShellでのWebスクレイピングの手法について解説しました。スクレイピングはWeb APIが用意されていない場合の苦肉の策ですが、背に腹は代えられない場合というのは稀によくあると思います。そういうときに今回の記事が参考になれば幸いです。
次回あたりには、Web APIがちゃんと用意されてる場合に、PowerShellから利用する話をやろうかと思います。
2014/09/09
[Friendly] 任意ウィンドウのコントロールのテキストを読み書きするコマンドレット
8/23わんくま横浜勉強会で、PowerShellコマンドの書き方というセッションをしたのですが、その際、株式会社Codeerさんが公開されているFriendlyというライブラリを使ったコマンドレットを動作させるデモを行いました。
準備の時間がなくて、突貫工事で作ったサンプルで恐縮ですが、公開することにします。(一応動かしてみたら動いた、レベルのものなのであしからず…)
コード
using System; using System.Diagnostics; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks; using System.Management.Automation; using Codeer.Friendly.Windows; using Codeer.Friendly.Dynamic; using System.Windows.Forms; namespace Winscript { [Cmdlet(VerbsCommon.Get, "FormControlText")] public class GetFormControlTextCommand : Cmdlet { [Parameter(Mandatory = false, ValueFromPipeline = false, Position = 1)] public string[] ControlName { get; set; } [Parameter(Mandatory = true, ValueFromPipeline = true, Position = 0)] public Process Process { get; set; } protected override void ProcessRecord() { var _app = new WindowsAppFriend(this.Process); dynamic form = _app.Type<Control>().FromHandle(this.Process.MainWindowHandle); foreach (var c in form.Controls) { if (ControlName == null || ControlName.Contains((string)c.Name)) { WriteObject((string)c.Text); } } } } [Cmdlet(VerbsCommon.Set, "FormControlText")] public class SetFormControlTextCommand : Cmdlet { [Parameter(Mandatory = true, ValueFromPipeline = false, Position = 1)] public string ControlName { get; set; } [Parameter(Mandatory = true, ValueFromPipeline = false, Position = 2)] public string Text { get; set; } [Parameter(Mandatory = true, ValueFromPipeline = true, Position = 0)] public Process Process { get; set; } protected override void ProcessRecord() { var _app = new WindowsAppFriend(this.Process); dynamic form = _app.Type<Control>().FromHandle(this.Process.MainWindowHandle); foreach (var c in form.Controls) { if (ControlName == (string)c.Name) { c.Text = Text; } } } } }
ビルド方法
- Windows 8.1 SDK をインストールする。
- Visual Studio 2010以降でC#のクラスライブラリを新規作成する。
- C:\Program Files (x86)\Reference Assemblies\Microsoft\WindowsPowerShell\3.0 にある.dllを参照設定する。
- 対象フレームワークを.NET 4.5、対象プラットフォームをx64にする。
- 上記のコードを貼り付ける。
- NuGetでFriendlyおよびFriendly.Windowsを追加する。
- ビルドする。
使用方法
上記をビルドして生成したDLLにはGet-FormControlTextと、Set-FormControlTextの2つのコマンドレットが含まれます。
# コマンドレットのインポート Import-Module "dllのフルパス" # 操作対象のプロセスオブジェクト取得 $p = Get-Process WindowsFormsApplication1 # プロセスを指定して、すべてのコントロールのテキストを取得 Get-FormControlText -Process $p # プロセスとコントロール名を指定して、テキストを取得 Get-FormControlText -Process $p -ControlName textBox1 # 位置パラメータなので以下のようにも書ける Get-FormControlText $p textBox1 # パイプラインからプロセスオブジェクトを入力することもできる $p | Get-FormControlText -ControlName textBox1 # プロセスとコントロール名を指定して、テキストを変更する Set-FormControlText -Process $p -ControlName textBox1 -Text Wankuma Set-FormControlText $p textBox1 Yokohama $p | Set-FormControlText -ControlName textBox1 -Text 6
制限事項
フォーム直下に配置されたコントロールしか取得できない(と思います)。
Windows Formアプリケーションにしか対応していない(と思います)。
x64アプリしか操作できない(と思います。x86用はアセンブリを分ける必要がある??)。(←9/9追記)
コントロール名指定はCase sensitiveでワイルドカード不可です。(この辺ただの手抜きですが)
今後の方針?
上のコードをみてもらえればわかると思いますが、ちょっと触ってみたら一応動くものができるくらい、Friendlyは分かりやすいです。皆さんもぜひ使ってみてください。
本来は、テキストじゃなくてコントロールそのものをGetしたりSetしたりInvoke(クリックとか)したりできるようにしたかったんですが、Controlはシリアル化できないオブジェクトなので、Friendlyで実物を持ってきてコマンドレットに出力する、というのは無理でした。何らかのプロキシオブジェクトみたいなのでラップしたりすれば良いかと思います。
それにしてもPowerShellとFriendlyの組み合わせはものすごい可能性を秘めている予感がします。
システム管理方面では…
セッションでもやりましたが、PowerShellコマンドレットベースのアプリケーションを作ると、GUIとCUIのいいところどりが出来る、とはいうものの、コマンドインターフェースがなくGUIオンリーのアプリケーションはまだまだたくさんあるのが現実かと思います。そういうアプリケーションも、PowerShellデフォルトの機能のみではつらいですが、上記のようにFriendlyを併用すれば、GUI操作の自動化が容易になると思います。
開発方面では…
C#でFriendlyを使ったGUIのテストコードを書く以外に、上記のようなFriendlyの機能をラップしたコマンドレットを用意することで、PowerShellスクリプトでもテストコードを書くことができるようになると思います。その際、Pester等のPowerShell用テストフレームワークを併用すると、より一貫したテストコードが記述できるようになるんじゃないかと思います。
いずれは(いつ?)、Friendlyの機能をラップしたコマンドレット群をきちんと設計、実装して、モジュールとして公開したいですね!
2006/12/08
簡易ファイラ〜イベントハンドラII
前のブログを閉鎖するので、これから元記事を一気にコピーします。
元記事はこちらですhttp://winscript.s41.xrea.com/mt/archives/2005/09/post_4.html
.NET
FrameworkのSystem.Windows.Formsに含まれるコントロールを利用して、簡易ファイラをつくってみました。テキストボックスにパスを入れて「移動」ボタンを押すとそのフォルダの中身をリストボックスに表示します。リストボックスのファイルをダブルクリックすると実行、フォルダをダブルクリックすると移動します。イベントハンドラの使い方に注目してください。
function InvokeItem { Param($path) # 現在のパス+選択したファイル/フォルダ名を組み立てる $path2 = $(get-location).ToString() +"\" + $path if ([System.IO.Directory]::Exists($path2) ){ # フォルダなら移動 ChDirectory($path2) }else{ #ファイルなら実行 invoke-item $path } } function ChDirectory { Param($path) set-location $path #ディレクトリ移動 $listBox1.Items.Clear() #リストボックスを空にする # get-childitem Cmdletの戻り値をパイプラインに渡し、 # foreachしてリストボックスに追加する get-childitem | foreach{$r = $listBox1.Items.Add($_)} } [void] [Reflection.Assembly]::LoadWithPartialName("System.Windows.Forms") [void] [System.Windows.Forms.Application]::EnableVisualStyles() $form = new-object System.Windows.Forms.Form $form.Size = new-object System.Drawing.Size(300, 400) $textbox1 = new-object System.Windows.Forms.TextBox $textbox1.Size = new-object System.Drawing.Size(250, 20) $textbox1.Location = new-object System.Drawing.Point(0, 0) $textbox1.Text = get-location $button1 = new-object System.Windows.Forms.Button $button1.Size = new-object System.Drawing.Size(40, 20) $button1.Location = new-object System.Drawing.Point(250, 0) $button1.Text = "移動" # ButtonのClickイベント $button1.Add_Click({ChDirectory($textbox1.Text)}) $listbox1 = new-object System.Windows.Forms.ListBox $listBox1.Size = new-object System.Drawing.Size(250, 300) $listBox1.Location = new-object System.Drawing.Point(0, 50) # ListBoxのDoubleClickイベント $listBox1.Add_DoubleClick({InvokeItem($listBox1.SelectedItem)}) # 初期ディレクトリの設定 ChDirectory($textbox1.Text) # コントロールをフォームに配置して表示 $form.Controls.Add($textbox1) $form.Controls.Add($button1) $form.Controls.Add($listBox1) $form.showDialog()元記事:http://blogs.wankuma.com/mutaguchi/archive/2006/12/09/49648.aspx
2006/07/14
タスクトレイアイコンの表示
.NET Framework 2.0にはタスクトレイにアイコンを表示させるためのクラス、NotifyIconクラスがあります。これを使ってみましょう。
function CreateNotifyIconMenu() { # menuItem1オブジェクトの作成 $menuItem1 = new-object System.Windows.Forms.MenuItem("終了(&X)") # Clickイベント $menuItem1.Add_Click({Form_Closing}) # contextMenuオブジェクトの作成 $contextMenu = new-object System.Windows.Forms.ContextMenu # menuItemオブジェクトをcontextMenuオブジェクトのMenuItemsコレクションに追加 [void]$contextMenu.MenuItems.Add($menuItem1) #↑ここの[void]を忘れるとAddメソッドの戻り値がreturnされてしまう。 return ($contextMenu) } function Form_Closing() { # フォームとシステムトレイアイコンを非表示に $form.Visible = $false $notifyIcon.Visible = $false # PowerShellの終了 [System.Environment]::Exit(0) } [void] [Reflection.Assembly]::LoadWithPartialName("System.Windows.Forms") [void] [System.Windows.Forms.Application]::EnableVisualStyles() # notifyIconオブジェクトの作成とプロパティの設定 $notifyIcon = new-object System.Windows.Forms.NotifyIcon # System.Drawing.Iconクラスのコンストラクタにはicoファイルのパスを指定する $notifyIcon.Icon = new-object System.Drawing.Icon C:\script\test\a.ico $notifyIcon.Text = "PowerShell実行中" $notifyIcon.ContextMenu = CreateNotifyIconMenu $notifyIcon.Visible = $true # formオブジェクトの作成 $form = new-object System.Windows.Forms.Form # Closingイベント $form.Add_Closing({Form_Closing}) # フォームの表示 [void]$form.showDialog()
理論上はフォームを表示させなくても良いはずなんですが、ループをまわすいい方法が思いつきませんでした(start-sleepを使うとその間イベントが実行されない)。あと、showDialogで表示したフォームを閉じるいい方法も思いつかなかったので[System.Environment]::Exit(0)
としてPowerShell自体のプロセスを終了させています(exitとやるとエラーが出るんですよね。なんでしょうこれは)。これらに対する良い解決策をお持ちの方は教えてください。
PowerShellのfunctionって引数がなしのとき、呼び出す際()を使うとエラーになるんですよね。あと、文頭に持ってこないといけないのも気に入りません。何とかならなかったのでしょうか…。
せっかくタスクトレイが使えるのに、フォームとコンソールまで表示されてしまいます。そこでWSHを併用してごまかす方法を。
Set WshShell=CreateObject("WScript.Shell") WshShell.Run "powershell test.ps1",0
このようなvbsファイルを作ってps1ファイルをキックしてやります。Runメソッドの第二引数に0を指定すると、コンソールおよびフォームが非表示になりますが、タスクトレイは表示されます。この手を使うとまるでタスクトレイだけが表示されているかのような状態を作り出せます。ちなみに、MessageBoxも同じようにそれだけを表示させることができます。
元記事:http://blogs.wankuma.com/mutaguchi/archive/2006/07/14/32470.aspx
Copyright © 2005-2018 Daisuke Mutaguchi All rights reserved
mailto: mutaguchi at roy.hi-ho.ne.jp
プライバシーポリシー