2015/12/15

この記事はPowerShell Advent Calendar 2015の15日目の記事です。

はじめに

前々回前回は、PowerShellによるWebスクレイピングの具体的手法についてまとめました。ただ、スクレイピングはあくまで最後の手段であり、Webから何らかの文字列情報を取得するには、Web APIを用いるのが本道かと思います。

今回はPowerShellでWeb APIを用いるお話です。

Web APIとは

Web APIというのは、その名の通り、プログラムからWeb上のデータを取得したり、何らかのサービスの機能を実行したりするための、呼び出し方式を定めた規約です。

Web APIでは、HTTPリクエストに呼び出したい機能の内容を指定し、結果をHTTPレスポンスとして受け取るというのが一連の流れになります。

Web APIの主な実装方式としてはSOAPとRESTがありますが、このうち、XMLでリクエストを組み立てるSOAPは最近は廃れてきた感じです。

(PowerShellではSOAP APIはNew-WebServiceProxyコマンドレットで対応しています。が、今回は略。参考:PowerShell: ◆空港の場所と天気を調べる(New-WebServiceProxy)

最近はWeb APIといえばREST(REpresentational State Transfer) APIを指すことが殆どです。REST APIでは操作の対象となるリソース=URI(エンドポイントという)、呼び出し方式=HTTPメソッド(GET:データの取得, POST:データの作成, PUT:データの更新, DELETE:データの削除)、操作に対するパラメータ=クエリストリング(GETの場合)もしくはリクエストボディ(POSTの場合)、結果の返却=HTTPレスポンス(JSON、XML等)となるのが基本です。

また、RESTの呼び出しは基本的にステートレスなものとなります。要はセッション情報を持たない≒cookieを使わない、ってことです。

PowerShellではREST APIを簡便に利用するためにInvoke-RestMethodコマンドレットが用意されています。(ただしPowerShell 3.0から)

Invoke-RestMethodコマンドレットのパラメータ指定

Invoke-RestMethodコマンドレットのパラメータについては、実は前々回に取り上げたInvoke-WebRequestコマンドレットと同じです(IEのパーサーを使うことはないので、-UseBasicParsingも無いですが)。ただしREST APIの形式は前述の通りなので、利用するパラメータは限られてきます。具体的には

データ取得の場合

$response = Invoke-RestMethod -Uri エンドポイント(パラメータを含む) -Method GET

データ作成、更新の場合

$response = 
 Invoke-RestMethod -Uri エンドポイント -Method POST -Body パラメータ(連想配列あるいはJSONやXML等)

となるかと思います。

その他にOAuth等の認証情報を指定する場合は、-Headers @{Authorization="認証情報"}のような指定も必要になることがあります。

Invoke-RestMethodコマンドレットのレスポンス

Invoke-RestMethodコマンドレットがInvoke-WebRequestコマンドレットと異なる最大のポイントは、レスポンス文字列の種類によって、自動的に出力オブジェクトの型が切り替わるところです。

私の調べた限りでは以下のような対応になっているようです。

レスポンス文字列の種類 出力型
XML XmlDocument
RSS/ATOM XmlElement
JSON PSCustomObject
プレーンテキスト string
利用の具体例
AED検索

Microsoft MVPのはつねさんが公開されている、AED検索はREST APIでAEDの所在地情報を検索し、JSONで結果を得ることができます。

例えば兵庫県芦屋市のAED一覧を取得するには、

$response = Invoke-RestMethod https://aed.azure-mobile.net/api/aedinfo/兵庫県/芦屋市/
$response | Format-Table Latitude, Longitude, LocationName,
    @{L = "Address"; E = {
        "$($_.Perfecture) $($_.City) $($_.AddressArea)"
    }} -AutoSize

のようにします。

ここで$responseには、JSON形式のデータをパースしてPSCustomObject化したデータが格納されるので、あとはFormat-Tableコマンドレットで見やすい形で出力してあげれば良いでしょう。

結果はこんな感じです。

image

AED検索APIと、去年のアドベントカレンダーで紹介した、Windows 位置情報プラットフォームを用いて現在位置を取得するGet-GeoCoordinate関数を併用して、「現在位置の最寄りにあるAEDをGoogle MAP上で表示する」なんてこともできます。

$location = Get-GeoCoordinate
$response = Invoke-RestMethod "https://aed.azure-mobile.net/api/NearAED?lat=$($location.Latitude)&lng=$($location.Longitude)"
Start-Process "http://maps.google.com/maps?q=$($response.Latitude),$($response.Longitude)"

ここではREST APIにQueryStringでパラメータ(経度、緯度)情報を渡しているところと、レスポンスから生成されたオブジェクトのプロパティ値をマップ表示の際のパラメータとして利用しているところに注目してください。

RSS取得

RSSやATOMもREST APIの一種と考えて良いと思います。

ここではこのブログのRSSを取得する例を示します。

$response = Invoke-RestMethod http://winscript.jp/powershell/rss2/
$response | select @{L = "Title"; E = "title"},
    @{L = "Url"; E = "link"},
    @{L = "PublishDate"; E = {[DateTime]::Parse($_.pubDate)}},
    @{L = "Description"; E = {
        ($_.description -replace "<.+?>").
        PadRight(50).Substring(0,50).TrimEnd() + "..."
    }}|
    Format-List

Descriptionの加工がやや適当(HTMLタグっぽいところを削除して50文字に切り詰めてるだけ)ですが、少し見やすくしています。結果は以下のように表示されます。

image

RSSの結果は、1エントリがXMLElement型のオブジェクトとして出力されるので、データの取扱いが比較的楽だと思います。

レスポンスがXMLなREST APIの良い例がなかったので省略してますが、基本的には前回取り上げた、XHTMLをXMLとしてパースする方法と同じやり方です。ただInvoke-RestMethodの場合は[xml]型アクセラレータによる変換は不要で、いきなりXmlDocumentオブジェクトが得られます。

現状の問題点

レスポンスがコールバック関数つきのJSONP形式であるとかで、JSON、XML、RSS/ATOMのいずれの形式にも適合しない場合はプレーンテキストとして出力されてしまいます。

その場合は、出力文字列を適宜加工した後に、[xml]型アクセラレータや、ConvertFrom-Jsonコマンドレット等により手動でオブジェクト化するようにしてください。もっとも、その場合は敢えてInvoke-RestMethodを使わずInvoke-WebRequestで充分ですが。

あとWeb APIというのは大抵(特にPOSTの場合)、認証を要するのですが、最近よくあるのはTwitter等でもおなじみのOAuth認証です。ところがOAuth認証は結構めんどくさい処理で、何らかのライブラリを使わないとしんどいです。残念ながらPowerShellの標準コマンドレットには存在しないので、自前で頑張って書くか、既存のライブラリやコマンドを利用することになるかと思います。

今回そこまで説明できませんでしたが、また機会があれば。

2009/10/17

最近、わんくまブログサーバーが高負荷のため繋がりにくくなっております。そのため、負荷分散の意味も込めて私のブログのミラーを用意しました。ミラーには過去記事を上げてありますし、今後はこちらに投稿した記事と同じものを同時に上げて行きます。なのでRSSなんかはミラーの方を登録するといいかもです。

なお、コメントはこちら(わんくまの元記事)の方にお願いします。

ミラーのアドレスはこちら

http://winscript.jp/tech_blog/

よろしくお願いします。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2009/10/17/182170.aspx

2008/11/22

ご無沙汰してます。牟田口です。近況は省略(えー mixiついったーブログその他などを。

さて、最近、spamコメントが鬱陶しくて色々対策を考えてるんですが、手っ取り早く効果的なのはBBQを使うことですね。某巨大掲示板群サイトで荒らしに使われた、おもに公開プロキシのリストをDNSを引いて持ってくるというものです。Perlの実装はこのページにあります。PHPの実装も見かけました

意外と.NET,C#な実装を見かけないので、最近覚えたC#でさくっとかいてみました。

using System;
using System.Net;
using System.Net.Sockets;

namespace CheckBBQ
{
    class Program
    {
        static void Main(string[] args)
        {
            if (args.Length == 0)
            {
                Console.WriteLine("BBQ判定プログラムの使い方:\r\ncheckbbq.exe IPAddressもしくはHostName\r\n戻り値:\r\n-1:失敗\r\n0:串ではない\r\n1:串である");
                return;
            }
            IPAddress[] addresses= Dns.GetHostAddresses(args[0]);
            if (addresses.Length == 0)
            {
                Console.WriteLine("-1");
                return;
            }
            string ipAddress = addresses[0].ToString();
            string[] ipAddressParts = ipAddress.Split('.');
            Array.Reverse(ipAddressParts);

            string hostName = string.Join(".", ipAddressParts) + ".niku.2ch.net";
            try
            {
                addresses = Dns.GetHostAddresses(hostName);
            }
            catch (SocketException ex)
            {
                Console.WriteLine("0");
                return;
            }
            catch (Exception ex)
            {
                Console.WriteLine("-1");
                return;
            }

            if (addresses.Length == 0)
            {
                Console.WriteLine("-1");
                return;
            }

            ipAddress = addresses[0].ToString();
            if (ipAddress == "127.0.0.2")
            {
                Console.WriteLine("1");
            }
            else
            {
                Console.WriteLine("-1");
            }
        }
    }
}

使い方はコードを見てください。これは単に引数のホストをBBQにかけ、結果を標準出力に出すコンソールアプリですが、メソッド化してもaspxに組み込んでもWebサービスにしてもまぁ好きなように使ってくださいませ。

でも、BBQは万能選手じゃありません。本来書き込めるべき人が書き込めないことも多々あります。なので、BBQをまず通してOKならOK、NGならCAPTCHA認証をやってもらう、とかがいいと思います。

トラックバックspam対策もいろいろ考えたんですが、まだ国産のは少ないので、送信データが英字のみをはじく、でも効果は結構あります。このへんmixiでメモったのでコピペ。

トラックバックって
2008年10月11日20:04

黒歴史になるんだろうか
オートディスカバリーはないと微妙だしあるとspamの温床になるし。
何らかの認証の共通規格を設ける?
RSSは2.0で一応落ち着いたけどトラックバックは発展しないままだなー
私はいま、現行規格のまま、オートディスカバリーを有効にしてかつspamトラックバックが送られないようにする方法を考え中
送り元を見に行くというはてな方式も一つの方法論であるんだけど、なんかこう納得できないものがある

コメント
むたぐち 2008年10月11日 20:07
送信元ホワイトリスト方式もなんだか微妙です
むたぐち 2008年10月11日 20:18
excerpt,titleなどの文字列で弾くのはよくある対策だけど根治法じゃない
いたちごっこだー
BBQは使えない。理由は少し考えれば分かりますので略。
やっぱりはてな方式なんかな。urlの先をまず見に行って、そこにこちらへのリンクがなければまず速効NG。
あとはお好みで、引用がなければNGとか。
でもこれって莫大なコストがかかるし送り元を見に行くというのがそもそもなんか根本的にどうなんっておもう。
むたぐち 2008年10月11日 20:38
トラックバックは性善説ベースで作られた規格
引用元を見に行くのは性悪説ベースの対処
両極端すぎる
むたぐち 2008年10月11日 21:08
送り元を見に行く方式の問題はまだあって、A→Bにトラックバックを送信された場合、B→Aに「AにBのURLが存在するか」を確認しに行く。
一見合理的だけど、このトラックバックって誰でも送れるんだよねー。Aを書いた人じゃなくても。つまり、AともBとも関係ない悪意を持つxがいて、A→Bへのトラックバックを乱射した場合どうなるか。B→AのDoS攻撃みたいなんが成立しちゃう。同ドメインへの確認間隔を制御する必要がでてくる。でもそれはもちろん正しくサービスを利用する人にとっては不便になるわけで。
むたぐち 2008年10月11日 21:28
送信元を見に行く方式で、トラックバックを送った人のリモートホストと、urlに指定されたWebサイトのドメインが一致するかまず調べるという方法もあるけど(たぶんはてなではこれをやっている)、これは正しい使い方をしていても一致しないことも当然あるわけで(手動でトラックバック打つときとかね)。だけどこの辺が確かに手の打ちどころではあるようには思う。手動で打つ時はオートディスカバリー関係ないしな。ただ、私のようにDNSの逆引きができないというか正逆で結果が異なるようなサーバーの場合は泣いてもらうしかないかなー。
むたぐち 2008年10月11日 21:32
つまり、オートディスカバリー用(Blog提供サービスが見に行く用)のtrackback ping URLと、手動で打つ場合のtrackback ping URLをまず分ける。
前者は、トラックバックを送った人のリモートホストと、urlに指定されたWebサイトのドメインが一致するかまず調べ、一致しない場合ははじく。一致した場合は送信元を見に行って、こちらへのリンクがある場合は通す。それ以外ははじく。
後者は、trackback ping URLを用意するがあるところまではコピペできるが、それに数文字、画像にかかれた文字をつけたすようにする(認証の代わり)。
この辺が落としどころかなー。
むたぐち 2008年10月11日 21:35
追加文字列は定期的に変わるようにする。
むたぐち 2008年10月11日 21:37
オートディスカバリーのほうはチェック間隔に制限を設ける。
JZ5 2008年10月11日 22:38
SPAM温床はメールと同じようなもんじゃないだろか。
バーベキューってなんですか?
手動のトラックバックURL(使わないけど)は、JavaScriptなんかで生成するのはどう? Server側とClient側で共通のアドレス作れるけど、直接ファイル読み込んでJavaScript実行してないと正しいURLがない。
http://katamari.jp/blog/index.php?UID=1163941454
むたぐち 2008年10月11日 22:54
いえねー、トラックバックってわりと新しい規格なのになんでspam温床になることを考えて規格作らなかったのかと。
eメールは昔々作られたものだから仕方ないとして。
JavaScriptいいですねー。やってみます。
トラックバックspam対策って結局同じところに辿りつくのねw>URL
むたぐち 2008年10月11日 22:55
BBQについてはこちら
http://bbq.uso800.net/

JZ5さん事後承諾でごめんなさいだけどコピペさせていただきました。

あと、BBXを使うのも一つの案かな。こっちは広告爆撃ブラックリストなので近いものがあるかと。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2008/11/22/161939.aspx

2008/07/03

Function GetPubDate(dDate)
	days = Array("","Sun","Mon","Tue","Wed","Thu","Fri","Sat")
	months = Array("","Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec")
	GetPubDate = days(WeekDay(dDate)) & ", " & Right("0" & Day(dDate),2) & " " & months(Month(dDate)) & " " & Year(dDate) & " " & Right("0" & Hour(dDate),2) & ":" &  Right("0" & Minute(dDate),2) & ":" & _
Right("0" & Second(dDate),2) & " +0900"
	'Wed, 05 Oct 2005 19:08:12 +0900
End Function

探してもなかったので書いてみました。ついでにRSS1.0のdc:Dateも

Function GetDCDate(dDate)
	GetDCDate=Year(dDate) & "-" & Right("0" & Month(dDate),2) & "-" & Right("0" & Day(dDate),2) & "T" & _
	Right("0" & Hour(dDate),2) & ":" &  Right("0" & Minute(dDate),2) & ":" & _
	Right("0" & Second(dDate),2) & "+09:00"
	'2005-10-06T10:31:58+09:00
End Function
元記事:http://blogs.wankuma.com/mutaguchi/archive/2008/07/03/147172.aspx

2007/07/28

窓の杜 - 【NEWS】Windows Vista用ガジェットパック「nDigiGadgets」v0.11が公開、計16本を収録
http://www.forest.impress.co.jp/article/2006/09/21/ndigigadgets011.html

というガジェットシリーズの中に、nDigiTVProgramという、ライブドアのテレビ番組表RSSを取得して表示するガジェットがあり愛用しています。このガジェットの中でMicrosoft.XMLDOMを同期処理(xml.async = false;)で呼び出しているのですが、たまによくloadメソッド実行時に固まります。やっかいなのはガジェットは一つがフリーズすると全体を巻き込むところですね。非同期化するとこの問題は解消します。で、やり方は、

ローカルの XML ドキュメントをロードする (hPod)
http://hwat.sakura.ne.jp/hpod/200612/22-220000/

に載っています。

asyncプロパティをtrueにし、onreadystatechangeイベントに匿名関数を割り当てます。

...
	var xml = new ActiveXObject("Microsoft.XMLDOM");
	//xml.async = false;
	xml.async = true;
	xml.onreadystatechange = function (){
		if( xml.readyState == 4 ){
			// ロード完了時に、何かする
			var rdf;
....この中にもともとloadの後にあった処理を移動させる...
			statustext.title = "次のデータ取得は"+ mindate.getHours() + "時" + mindate.getMinutes() + "分\n今すぐ取得するにはクリック"
		}
	}
	xml.load(uri);


}

var lastLoadText = "";
...

てな感じで。

すべて他の方のネタでごめんなさいですー。私もガジェット作成続きしなきゃ・・・

ちなみにこのガジェットの作者さん、MSMVPを受賞されたそうです。おめでとうございますー。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/07/28/87488.aspx

2007/05/25

pstファイル(メールや連絡先などが含まれるファイル)が壊れた際、scanpst.exeというツールで修復できますが、その際RSSフィードフォルダがただのフォルダになってしまい壊れてしまいます。それを修復する方法について。

Outlook2007の「ファイル」-「インポートとエクスポート」で、「OPMLファイルからのRSSフィードのインポート」で適当なOPML(*.xml)ファイルをインポートします。じゃんぬさん作成のわんくまブログのOPMLでも使うとよいですね。

それだけで修復できます。Outlook2007を再起動すればアイコンもちゃんとRSSのものに戻ります。すばらしいですね。困った時はぜひどうぞ。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/05/25/78352.aspx

2007/05/24

基本は赤坂さんのCodezineの記事を追っていくことにしましょう。

まずガジェットのひな形を作るには

1.ガジェット保存フォルダ(C:\Users\<ユーザー名>\AppData\Local\Microsoft\Windows Sidebar\Gadgets\)に

2.作るガジェットのサブフォルダ(<ガジェット名.gadget>)を作り、

3.その中にgadget.xmlファイルを作る

4.また、ガジェットの実体であるhtmlファイルを作る

これで、ガジェットの追加ダイアログに表示されるようになります。

例は赤坂さんの記事にあるので、ここでは実際のコードを。

■C:\Users\daisuke\AppData\Local\Microsoft\Windows Sidebar\Gadgets\Large_Feed.gadget\gadget.xml



 フィード ヘッドライン(大)
 1.0.0.0
 
  
   
   Full
   
  
 


■C:\Users\daisuke\AppData\Local\Microsoft\Windows Sidebar\Gadgets\Large_Feed.gadget\large_feed.html


 
  フィード ヘッドライン(大)
    
    
 
 
  

ここにフィードが表示されます。

さて、これを実際に表示させるとこのようになります。

ガジェットのひな形

まだ何も機能しませんが、立派にガジェットができました。
gadget.xmlの文法などは赤坂さんの説明をご参照ください。

ちなみにドラッグしてデスクトップに置く(アンドックする)とサイズが変わります。これは、System.Gadget.onDockイベントにサイズ変更のための関数(Function)の関数ポインタを代入していることで実現しています。VBScriptではGetRef関数が関数ポインタを扱う関数です。関数ポインタってなに?ってことはあまり気にしないで、とにかくイベントと実際の動作を関連付けるとだけ理解してればいいでしょう。

今回はここまでです。次回はいよいよRSS取得に挑戦してみます?予定は未定w

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/05/24/78230.aspx

さて、Windows Vista機が手に入ったので、本格的にガジェットを作ってみたいと思います。

まずは簡単なものから作ってみましょう。

デフォルトでIE7のRSSフィードを表示するガジェットがありますが、あまりにも情報量が少なすぎて使い物にならないと思うのは私だけでしょうか。せめてタイトルが2行表示してほしい。ていうかそれだけできれば文句ありませんw

でもソースがどこにあるかよくわかりません(知ってる方います?)。なら一から作ってみましょう。勉強も兼ねて。

今回から暇を見て勉強しながら少しずつ作ってみます。記述言語はあえて!VBScriptで。

まずは参考文献。

CodeZine:Windows Vistaガジェット入門(Vista ガジェット, suzuki, Windows Vista ガジェット, Javascript, Windows Vista)
http://codezine.jp/a/article/aid/810.aspx

MVP赤坂さんの記事。言語はJavaScriptです。これを基本にVBScriptに移植します。

Sidebar Gadget Development Overview
http://microsoftgadgets.com/Sidebar/DevelopmentOverview.aspx

英語ですがガジェットの概要が示されています。

Windows Sidebar
http://msdn2.microsoft.com/en-us/library/aa965850.aspx

リファレンスです。System.から始まる内部オブジェクトのリファレンスなどがあります。

Windows Vistaソフトウェアコンテスト
http://www.vistacon.jp/

Microsoftが開催したコンテスト。ソースを参考にさせていただけるかも?(まだ未見です)

Introducing the Windows RSS Platform
http://msdn2.microsoft.com/en-us/library/ms686418.aspx

IE7のRSSフィードを扱うオブジェクトのリファレンスがあります。未見です。MVP Yamakenさんのブログにときどき取り上げられているので参考にしたいと思います。

こんなところでしょうか。とりあえず第1回は参考サイトを挙げるだけにとどめておきます。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/05/24/78229.aspx

2006/12/07

PowerShellはXMLの扱いが簡単なので、RSSリーダーを作ってみました。参考にしたのは
Channel9 Wiki: ReadRSS
http://channel9.msdn.com/wiki/default.aspx/Channel9.ReadRSS
です。

function ReadRSS 
{
    param ([string]$url, [int]$maxResults)               # パラメータ URLと取得するタイトル数
    $client = new-object System.Net.WebClient;           # WebClientオブジェクト作成
    $client.Encoding = [System.Text.Encoding]::UTF8;     # EncodingクラスのUTF8プロパティ(スタティック)参照
    $xmldoc =  [xml]$client.downloadstring($url);        # ダウンロードした結果をテキストで得て[XML]にキャスト
    if ($xmldoc.rss -eq $null)                           # rssプロパティがなければ
    {
    # RSS1.0
        "[" + $xmldoc.RDF.channel.title + "]";           # ブログのタイトルを取得。
        $node = $xmldoc.RDF;                             # RDFプロパティを変数に代入
    }else{ 
    # RSS2.0
        "[" + $xmldoc.rss.channel.title + "]";           # ブログのタイトルを取得
        $node = $xmldoc.rss.channel;                     # RSSプロパティを変数に代入
    }
    for ($i = 0; $i -lt $maxResults; $i ++)              # 0からmaxResultの値までループ
    {
         $node.item[$i].Title;                           # channelのItem配列からTitleプロパティを取得。
    }
}
ReadRSS "http://rss.rssad.jp/rss/itm/rss2dc.xml" 10      #RSS1.0の例
ReadRSS "http://blogs.wankuma.com/mutaguchi/Rss.aspx" 10 #RSS2.0の例

ブログのタイトルと記事タイトルが指定数だけ取得されます。RSS1.0/2.0対応です。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2006/12/07/48906.aspx

Copyright © 2005-2016 Daisuke Mutaguchi All rights reserved

mailto: mutaguchi at roy.hi-ho.ne.jp

Awards

Books

Twitter