2015/10/17

はじめに

がりっち氏がWindows10 UWPに日本語解析のAPIが備わっていた件 | garicchi.com というエントリを上げていました。

実はWin10に限らず、Win8.1 / Server 2012R2以降であれば、Windows ランタイム(WinRT)のWindows.Globalization名前空間に含まれるJapanesePhoneticAnalyzerクラスを用いた形態素解析ができます。

形態素解析とは要するに文字列を単語(正確には形態素という、文字列の最小構成要素)ごとに分割し、それぞれの単語の品詞を判別する処理になります。(JapanesePhoneticAnalyzerクラスだと分割までで、品詞の情報は取得できない?ようですが…)

またJapanesePhoneticAnalyzerでは分割した単語の読み仮名を取得することができます。

WinRTならPowerShellからも使えるんじゃないかなーと思ってやったらできたので、紹介します。

WinRTのPowerShellからの利用法

WinRTについての説明は他サイト様に譲りますが、要はWindowsストアアプリやUWP(ユニバーサルWindowsプラットフォーム)アプリを動作させる実行環境とAPI群です。

じゃあデスクトップアプリであるPowerShellは関係ないのかというとそうではなくて、例えばストアアプリのサイドローディングを行うAppxモジュールというものがあります。

つまりWinRTは従来のデスクトップアプリからの相互運用もできるようになっています。(すべてのコンポーネントではない)

このあたりの話は、荒井さんの記事が参考になるかと思います。:特集:デスクトップでもWinRT活用:開発者が知っておくべき、ライブラリとしてのWindowsランタイム (1/5) - @IT

PowerShellからWinRTを利用するには.NET Frameworkに含まれるクラスを利用するのと基本は同じです。

ただし注意点としては、クラス名を指定する時は、クラスの「アセンブリ修飾名」を指定する必要があります。

今回の例ではJapanesePhoneticAnalyzerクラスを使いますが、アセンブリ修飾名はWindows.Globalization.JapanesePhoneticAnalyzer, Windows.Globalization, Version=255.255.255.255, Culture=neutral, PublicKeyToken=null, ContentType=WindowsRuntime

となります。

このうち必須となるのは

Windows.Globalization.JapanesePhoneticAnalyzer:クラスの完全修飾名
Windows.Globalization:クラスの含まれる名前空間
ContentType=WindowsRuntime:WinRTのコンポーネントであること

の3つだけのようです。

つまり、PowerShellからは

[Windows.Globalization.JapanesePhoneticAnalyzer, Windows.Globalization, ContentType=WindowsRuntime]

とすればクラスを参照することができます。

ちなみに任意の型のアセンブリ修飾名を知るには、[型名].AssemblyQualifiedName のようにすればOKです。

なお、WinRTにはPowerShellからも利用価値の高いクラスが他にも色々あるようです。ぎたぱそ氏が認証系のクラスについて書かれていますので、参考にしてみてください。:PowerShell も Windows Store Apps 同様に Windows.Security.Credentials namespace を使って認証情報を管理できるようにしてみる - tech.guitarrapc.com

単語を分割する

早速、形態素解析をやってみましょう。具体的にはJapanesePhoneticAnalyzerのGetWordsメソッドを呼び出すだけです。

すべての基本になるので軽く関数としてラップしておきます。

function Get-JpWord
{
    param(
        [parameter(ValueFromPipeline=$true)]
        [ValidateLength(1,99)]
        [string[]]
        $Text,
        
        [switch]
        $MonoRuby
    )
    process
    {
        foreach($t in $Text)
        {
            [Windows.Globalization.JapanesePhoneticAnalyzer, Windows.Globalization, ContentType=WindowsRuntime]::GetWords($t, $MonoRuby)
        }
    }
}

GetWordsメソッドはスタティックメソッドなので、::演算子で呼び出します。戻り値はIReadOnlyList<JapanesePhoneme>というコレクションです。

GetWordsメソッドの第2引数にTrueを指定すると、漢字の含まれた単語をルビの振れる最小単位にまで分割する、Mono Rubyモードが有効になります。

なお、GetWordsメソッドはどうも文字数制限があるようです。だいたい100文字を超えると何も出力しない感じです。この制限値はリファレンスに書いてないようなので詳細不明ですが、一応関数では99文字までという制限を入れておきました。

例えば、Get-JpWord "最近急に寒くなってきました。" のようにすると結果は以下のように表示されます。

DisplayText          IsPhraseStart YomiText
-----------          ------------- --------
最近                          True さいきん
急に                          True きゅうに
寒くな                        True さむくな
って                         False って
き                            True き
ました                       False ました
。                            True 。

出力されるJapanesePhonemeオブジェクトは3つのプロパティを持ちます。

DisplayText 分割された単語
IsPhraseStart 単語が文節の開始であるかどうか
YomiText 単語の読み仮名

このように、入力した文章を単語単位に分割し、それぞれの単語の読み仮名を取得することができます。ただこれだけだと、「で、どうしろと」という感じなので、この出力結果を利用する、より実用的な関数を書いていきましょう。

長くなったので次回に続く。

2007/05/24

基本は赤坂さんのCodezineの記事を追っていくことにしましょう。

まずガジェットのひな形を作るには

1.ガジェット保存フォルダ(C:\Users\<ユーザー名>\AppData\Local\Microsoft\Windows Sidebar\Gadgets\)に

2.作るガジェットのサブフォルダ(<ガジェット名.gadget>)を作り、

3.その中にgadget.xmlファイルを作る

4.また、ガジェットの実体であるhtmlファイルを作る

これで、ガジェットの追加ダイアログに表示されるようになります。

例は赤坂さんの記事にあるので、ここでは実際のコードを。

■C:\Users\daisuke\AppData\Local\Microsoft\Windows Sidebar\Gadgets\Large_Feed.gadget\gadget.xml



 フィード ヘッドライン(大)
 1.0.0.0
 
  
   
   Full
   
  
 


■C:\Users\daisuke\AppData\Local\Microsoft\Windows Sidebar\Gadgets\Large_Feed.gadget\large_feed.html


 
  フィード ヘッドライン(大)
    
    
 
 
  

ここにフィードが表示されます。

さて、これを実際に表示させるとこのようになります。

ガジェットのひな形

まだ何も機能しませんが、立派にガジェットができました。
gadget.xmlの文法などは赤坂さんの説明をご参照ください。

ちなみにドラッグしてデスクトップに置く(アンドックする)とサイズが変わります。これは、System.Gadget.onDockイベントにサイズ変更のための関数(Function)の関数ポインタを代入していることで実現しています。VBScriptではGetRef関数が関数ポインタを扱う関数です。関数ポインタってなに?ってことはあまり気にしないで、とにかくイベントと実際の動作を関連付けるとだけ理解してればいいでしょう。

今回はここまでです。次回はいよいよRSS取得に挑戦してみます?予定は未定w

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/05/24/78230.aspx

さて、Windows Vista機が手に入ったので、本格的にガジェットを作ってみたいと思います。

まずは簡単なものから作ってみましょう。

デフォルトでIE7のRSSフィードを表示するガジェットがありますが、あまりにも情報量が少なすぎて使い物にならないと思うのは私だけでしょうか。せめてタイトルが2行表示してほしい。ていうかそれだけできれば文句ありませんw

でもソースがどこにあるかよくわかりません(知ってる方います?)。なら一から作ってみましょう。勉強も兼ねて。

今回から暇を見て勉強しながら少しずつ作ってみます。記述言語はあえて!VBScriptで。

まずは参考文献。

CodeZine:Windows Vistaガジェット入門(Vista ガジェット, suzuki, Windows Vista ガジェット, Javascript, Windows Vista)
http://codezine.jp/a/article/aid/810.aspx

MVP赤坂さんの記事。言語はJavaScriptです。これを基本にVBScriptに移植します。

Sidebar Gadget Development Overview
http://microsoftgadgets.com/Sidebar/DevelopmentOverview.aspx

英語ですがガジェットの概要が示されています。

Windows Sidebar
http://msdn2.microsoft.com/en-us/library/aa965850.aspx

リファレンスです。System.から始まる内部オブジェクトのリファレンスなどがあります。

Windows Vistaソフトウェアコンテスト
http://www.vistacon.jp/

Microsoftが開催したコンテスト。ソースを参考にさせていただけるかも?(まだ未見です)

Introducing the Windows RSS Platform
http://msdn2.microsoft.com/en-us/library/ms686418.aspx

IE7のRSSフィードを扱うオブジェクトのリファレンスがあります。未見です。MVP Yamakenさんのブログにときどき取り上げられているので参考にしたいと思います。

こんなところでしょうか。とりあえず第1回は参考サイトを挙げるだけにとどめておきます。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2007/05/24/78229.aspx

2006/12/18

12/16、わんくま大阪勉強会#4でPowerShellのセッションをさせていただきました。
いろいろと拙いところがありましたが、ご静聴いただきありがとうございました。

いくつかフィードバックやご質問をいただきました。

・PPTに書いてること以外をしゃべってほしい
→資料だけを読まれる方のためにPPTだけを見ても分かるようにしたのですが、せっかく参加された方のためにもそれ以外のことをしゃべったほうがいいですね。今回は時間がなくてなかなか難しかったのですが次回は改善させていただきたいです。

・デモが少ないので増やしてほしい
→これも時間の関係で今回ちょっとしかやれなかったのですが、次回1/12(金)はたっぷりやれると思います。シェルを叩くだけでなくスクリプトをその場で書いていくのもいいですね(今回他の方のセッションを見て思ったのですが)。ネタを仕込んでおかなければ…。

・実際に使える実用的なスクリプトサンプルが見たい
→時間の関係でスクリプトに関してはほとんど取り上げられなかったのですが、これも次回きちっとやります。PowerShellならではのスクリプトを鋭意研究中です。あまり運用系のことがわからないので、「こんなスクリプトがあったら嬉しい」などのご意見をお待ちしております。メールやここのコメント欄などでいただきたいと思います。

・IronPythonとの住み分けは?
→申し訳ありませんが、まだIronPythonを弄るところまでは行っていません。おいおい、研究していきたいと思います。現時点では個人的にはPowerShellは運用系、IronPythonは開発系なのかなと思います。

・安定性は?
→少し重いというのがありますが、安定性はまずまずなんじゃないでしょうか。

・仕組みは?
→現時点では正直なところ、なぜ動作するのか?なぜ.NETのクラスが動的に呼び出せるのか?というところまでは追い切れていません。
Windows PowerShell in Actionという書籍に詳しい解説があるそうなので、これから読んで、みなさんにお伝えできたらいいなと思っています(購入してるのですが積読状態です(汗)。

あと中さんからエイリアスを使う上では注意が必要というコメントをいただきました。これまでのコマンドプロンプトと同名のエイリアスがあるが、それらを書くときは、オプションなどは従来とは異なるということを言っておかないと混乱する…ということですよね?>中さん
エイリアスはシェルを叩く際はデフォルトで定義されている分には積極的に使っていってもいいと思いますが(コマンドプロンプトと混同しないように、との前提が必要ですが)、スクリプトで使うときはあえてエイリアスを使うこともないかなぁと思います。
?や%などはエイリアスというか文法チックなので、こちらのほうが分かりやすいような気もします。
エイリアスとは少し離れますが、パイプを多用したスクリプトの分かりやすい記法というのも研究中です。PowerShellはやはりオブジェクトが渡るパイプが肝なので、スクリプトでも活用していきたいのですが、多用するとどうしても読みにくくなってしまいます。そのあたりをうまく解消できればいいですね。

次回(1/12(金))はまたよろしくお願いします。まだまだ勉強中なのでなかなか講演、執筆ともに拙かったり進捗が遅かったりして申し訳ありません。取り上げてほしいこと、スクリプトのネタなどがありましたらぜひフィードバックをお寄せください。

元記事:http://blogs.wankuma.com/mutaguchi/archive/2006/12/18/51695.aspx


Copyright © 2005-2018 Daisuke Mutaguchi All rights reserved
mailto: mutaguchi at roy.hi-ho.ne.jp
プライバシーポリシー

Books

Twitter