2007年11月30日
OKILab.jpがテラ熱い-文章中の地名・スポット検索-
社内のMLで教えてもらったのですが、OKILab.jpがテラ熱い!
で、文章中から住所やスポット表現を取得するAPIや、その応用コンテンツが公開されています。
基本的にGeography::AddressExtract::Japanでやってることと同じ発想なわけですが、住所だけでなくスポット等にも対応しているのがすごいです。
このあたりの情報を見る限り、Perlベースの開発っぽいので、Geography::AddressExtract::Japanも参考にされているのかも。
BLOGEOで表示されているサンプルを試したりしてみると、単に位置っぽい単語を全て出しているのではなく、取捨選択を加えているっぽいあたりが面白いです。
こちらのAPIお試しページで色々試してみたところ、ざっくりと判った感じのロジックは...
- 地名にまとまりがある場合は、そのまとまった地名を取る
例文:大阪の味を楽しめるお店が目黒と五反田にできました!
結果:目黒、五反田例文:大阪の味を楽しめるお店が目黒と難波にできました!
結果:大阪、難波例文:大阪の味を楽しめるお店が目黒と名古屋にできました!
結果:大阪、目黒、名古屋もしかしたら包含関係(大阪は難波を含む)あたりもチェックしているかもしれません。
- 上記の近傍クラスタが存在しない場合、「の」等の助詞で補われている地名は落とされる。
例文での「大阪の味」等のように、直接事象のあったことに関係のない地名が出る場合を想定していると思われる。
ただし、「の」で補われている地名しかない場合は、落とされない。
例文:大阪の味を楽しめるお店が目黒にできました!
結果:目黒例文:目黒の味を楽しめるお店が難波にできました!
結果:難波例文:目黒の味を楽しめるお店が難波の交叉点にできました!
結果:目黒、難波もっとも、2番目の例は、
例文:目黒の味を楽しめるお店が大阪にできました!
結果:目黒、大阪のようにもなるので、それほど単純でもなさそうです。
東京、大阪のような大域地名か、目黒、難波のような狭い地名かについても、判断されているのかもしれません。
という感じで、なかなか面白く使えそうなサービスです。
今後の機能向上や精度アップが楽しみです。
OKILab.jp の tfukui といいます。紹介していただいてありがとうございます。
取捨選択のアルゴリズムは、推察されているようなことも含めていろいろ工夫している途上です。ウェブ上のコンテンツに自動的に緯度経度を付与するという目的のためには、この絞込みの部分が非常に重要と考えています。
Geography::AddressExtract::Japanについては、アルゴリズムはまったく異なるんですが、問題意識とか住所抽出のややこしい部分とか、そういった部分では参考にさせてもらっています。
実は先日のOSGeo.jp大阪に参加してた(大阪在住です)んですが、ごあいさつし損ねました。また何かの機会に直接お会いしてご意見を伺えたらうれしいです。
![[ここギコ!]](http://kokogiko.net/logo.png)





・3Dどきゅめんと…って何?点字文書?(pereezdkv)
・MovableType 3.2、MT::App::Trackback.pmの修正(selvirremdor)
・MovableType 3.2、MT::App::Trackback.pmの修正(antulaseesi)
・3D PaPaGO! 登場(pereezdkv)
・MovableType 3.2、MT::App::Trackback.pmの修正(spezinstr)
・MovableType 3.2、MT::App::Trackback.pmの修正(dimdimov)
・MovableType 3.2、MT::App::Trackback.pmの修正(deanteywee)
・MovableType 3.2、MT::App::Trackback.pmの修正(keyjiolso)
・MovableType 3.2、MT::App::Trackback.pmの修正(leyliautumfe)