Hi! We've renamed ScraperWiki.
The product is now QuickCode and the company is The Sensible Code Company.

Blog

ScraperWikiをためしてみよう

Guest post by Makoto Inoue, a Japanese ScraperWiki user. Makoto works in London as a Web developer, a technical writer, and a translator. He has a Japanese blog and his Twitter account is @makoto_inoue. はじめに みなさんスクレイプ(Scrape)という単語はご存知でしょうか? ウェッブページから特定のデータを引っこ抜く作業のことをスクレイピング(Scraping)と呼びます。 昨今のホームページではデータを簡単に提供するためのAPI(Application Programming Interface)というしくみが多いので「なんで今更そんなの必要なの」と思われる方>も多いかもしれません。しかしながら前回起きた東日本大地震の際、地震や電力の速報や、各地の被害状況を把握するために必要な政府の統計情報などがAPIとして提供されておらず、開発者の中には自分でスクレイパー(Scraper)用のプログラムを書いた人も多いのではないのでしょうか? ただそういった多くの開発者の善意でつくられたプログラムがいろいろなサイトに散らばっていたり、やがてメンテナンスされなくなるのは非常に残念なことです。 そういうときにScraperWikiの出番です。 ScraperWikiとは ScraperWikiはイギリスのスタートアップ企業で、スクレイパーコードを共有するサイトを提供しています。開発者達はサイト上から直接コード(Ruby, PHP, Python)を編集、実行することができます。スクレイプを定期的に実行することも可能で、取得されたデータはScraperWikiに保存されますが、ScraperWikiはAPIを用意しているので、このAPIを通して、他のサイトでデータを再利用することが可能です。 「Wiki」といっているだけあって、一般公開されているコードは他の人も編集したり、またコードをコピーして他のスクレイピングに利用することもできます。定期的に実>行されているスクレイパーがエラーを起こしていないかをチェックする仕組みがあり「みんなでスクレイピングを管理」するための仕組みがいたるところにあります。 ScraperWikiは、もともとイギリスで、どの議員がどの法案に賛成または反対票を投じたかを議会のサイトから創業者の一人が2003年頃にスクレイプしたことを起源に持ちます。 日本であればちょうどこういったページでしょうか? 現在ではGuardian社といった大手報道機関が企業ロビイストの議会での影響力を調べるのにつかったり、イギリス政府自身がalpha.gov.ukというプロトタイプサ>イトで、各省庁に点在したデータを一元的にアクセスするための仕組みとしてScraperWikiを使っているそうです。 ScraperWikiのビジネスモデルですが、一般公開するコードに関しては無料ですが、非公開にしたり、定期的にスクレイプする量などに応じて課金するようになっています。 前置きが長くなってきましたが、実際に使ってみましょう。 既存のスクレイパーを眺めてみる 「ScraperWiki」でGoogle検索すると、すでにScraperWikiを使用している日本人の方がいらっしゃいました。 「スクレイピングするなら ScraperWiki 使うといいよ 」 ここでは衆議院議員のデータをスクレイプするのに使用しています。 Members of […]

Happy New Year and Happy New York!

We are really pleased to announce that we will be hosting our very first US two day Journalism Data Camp event in conjunction with the Tow Center for Digital Journalism at Columbia University and supported by the Knight Foundation on February 3rd and 4th 2012. We have been working with Emily Bell @emilybell, Director of […]

Up in the Air with ScraperWiki and Tropo

We came across this blog post a few days ago from these cool guys at Tropo in Florida, and thought you’d be interested in how they’ve used ScraperWiki. Tropo is a simple API for adding voice and other goodies to your apps and, as Mark Headd explains, it can be really powerful when combined with […]

Scraping the protests with Goldsmiths

Zarino here, writing from carriage A of the 10:07 London-to-Liverpool (the wonders of the Internet!). While our new First Engineer, drj, has been getting to grips with lots of the under-the-hood changes which’ll make ScraperWiki a lot faster and more stable in the very near future, I’ve been deploying ScraperWiki out on the frontline, with […]

How to scrape and parse Wikipedia

Today’s exercise is to create a list of the longest and deepest caves in the UK from Wikipedia. Wikipedia pages for geographical structures often contain Infoboxes (that panel on the right hand side of the page). The first job was for me to design an Template:Infobox_ukcave which was fit for purpose. Why ukcave? Well, if […]

Have a Happy Open Data Day with ScraperWiki

Tomorrow is Open Data Day, and if you’re planning on hacking the web with the Open Knowledge Foundation or Random Hacks of Kindness or your own data hack of choice, here’s some fuel for your fight ( and if you’ve already driven our digger then check out the last video on our API so you […]

Mapping @TahrirSupplies

One of our users I recently met in New York said ScraperWiki is “a great tool for hacktivism”. Because of this we have a lot of ‘hacktivists’ in our community. One such ‘hacktivist’ is Thomas Levine. He’s recently scraped @TahrirSupplies, a twitter account set up to crowd-source the need for suplies at Tahrir Square and matching them […]

We're hiring!