久しぶりのブログ更新となってしまいました。
ぼちぼちやってきます。
さて、今日はプログラミングの記事です。
先日来から勉強中のスクレイピングですが、
XPathとBeautiful Soupを併用してスクレイピングをしてみたので本日の記事に。
・テーブル構造でテキストとリンク先URLのセットでスクレイピングしたい(pandasのDataFrameを利用)
・同じテーブル内で複数のa hrefがあり、かつ名前が付与されておらずタグのみで正規表現でもとりにくく、識別しにくい、けど取得したいリンク先URLがだった
→テキスト文章を指定してそのリンク先という指定でとってきたら良さそうだったのでXPathを使うことに
(DataFrameは行数が揃わないとエラーが返ってくるので不要なデータを省いて確実にとりたい)
・Beautiful SoupはXPath使えないけど、lxmlを使えば出来た