みんなの就職活動日記でAutoPagerizeを有効に

javascript xpath

2009/09/01 21:50くらいに追記早くも添削されてた。(?:bbs|\?action=bbs) -> (?:\?action=)?bbs bbsが重複してるから、?action= があってもなくても良しにすればスッキリ。なるほど id:os0x さんに助言をいただいたので早速修正。string-length(@class)=0 -…

2009-02-15

PHPのXPathをトリッキーに使ってHTMLのテキストノードを取得

php xpath

以前、PHPのXPathでテキストノード取得したら、期待した順番通りに取得できなかった。と書きました。ある要素の子ノード群に、エレメントノードとテキストノードがそれぞれ２つ以上あると起きる現象ではないかと推測します。直下じゃなければいいのでは？ …

2009-01-22

iframe内の要素をxpath4jquery使って取得

javascript xpath jQuery

xpathでドキュメントをまたいだ検索ができないということで、contextのドキュメントでcreateExpression切り替えられないか？と考えました。で、できたのが // xpath4jqueryの57行目辺り context = context || document; doc = (context.nodeName == '#docum…

2009-01-16

iframe内の要素をXPath使って取得

javascript xpath jQuery

前提条件として、ドメインは一緒。昨日の失敗は、iframeのdocumentをcontextに指定したところで、document.createExpressionで評価するからdocument違いが起こっていたためです。そこで、importNodeメソッドですよ。外部ドキュメントからノードのコピーを…

2009-01-15

xpath4jquery.jsをjquery-1.3.jsで動かす

jQuery xpath

たまに、jQueryはXPathのセレクタ使えるというエントリーを見かけますが、CSSのセレクタの間違いです。例えば、idがhogeの要素を取得する場合 #hoge が CSS id("hoge") が XPathで、XPathを使いたいなぁと思っていたところ、 id:amachangさんがJavascript-X…

2008-12-03

ページをクロールする時に必要なAタグのみ取得するXPath

xpath

10/4 追記：メールも弾くよう改良 getElementsByTagName('a')で全部取ってくるくらいなら、XPathでフィルタリングしたい！ということで、 /html/body//a[not(contains(@href, "#")) and not(starts-with(@href, "javascript:")) and not(starts-with(@href,…

2008-11-21

bodyとdiv直下のテキストノードをXPathで取得してspanで囲む方法

xpath php

昨日の続きです。タイトルの通りです。複数のクエリーは、パイプで繋げば一度に取れるらしいですよ。 $xpath = new DOMXpath($dom); $query1 = '/html/body/text()[string-length(normalize-space()) > 0]'; $query2 = '/html/body//div/text()[string-leng…

2008-11-20

XPathで取ってきたテキストノードが意図した順番で来なかった

xpath php

divの直下にテキストは好きじゃないけれど <html> <head> <meta http-equiv='Content-type' content='text/html; charset=utf-8'> <title>test</title> </head> <body> <div> <a href="hoge.php">hoge</a> | <a href="huga.cgi">huga</a> | </div></body></html>

2008-11-19

改行を含まないテキストノードを取得するXPath

xpath

'//text()[string-length(normalize-space()) > 0]'これで勝つる。 <追記> 誰がタイトル取ってこいと...俺か、欲しいのは、bodyタグ以下だけですよね〜 '/html/body//text()[string-length(normalize-space()) > 0]'今度こそ </追記> normalize-spaceで空白文字削…