January 4, 2012

似たようなコンテンツを光速に回している特殊なニッポン

  • gkojax: たんぶらうざの人もTumblr Portの人も、話を聞いたらクロール先は割と絞り込んでるというようなこと言ってたんだよなあ。無闇に広げてるのうちだけかもしれない。 [http://twitter.com/gkojax/status/149042545199038464]
  • mofigan: @gkojax たんぶらうざのID収集数は4722で、独自クローラ書いたTumbrowser(英語圏含)は約51万ほど。ただし今のところ内4万ほどしか集計には反映できてなくてまあ増やしてもあんま結果がかわらなそうてことで凍結したまま。集計してないだけでIDは集めてます。趣味で。 [http://twitter.com/mofigan/status/149050176353480704]
  • mofigan: まあ何らかのアウトプットを公開もしない収集に何の意味があるのかというと、趣味というしかないのかな。手元でぐへへみたいな。 [http://twitter.com/mofigan/status/149050748527837184]
  • mofigan: HENTAIだー [http://twitter.com/mofigan/status/149051781664604160]
  • mofigan: ただ公開してないけど収集してるという人はいると思うし、それに比べればサイトあるぶんオープンスケベてなもんだと思います。たぶん。きっと。だといいなあ。 [http://twitter.com/mofigan/status/149052201669636096]
  • gkojax: @mofigan じゃあうちよりも一桁多いですね(笑)。どういう巡回すると過不足なく取れるかはすごく興味ある分野です [http://twitter.com/gkojax/status/149096366969335810]
  • mofigan: @gkojax えとポストを過不足なく全てとることはあきらめてて^^; ID収集とIDの方向性把握に主眼を置いてます。個々が歯抜けでも全体として集計すればあまり変わらないだろうという予測と目的が先にあったので個を精密に追いかけるということにこだわっていなかったり。 [http://twitter.com/mofigan/status/149130824112021504]
  • mofigan: @gkojax TumbrowserのUsersページ goo.gl/KsJzZ で一部を公開しているんですが、具体的にはIDの諸情報を貯めつつ最新分だけGETしてIDテーブルを更新し続けるかんじです。なのでgkojaxさんの求めるものとは少し違うかも。 [http://twitter.com/mofigan/status/149132723179630592]
  • mofigan: @gkojax クロール自体はGoogleからppwやsubsを抜きつつ更新頻度や人気を考えながらGETしてconnect枠があいたら低頻度IDをあてるみたいな。クローラ改良の余地はあるのですが、ある時点でお腹いっぱいで改良凍結というのが今の状態です。 [http://twitter.com/mofigan/status/149134414469799936]
  • mofigan: @gkojax 要はちょっとヘタレた実装なんです。つきぬけてないというか。連投失礼しました。 [http://twitter.com/mofigan/status/149134733035581440]
  • gkojax: @mofigan いや、ありがとうございます。低頻度と高頻度を分けるぐらいは僕もやってましたがそれよりももっといろいろ考えているんだなーとか。 [http://twitter.com/gkojax/status/149135173483630592]
  • gkojax: @mofigan 後は「個々が歯抜けでも全体として集計すればあまり変わらないだろう」の部分で、どこまで歯抜けして大丈夫なんだろうってのは今後僕も考えたいところですね。広く浅く取れたらいいので。 [http://twitter.com/gkojax/status/149137367574380544]
  • mofigan: @gkojax うーん。そこはどうなんでしょうね。実際に綿密に取ってみないと比較のしようがないですし「歯抜けしてても大丈夫そう」という判断もできなさそうです。 [http://twitter.com/mofigan/status/149151205879324672]
  • mofigan: @gkojax 自分が暫定にしても「集計すればあまり変わらないだろう」と考えているのは、たんぶらうざ初期に収集IDを増やしても傾向はあまりかわらなかったという経験をベースにして推測しているだけです。がそれは日本人の集合に言えるだけなのかもしれないですねー。 [http://twitter.com/mofigan/status/149152124889075714]
  • gkojax: @mofigan 自分も早い段階で「これくらい取ればだいたい取れた感じするなー」ってところあったんですけど、その後ユーザーも増えてるのでそれとは別の新しい集合ができてるかもなって思う事があります。 [http://twitter.com/gkojax/status/149152621964431363]
  • mofigan: @gkojax 感覚としてはjpは非常に特殊なかたまりです。なので自分の推測は井の中の集計厨の推測でしかないのかもしれない。歯抜けの有無にかかわらず似た結果に収束するか否か?は例えば観測範囲が日本と北米でかなり変わるような気もしますので若干「否」の方に分があるのかなあと。 [http://twitter.com/mofigan/status/149153863012859904]
  • mofigan: @gkojax まあ似たコンテンツを高速に回す人の多い日本とそれ以外の地域ではあきらかにクロールや集計する前提条件も違うと考えるべき……なんだと思いますが実証してないのでこれも推測です。正確なところはわからないです。 [http://twitter.com/mofigan/status/149154993667178496]
  • gkojax: @mofigan なるほどー。僕は日本人を中心に取ってるので固まってる感じしますが、海外含めると確かに結果が変わって来るかも。収束しないなら tumblr.com/explore みたいなディレクトリ分けは有効かもしれませんね。 [http://twitter.com/gkojax/status/149155013816619008]
  • mofigan: @gkojax あ、それは僕もそう思います> exploreのあちらでの有効性 [http://twitter.com/mofigan/status/149155817021636608]
  • gkojax: @mofigan ですねー。収束しない海外は、巡回する側としては余計に大変そうです。 [http://twitter.com/gkojax/status/149156366047641600]
2 notes :
  1. yuruyurau reblogged this from twwp
  2. ina reblogged this from twwp
  3. twwp posted this