블로그스팟 근황보고 (11/22~11/30)

* 이전까지의 블로그스팟 활동 내역

11/14 : 빙 검색엔진 손절.
11/15 : 얀덱스 웹마스터 도구에 등록.
11/19 : robots.txt 수정.



* 11/22

드디어 얀덱스 웹마스터 도구에 사이트맵이 정식으로 등록되었다.



저번에 서치콘솔에서 실시했던 '찾을 수 없음(404)'의 유효성 검사 결과가 나왔다.
그런데 여전히 수정이 필요한 페이지가 있다고 한다. 그 페이지는 이 블로그스팟 주소에 /default를 붙인 URL이었다.
저런 URL은 예전이나 지금이나 존재하지 않는데, 대체 검색 봇은 뭘 하고 있는 건가? 아무튼 해당 페이지는 없는 주소니까 '오래된 페이지 삭제' 기능을 통해 제거하기로 한다.


색인 개수는 96개로 여전히 변하지 않았다. 
빌어먹을... 이러다가 11월은 단 한 개의 게시물도 추가 색인을 못 하게 생겼다.



* 11/23

나는 서치콘솔의 크롤링 통계를 유심히 들여다보았다.
내 블로그에 왔다가는 구글 쪽 봇은 총 3가지였다. AdsBot, 데스크탑, 스마트폰...
AdsBot은 구글 애드센스 쪽에서 오는 봇이라서 검색 색인 및 노출과는 관련이 없어보인다. 그렇다면 데스크탑 봇과 스마트폰 봇... 이 두 녀석에게 문제가 있는 건가.


클릭 수 150회 달성을 축하하는 메일이 왔다.
알았으니까 제발 색인 좀 해달라고!!! 크롤링만 하지 말고...



* 11/24

특별한 일 없음.



* 11/25

오늘도 아무런 변화가 없는 서치콘솔을 보았다. 사이트맵이나 RSS 둘 다 여전히 읽히지 않고 있다.
그런데 좀 이상하다. 사이트맵의 제출일이... 왜 내일로 표시되고 있는 거지?
참으로 미스터리한 일이다. 돌이켜보니 11월에는 서치콘솔에서 참 괴상한 일들만 벌어졌다. 11월 1일(미 태평양 표준시 기준)부터 색인을 요청하면 크롤링만 될 뿐 색인이 안되고, 유효성 검사를 했더니 존재하지 않는 URL이 튀어나오고, 이제는 미래에서 제출한 사이트맵이라... 블로그스팟이 문제인 건가. 아니면 서치콘솔이 문제인 건가.


서치콘솔의 이상한 행동을 보니, 또 엿같은 빙 놈들이 생각나서 한 번 점검하러 가봤다.
그랬더니... 또 다시 '일부 검색 결과가 삭제되었습니다.'가 나타나고 있었다. 이 빙신 새끼들... 또 시작이다.


혹시나 URL 차단이 풀려서 그런가하고 빙 웹마스터 도구에 재가입을 해봤다. 그랬더니... 차단 URL 항목이 다 사라져있었다.
그래서 이번에는 차단 URL을 등록한 뒤 계정을 방치하기로 하였다. 탈퇴도 마음대로 못 하게 하는 놈들 같으니라고...


조사 중에 adidxbot도 빙 놈들의 검색 봇이라는 걸 알아냈다. 따라서 robots.txt로 차단 조치한다.



* 11/26

서치콘솔이 업데이트 되었다. 여전히 색인 개수는 96개다. 썩을 놈들...


일단 미래에 제출된 사이트맵은 내버려 두면 뭔가 좋지 않을 것 같으니, 삭제 후 다시 제출하기로 한다. 제출하니 '마지막으로 읽은 날짜'가 드디어 갱신되었다. 일단 RSS도 마찬가지로 다시 제출해서 날짜를 갱신해둔다.


블로그스팟의 리퍼러 통계를 보니, 덕덕고가 있는 걸 확인할 수 있었다.
덕덕고는 빙 놈들의 검색엔진을 쓰기 때문에 거기서는 이 블로그스팟이 검색되지 않을텐데... 어떻게 들어온거지?
에잇, 알 게 뭐야.



* 11/27

이제 11월도 나흘 밖에 남지 않았다. 여전히 구글 서치콘솔은 묵묵부답이다.
아무래도... 예전부터 알고만 있었고 해보지는 않은 그 방법을 써야할 지도 모르겠다.
바로 게시물 주소 뒤에 '?m=1' 을 붙여서 색인을 요청하는 것이다. (링크) 이 방법을 쓰면 만병통치제처럼 도저히 검색 색인이 되지 않던 게시물들이 바로 색인된다고 한다.
더빙 애니 창고 카테고리의 49번 게시물부터는 구글에 색인이 되지 않았으니, 시험삼아 해당 게시물의 색인을 요청해보기로 한다.


그리고 3시간 후...
'URL 검사'에서 다시 해당 게시물 주소(?m=1을 붙여서)를 조회해봤더니... 색인이 이루어진 걸 확인할 수 있었다.
...몇 초 동안은 기뻤지만, 금방 허무해졌다.
고작 모바일 페이지를 가리키는 '?m=1'을 붙였더니 바로 색인이 된다고? 이게 말이 되는 소리인가... 
도저히 이해되지 않는다.



아무튼 이 방식이 구글이 트집잡을 만한 꼼수라면, 얼마 안 가 막힐지도 모른다.
그래서 나는 현재 색인되지 않은 모든 게시물 주소를 취합해서, ?m=1을 붙인 채로 API 기능을 통해 크롤링을 요청했다.


3시간 만에 색인 생성에 성공한 게시물은, 약 1시간 정도 더 지나니까 site: 검색 결과에 노출되기 시작했다.
아직 키워드 검색 결과로는 나오지 않지만, 그래도 큰 성과다.


그러나 API 기능을 통해 요청한 주소들은 색인이 이루어지긴 커녕, 아예 인식조차 되지 않았다.
이 정도면 API 기능이 작동을 정지한 게 아닌가 의심이 드는 수준이다. 따라서 나는 'Indexing API'에 대한 정보를 좀 더 찾아보기로 하였다.



정보 검색 중, 별로 도움도 되지 않던 서치콘솔 고객센터의 어느 게시물에서 충격적인 단서를 입수할 수 있었다. (링크)
Indexing API구인 정보 또는 동영상이 포함된 페이지를 크롤링하는 데에만 사용할 수 있다는 것이었다.
그게 정말 사실인지 해당 API의 도움말 페이지를 찾아보았다... 맞다. 정말로 그렇게 적혀있다. (링크)
젠장... 아무래도 API 색인 방식은 단순한 블로그 게시물에겐 전혀 쓸모없는 방식인가 보다. 이제 블로그 게시물을 색인 요청할때는 서치콘솔에서 수동으로 한땀 한땀 눌러주는 것 외에는 답이 없는 건가... 그런데 좀 이상하다. 10월에는 어떻게 색인이 이루어진거지? 그때까지는 구글이 봐주다가 11월 1일 되니까 갑자기 돌변해서 차단한 건가? 워드프레스 쪽에서 구글에 자동으로 색인 요청을 할 때도 이 Indexing API 방식을 쓰는 걸로 알고 있다. 그러면 다른 사람들에겐 이게 계속 효과가 있고 나만, 이 블로그스팟만 차단당했다는 것인가? 대체 뭐 때문에? 에이씨... 나도 이젠 모르겠다...


아무튼 더 이상 API 색인 방식은 쓸 수 없게 되었다. 따라서 내 티스토리 블로그에서 해당 내용을 다룬 글도 전면 수정했다.
수정 후에는... ?m=1을 붙이고 한 땀 한 땀 색인 생성을 요청하기로 한다.


색인 요청 후 대략 3시간이 지나면 색인이 만들어지고, 12시간 이내로 검색 결과에 노출되는 것 같다.
이것만 해도 감지덕지인가...



* 11/28

아침에 일어난 뒤, 어제 색인 요청한 게시물들이 모두 성공적으로 색인되었는지 체크해보았다. 
대부분 색인이 만들어졌는데, 일부 게시물은 '적절한 표준 태그가 포함된 대체 페이지' 라는 소리를 하면서 색인이 이루어지지 않았다.


처음에 나는 ?m=1까지 색인 밴을 당한 줄 알고, 어디선가 주워들었던 ?lr=1 로 색인을 재요청하였다.
그러나 결과는 똑같았다. '적절한 표준 태그가 포함된 대체 페이지' 오류만 내뱉는 것이다.
과연 해당 오류는 무엇을 뜻하는 것일까... 조사해보니, 아무래도 구글 봇이 색인 요청한 페이지를 이미 예전에 크롤링(또는 색인)된 페이지와 동일한 것으로 간주하고, 중복되니까 색인할 필요가 없다고 판정을 내린 것 같다. 그리고 중복이냐 아니냐의 판단 기준은 '사용자 선언 표준 URL'을 보고 결정하는 걸로 추정된다.
그런데 왜 이 페이지만 색인이 거부된 걸까? 무슨 복불복 게임도 아니고... 답답하기만 하다.



나는 답답함을 참지 못하고 서치콘솔에 한풀이를 하기로 했다. 내가 하고 싶은 말을 마구 쓰고, 구글 번역기를 통해 영문으로 바꾼 뒤 의견을 전송했다. 내용은 대충... 

'11월 1일부터 내 블로그스팟의 신규 게시물들이 색인되지 않는다. 벌써 1개월째다. 지친다. 도대체 왜 구글은 나를 괴롭히는 건가? 무시할 거 알지만 억지로 이걸 쓴다. 크롤링 상태에 놓인 내 블로그스팟의 모든 게시물을 신속히 색인해 달라'

...이런 내용이었다.
어차피 구글 놈들이 내 소원을 들어줄 리가 없으니, 의견 전송 후에도 계속해서 대책을 찾아보았다.
'사용자 선언 표준 URL'에 대해 좀 더 조사해보니, 이런 도움말을 확인할 수 있었다. (링크)


해당 도움말에 따르면, '사용자 선언 표준 URL'과 밀접한 관련이 있는 태그는...

<link rel='canonical' href='어쩌구저쩌구'>

...이다. 여기의 href 값이 '사용자 선언 표준 URL'이 된다고 한다.
블로그스팟의 '테마 - HTML 편집'에서 해당 태그를 검색하니...

<link expr:href='data:view.url.canonical' rel='canonical' />

...이러한 태그가 검색되었다. 이론대로라면, expr:href 값을 바꿀 경우 '사용자 선언 표준 URL'도 바꿀 수 있을 것이다.
그래서 나는 시험삼아 expr:href에 ?m=1을 추가해보기로 하였다. 추가하려면 값을 이렇게 바꿔야 한다.

'data:view.url.canonical + &quot;?m=1&quot;'

이렇게 값을 바꾸면 표준 URL에 ?m=1이 붙게 될 것이다.


테스트용 블로그에서 해당 태그를 수정한 뒤, 아무 게시물이나 들어가서 F12 열고 ?m=1을 검색해보았다.
그랬더니 href의 끝에 잘 들어간 걸 확인할 수 있었다. 일단 구현이 가능한 것만 파악하고, 다른 작업을 하기로 한다.


며칠 전에 봤던 크롤링 통계를 다시 확인해본다.
시간 순서대로 살펴보면... 크롤러는 ?m=1이 붙은 페이지에 접속 후 바로 붙지 않은 페이지로 간다.
어쩌면 영구 이전(301)이 아닌 임시 이전(302)이 떠서 문제가 발생한 건가 생각도 해봤는데... 이런 현상은 10월에도 기록이 남아있었다. 그때는 색인이 잘만 됐으니까... 이게 문제는 아닌 것 같다.



아무튼 이것도 하나의 실마리인 것 같아서, '블로그스팟과 구글 봇, 302 리다이렉트'를 주제로 검색을 해봤다. 그리고 또 다시 서치콘솔 고객센터의 어느 게시물을 접하게 되었다. 내가 겪고 있는 문제와 매우 비슷한 사례였다. (링크)
그런데 '제품 전문가'랍시고 답변하는 인간들의 어조가... 매우 불쾌하기 짝이 없었다. 
문제 해결을 위해 이것저것 시도해보는 사람들을 어리석다는 식으로 비아냥대거나, 이 문제를 수정하기 위해 할 수 있는 일은 없다는 내공냠냠식 답변을 하거나, 블로그스팟의 종특이니 문제를 회피하려는 시도는 매우 나쁜 생각이라는 '구글 무오류 사상'식의 답변 밖에 없었다.
질문자는 '블로그스팟 직원이 다른 행성에 살고 있는 것처럼 느껴진다'면서 괴로움을 피력했다. 여기에도 어떤 답변자는 '기본 설정이 적합하고, 기본에서 벗어난 경우에만 올바르지 않게 된다.' 같은 개소리만 지껄여댄다.
이래서 내가 서치콘솔 고객센터든, 유튜브 고객센터든... 구글이 고객센터랍시고 만들어놓은 곳은 전부 쓸모 없다고 생각하는 것이다. 자칭 '제품 전문가'란 것들은 구글 매뉴얼만 들이밀면서 대부분의 문제를 사용자 탓으로 돌린다. 그러니 거기서는 답변보다 질문 내용에만 더 집중해서 보는 게 좋다.


아무튼, 나는 어떤 경우에 색인되고, 어떤 경우에 '적절한 표준 태그가 포함된 대체 페이지' 문제가 뜨는지 계속해서 실험을 진행하였다. 실험 관찰 후 아래와 같은 사실을 도출해낼 수 있었다.

1. '실제 URL 테스트'를 '스마트폰 봇'이 한다고 색인 요청 시 크롤링도 '스마트폰 봇'이 하는 게 아니다. URL 테스트는 거의 100% 확률로 스마트폰 봇이 하지만, 색인 요청 시 크롤링은 '데스크톱 봇'과 '스마트폰 봇' 둘 중 하나가 랜덤으로 긁어간다. 확률적으로는 스마트폰 봇이 조금 더 많이 온다. (?m=1을 붙였을때의 기준. 안 붙이면 100% 데스크톱 봇만 긁어가는 것으로 추정)

2. 이 블로그스팟의 게시물이 색인되고 검색에 노출되려면, 무조건 ?m=1을 붙인 상태로 'Googlebot 스마트폰'이 크롤링을 해야 된다. 만약 데스크톱 봇이 크롤링을 하면 '적절한 표준 태그가 포함된 대체 페이지' 문제가 발생하게 된다.


어제 색인을 요청하고 실패했던 게시물이 드디어 색인되었다. 실패 시에는 데스크톱 봇이 긁어갔는데, 재색인 요청때는 스마트폰 봇이 긁어가서 다행히 색인이 이루어진 것이다. 이것으로 하나의 사실을 더 도출해낼 수 있었다.

3. 데스크톱 봇의 크롤링 때문에 '적절한 표준 태그가 포함된 대체 페이지' 문제가 발생한 페이지도, 스마트폰 봇이 와서 다시 크롤링하면 색인에 성공하게 된다.

그렇다면 크롤링을 할 때, 무조건 스마트폰 봇만 오게 하는 방법은 없을까? 안타깝게도 그런 방법은 찾아볼 수 없었다.
그러면 데스크톱 봇이 왔을때, '이 페이지는 모바일 페이지니까 스마트폰 봇이 오라고 해!' 라는 식으로 돌려보내는 방법... 그런 방식을 취해보는 수밖에 없겠다.


계속 인터넷을 돌아다니다가, 어느 해외 블로그스팟 강의 영상을 보게 되었다. 그런데 그 유튜버는 F12 개발자 도구에서 어떤 신기한 기능을 쓰고 있었다. 무슨 버튼을 누르니 인터넷 창이 스마트폰 화면처럼 바뀌게 되는 것이다. (위 스샷을 참조)
그러나 화면이 스마트폰처럼 바뀐다고 해서, '스마트폰 봇'만 긁으러 오지는 않을 것 같았다. 그래서 아까 위쪽에서 말한 link 태그의 href에 ?m=1을 추가하는 작업도 하였다. 이러면 모바일 페이지가 표준 URL이 되니까 무조건 스마트폰 봇이 긁으러 올 지도 모른다.

현재까지의 색인 실험 기준을 정리해본다.

1. 테마 - HTML 편집에서 link rel='canonical' 태그의 expr:href 값에 ?m=1를 추가하고 저장. (위쪽에 설명 있음)
2. F12 개발자 도구를 통해 '아이폰 12 Pro' 화면 상태에서 서치콘솔에 접속. 게시물 주소에 ?m=1을 붙이고 '실제 URL 테스트 - 색인 생성 요청' 순으로 검색 색인을 요청.



* 11/29

아침에 일어나서 색인 성공 여부를 확인해보았다. 일단 '사용자 선언 표준 URL'은 계획대로 ?m=1이 추가되어 있었다. 이럴 경우 데스크톱 봇이 어떤 반응을 보이는지 확인하고 싶었으나, 스마트폰 봇이 긁어갔기 때문에 확인하지 못했다.


위쪽에 작성한 색인 실험 기준에 맞춰, 약 10개의 게시물에 색인을 요청했다. 그랬더니 한 개의 게시물도 빠지지 않고 모두 한 방에 색인되었다. 이 두 개의 방법이 효과가 있었던 건가? 어쩌면 그냥 운이 좋아서 그랬을 수도 있으니, 좀 더 실험해볼 필요가 있다.


쓰레기 같은 빙 검색엔진이 아직도 '일부 검색 결과가 삭제되었습니다.' 같은 소리를 하고 자빠졌길래, URL 차단 항목을 다 삭제하고 재등록하였다.



* 11/30

색인 실험이 성공을 거두면서, 마침내 96개에서 멈춰있던 색인 개수가 112개로 업데이트 되었다.
'사용자 선언 표준 URL'을 바꿨지만, 네이버·다음의 검색 결과에는 다행히도 아무런 영향이 없는 것 같다. 그래도 12월 초까지는 계속 상황을 지켜봐야 겠다.

그럼 11월의 마지막 날이니까 각 검색엔진 별 통계 기록을 첨부해본다.


구글 서치콘솔 실적 통계.
색인 누락 현상에도 불구하고, 10월에 작성된 게시물들이 계속 검색에 노출되면서 꾸준히 유입이 증가하였다.



네이버 서치어드바이저 통계.
다행히 아직까지는 색인 요청을 잘 받아주고 노출도 잘 되고 있다. 그러나 유입이나 노출량은 다음과 비슷한 수준이다.



네이버 애널리틱스 통계.
눈여겨 볼 항목은 유입 검색엔진 비율인데, 저번 달에 비해 큰 변동이 있었다.
10월 통계에서는 다음 40.74% / 네이버 31.48% / 구글 25.93% / 네이트 1.85%였는데, 
11월 통계에서는 구글 76.94% / 다음 12.47% / 네이버 10.12% / 네이트 0.47%였다.
구글이 검색 유입의 ¾을 차지할 정도로 비중이 커졌고, PC와 모바일 비중은 10월 72:27에서 35:65로 모바일이 크게 앞서나갔다.


다음 웹마스터도구의 검색 노출 통계.
노출 수는 이제 평균적으로 100을 넘기는 것 같다. 그러나 클릭 수는 최대로 많았던 날이 6회 정도로 한 자릿수 신세다.


얀덱스 웹마스터 도구의 크롤링 통계... 
29일이 되어서야 크롤러가 많은 문서를 긁어갔다. 하지만 검색 반영은 아직까지 제대로 이루어지지 않고 있다.
여긴 그냥... 방치해두려고 한다. 어차피 얀덱스를 쓰는 사람도 별로 없으니 말이다.

이번에도 온갖 사진을 첨부해서 그런지 스크롤이 참 길어졌다.
이 글을 저녁 6~7시부터 쓰기 시작했는데, 밤 11시를 넘겨서 겨우 마치게 되었다.
아무튼 이번 달은 갑작스럽게 구글 색인 누락 문제가 발생해서 곤욕을 치르는 등, 참으로 우여곡절이 많은 날들이었다. 12월에는 별 탈 없이 이 블로그스팟이 굴러갔으면 좋겠다.

다음 근황보고는 12월 10일 즈음에 하기로 하겠다.
그럼 이만...

3 댓글


  1. 와우... 선생님 대단하시네요. 저도 오늘 오전 까지 캐노니컬 코드에 ?m=1 붙여보려고, 시도하다 스크립트 에러나서 반포기 중 이었는데 정말 좋은 정보 감사합니다. 근데 어떤분들은 이제 ?m=1 붙여도 안된다고 하던데, 아직 이벙법이 가능한건가요?
    참고로, 저는 현재 색인은 커녕 발견된 페이지조차 사라지는 마법?을 경험 중입니다. 혹시 크롤링 전의 발견된 페이지가 사라지면 어떻게 해야하는지 아시나요? 구글 진짜....ㅜㅜ

    답글삭제
    답글
    1. 방문해주셔서 감사합니다. 지금은 수동 색인도 귀찮아서 하고 있지 않은데, 그래도 알아서 색인이 잘 이루어지고 있습니다.
      다만 색인만 될 뿐, 검색 노출은 거의 안 되는 것 같아요. 글 제목을 통째로 복붙해서 검색하지 않는 이상, 일반 키워드로 검색할 시 노출되는 글을 별로 못 봤습니다.
      색인 개수가 줄어드는 건 저도 그래프에서 목격하기도 했는데, 무엇 때문인지는 모르겠습니다. 그래도 짐작해본다면, '?m=1'이 붙은 URL과 'showcomment' 와 같이 쓸데없는 접미사가 붙은 URL 두 개를 색인했다가, 중복되어서 하나를 지운 게 아닐까 하고 생각합니다.
      발견된 페이지는 크롤링이 되고 색인이 되면서 개수가 줄어드는 건데, 색인은 안되고 줄어들기만 하다니 그건 좀 이상하네요. 다만 저도 그 원인은 모르겠습니다.
      그냥 이 블로그스팟으로 인해 벌어지는 모든 일은, 구조가 괴상해서 어쩔 수 없다고 생각하는 게 편합니다.
      마치 다 헤진 옷을 억지로 기워서 입는 느낌이에요. 블로그스팟은...

      삭제
  2. 답변에 감사드립니다. 선생님 말씀대로 블로그스팟은 정말 원인을 몰라서 답답할지경입니다. 어쨌든 선생님께서 작성하신 글들에서 많은 정보를 얻어갑니다. 다시 한번 감사드립니다.^^

    답글삭제
다음 이전