Thiết kế và phát triển web sao cho thân thiện với SE

Công cụ tìm kiếm được giới hạn trong cách chúng thu thập dữ liệu web và cách giải thích nội dung trên web. Mỗi người sẽ có những cách nhìn nhận đánh giá một trang web là không giống nhau, nhưng với các công cụ tìm kiếm, nó phụ thuộc vào những yếu tố nhất định. Trong bài viết này, chúng tôi sẽ chỉ tập trung phân tích các khía cạnh kỹ thuật đặc trưng cho việc xây dựng (hoặc sửa đổi) các trang web tối ưu hóa thân thiện với cả người truy cập và SE. Tôi tin chắc những chia sẻ thú vị dưới đây sẽ là nguồn tài liệu hữu ích cho các lập trình viên, kỹ sư công nghệ thông tin, designer trong việc thiết kế và phát triển mộttrang web thân thiện với các công cụ tìm kiếm.

Để được liệt kê trong công cụ tìm kiếm, thì bài viết, nội dung của bạn nên được viết dưới định dạng văn bản HTML. Bởi hình ảnh, các tập tin Flash, Java applet, và những nội dung phi văn bản khác đều bị bỏ qua hoặc bị đánh giá thấp trong mạng lưới tìm kiếm, mặc dù công nghệ thu thập thông tin đã có nhiều tiến bộ. Cách đơn giản nhất để đảm bảo nội dung bạn hiển thị cho khách truy cập có thể xuất hiện trong công cụ tìm kiếm đó chính là đặt chúng trong văn bản HTML trên website. Tuy nhiên, với những người yêu cầu định dạng lớn hơn hoặc muốn hiển thị hình ảnh thì vẫn có những phương pháp tiên tiến hơn để thực hiện:

Hình ảnh dưới định dạng gif, ipg, hoặc png có thể chuyển thành "alt attributes" trong HTML, cung cấp cho các công cụ tìm kiếm những mô tả trực quan về nội dung văn bản.
Bổ sung Box tìm kiếm với các menu và các liên kết thu thập (crawlable links)
Có thể bổ sung Flash hoặc Java plug-in chứa nội dung vào các văn bản trên website.
Video và Audio nên kèm theo lời chú thích với các từ và cụm từ được lập chỉ mục bởi các công cụ tìm kiếm.

Nhìn nhận vấn đề giống như một công cụ tìm kiếm:

Rất nhiều trang web gặp nhiều vấn đề đối với các nội dung lập chỉ mục, do đó, việc kiểm tra là rất cần thiết. Bằng cách sử dụng các công cụ như bộ nhớ cache của Google,~~SEO-browser.com~~ hoặc ~~Mozbar~~, bạn có thể xem trước những nội dung sẽ xuất hiện trong trang web, từ đó có những điều chỉnh thích hợp cho các chỉ mục của các công cụ tìm kiếm. Dưới đây là văn bản bộ nhớ cache Google của trang bạn đang đọc. Bạn thấy chúng khác nhau như thế nào?

Thiết kế và phát triển web sao cho thân thiện với SE

Whoa! Đó là những gì chúng ta nhìn thấy?

Sử dụng tính năng bộ nhớ cache của Google, ta có thể nhận ra, những gì một công cụ tìm kiếm thấy được ở trang ~~JugglingPandas.com~~‘s Homepage không phải là những thông tin đầy đủ, phong phú giống như chúng ta thấy được. Chính điều này đã gây rất nhiều khó khăn cho các công cụ tìm kiếm trong việc giải thích sự liên quan.

Đáng lẽ có rất nhiều khỉ, tại sao chúng ta chỉ thấy dòng chữ tiêu đề?

Hẳn có gì thú vị ở đâu đó?

Uh oh… Thông qua bộ nhớ cache của Google, những gì chúng ta thấy được ở website trên giống như một mảnh đất cằn cỗi hoang sơ. Thậm chí, còn không có văn bản cho biết trang này chứa các Axe Battling Monkeys. Những trang web như trên được xây dựng hoàn toàn trong Flash, và đáng buồn là điều này cũng có nghĩa, các công cụ tìm kiếm không thể tìm thấy bất cứ chỉ mục văn bản nào hay thậm chí là các liên kết đến trò chơi riêng lẻ. Nếu không có bất kì một văn bản HTML nào, website này sẽ có một khoảng thời gian rất khó khăn trong việc xếp hạng các kết quả tìm kiếm.

Đây thực sự là một việc làm khôn ngoan bởi bạn không chỉ có thể kiểm tra nội dung văn bản, mà bạn còn có thể sử dụng các công cụ SEO để kiểm tra rằng các trang mà bạn đang xây dựng đang có những bước tiến khả quan. Tuy nhiên, điều này áp dụng cho các image của bạn, cũng như cho các liên kết mà bạn sẽ thấy ở dưới đây.

Crawler

Trên một trang web, các SE cần được nhìn thấy nội dung để liệt kê các trang quan trọng nhất dựa trên từ khóa được đưa ra cũng như cần đi theo các liên kết để phát hiện ra nội dung. Các SE cần được quyền truy cập vào một cấu trúc liên kết để cho phép các spider kiểm duyệt các đường đi của website - bằng cách này, spider có thể có thể tìm được tất cả các web page trên cùng 1 site. Có hàng trăm, hàng nghìn trang web mắc sai lầm quan trọng khi giấu hoặc chuyển hướng các liên kết nội bộ bằng những cách khiến spider không thể truy cập và thu thập dữ liệu, và do đó ảnh hưởng tới khả năng các trang được liệt kê trong chỉ số của công cụ tìm kiếm. Dưới đây là một ví dụ:

Trong ví dụ trên, bạn sẽ thấy Google spider đang index nội dung của trang A và thấy ở đây, trang A có liên kết nội bộ đến trang B và E. Tuy nhiên, mặc dù trang C và D có thể quan trọng trên site nhưng spider không thể tiếp cận được bằng bất cứ cách nào (thậm chí biết rằng trang C và D có tồn tại) vì các trang đó không có một liên kết trực tiếp nào trỏ đến nó. Theo như Google, thì có thể trang đó không tồn tại nội dung quan trọng, có chứa các từ khóa quan trọng, và nếu điều hướng tốt sẽ giúp cho các spider không nhận thấy bất kỳ sự khác biệt nào trên các web page trong site của bạn, giúp nó có thể thu thập dữ liệu tốt hơn.

Trong ví dụ minh họa ở trên, thẻ ở mục Start of link tag cho thấy việc bắt đầu của một liên kết. Thẻ liên kết có thể chứa hình ảnh, văn bản, hoặc một hình thức nào đó, Tất cả những điều này có thể giúp người dùng click vào bất cứ điểm nào trên trang web để liên kết đến một trang khác. Đây chính là yếu tố định hướng ban đầucủa internet "Siêu liên kết" (Hyper link). Tiếp theo đó phần link referral location cho biết vị trí xuất hiện liên kết các điểm, trong ví dụ này, ~~http://www.jonwye.com~~ là một URl được tham chiếu. Tiếp theo đó, là một phần của liên kết mà người truy cập có thể nhìn thấy được- "anchor text" , miêu tả trang web mà liên kết dẫn tới.Trang web ở đây giới thiệu sản phẩm dây thắt lưng của Jon Wye từ Washington DC, vì vậy tôi đã sử dụng đoạn anchor text "Các mẫu thắt lưng được thiết kế theo phong cách của Jon Wye". Tag đóng liên kết, do vậy bất kể phần tử nào trong trang đều không có thuộc tính liên kết.

Đây là định dạng cơ bản nhất của một liên kết mà các SE có thể dễ dàng hiểu được. Các spider nhân thất nên thêm vào trên biểu đồ liên kết của trang web loại link này, để thông qua đó tính toán các truy vấn các biến độc lập (như PR của Google), và theo đó khảo sát nội dung của trang tham chiếu.

Một vài lý do khiến cho trang web không thể được lập chỉ mục:

Liên kết thông qua các form yêu cầu

Nếu bạn yêu cầu người dùng hoàn thành một form online trước khi truy cập vào một nội dung nhất định, tuy nhiên điều này rất có thể sẽ khiến các SE gặp khó khăn trong việc tìm thấy các page này. Các form yêu cầu có thể bao gồm các yêu tố cơ bản như một mật khẩu đăng nhập hay một biểu mẫu khá phức tạp. Trong cả hai trường hợp, Google Spider sẽ không cố gắng tìm kiếm và lập chỉ mục, bởi có một số nội dung hay liên kết được truy cập thông qua một form bị vô hình với bộ máy tìm kiếm.

Liên kết đặt trong Un-Parseable Javascript

Liên kết được xây dựng bằng cách sử dụng Javascript sẽ khiến cho các SE gặp khó khăn trong việc thu thập hay khảo sát các liên kết được nhúng trong đó. Thay vì sử dụng Javacript làm liên kết, Google khuyến khích nên dùng các liên kết HTML tiêu chuẩn trên trang web để giúp quá trình thu thập của các Spider trở nên dễ dàng hơn.

Liên kết trỏ đến các trang bị chặn bởi Robots Meta tag hoặc Robots.txt.

Các thẻ Meta Robots và file Robots.txt cho phép các chủ sở hữu trang web có thể hạn chế Spider truy cập đến một trang nào đó. Nhiều webmaster vô tình áp dụng các chỉ thị này như cách để chặn đứng truy cập bởi các rouge bot (chương trình giả mạo) , và sau đó phát hiện SE đã ngừng thu thập dữ liệu trên web của họ.

Liên kết trong các Frames hoặc I-Frames.

Về mặt kỹ thuật, liên kết trong cả Frames và I-Frames đều có thể thu thập dữ liệu. Tuy nheien cả hai cấu trúc hiện nay vẫn còn khá nhiều vẫn đề khiến cho bộ máy tìm kiếm gặp khó khăn khi thu thập dữ liệu. Chỉ một số ít quản trị web chuyên nghiệp, có hiểu biết kỹ thuật tốt mới có thể giúp các SE dễ dàng index và follow các liên kết trong Frames. Vì vậy, không nên sử dụng Frames hoặc I-Frames để kết nối với các liên kết nội bộ.

Robot không sử dụng các hình thức tìm kiếm

Mặc dù điều này liên quan trực tiếp đến cảnh báo về form ở trên, đó là một vấn đề khá phổ biến thường xuyên được nhắc đến. Nhiều webmaster cho rằng đặt một box tìm kiếm trên web của họ, các SE sẽ giúp người truy cập tìm thấy mọi thứ họ muốn. Nhưng thật không may, các Spider sẽ không cố gắng để thực hiện việc tìm nội dung và do đó, sẽ có hàng nghìn trang được ẩn sau hộp thoại tìm kiếm nội bộ mà nó không thể tiếp cận.

Liên kết trong Flash, java hoặc các Plug-in.

Các liên kết được nhúng trong trang web panda (trong ví dụ trên) là một minh họa hoàn chỉnh cho hiện tượng này. Mặc dù, có hàng chục thuật toán panda được liệt kê và liên kết trên trang panda, nhưng không có một Spider nào có thể tiếp cận được với chúng thông qua cấu trúc liên kết của site, điều này khiến các liên kết trên trở nên vô hình với các SE (và cũng không thể phục hồi được bởi việc thực hiện một truy vấn tìm kiếm).

Liên kết trong trang có hàng trăm, hàng nghìn liên kết.

Các SE đều chỉ thu thập dữ liệu từ một số lượng nhất định các liên kết. Sự giới hạn này cần thiết phải linh hoạt hơn nữa nhằm hạn chế phần nhiều spam và duy trì thứ hạng. Trong thực tế, Nguy cơ không nhận được liên kết thu thập và lập chỉ mục sẽ xảy ra với những trang có khoảng 100 liên kết trên chúng.

Rel = "nofollow" có thể được sử dụng với cú pháp sau:

Lousy Punks </ a>!

Liên kết có thể có các thuộc tính bổ sung để các công cụ bỏ qua gần hết chúng, với ngoại lệ quan trọng của thẻ rel = "nofollow" tag. Trong ví dụ trên, bằng cách đặt các thuộc tính Rel=nofollow vào thẻ, sẽ cho SE biết rằng không nên đi theo các liên kết trên web của bạn hoặc không nên đưa danh tiếng web của bạn đến những web được liên kết tới.

Nofollow hiểu theo nghĩa thông thường, đó là thông báo cho các công cụ tìm kiếm không nên đi theo một liên kết nhất định. Thẻ nofollow giúp ngăn chặn các comment tự động trên blog, guestbook, các spam có nhúng link, nhưng đã biến thể từ cách thông tin cho máy tìm kiếm giảm bớt giá trị liên dưới mức thông thường. Mỗi công cụ có cách giải thích các liên kết được gắn với thẻ nofollow khác nhau, nhưng chất lượng của các liên kết nofollow không bằng các liên kết follow.

Các liên kết Nofollow là không tốt?

Mặc dù, về giá trị, các liên kết nofollow không thể ngang bằng loại liên kết hàng xóm "follow", nhưng chúng là một phần tự nhiên của một hồ sơ liên kết đa dạng. Một trang web với rất nhiều inboun link (những link đến web của bạn) sẽ tích lũy rất nhiều liên kết nofollow, và bạn đừng nghĩ điều này là không tốt. Trong thực tế, Ranking Factors của Seomoz chỉ ra rằng đa phần các trang web có thứ hạng cao đều có tỷ lệ phần trăm các inbound nofollow link nhiều hơn các web thứ hạng thấp hơn.

Google

Chúng tôi không đi theo các liên kết đó. Điều này có nghĩa là Google không chuyển PageRank hoặc chuỗi ký tự liên kết qua những liên kết này. Về cơ bản, việc sử dụng nofollow khiến khúng tôi phải loại các liên kết đích khỏi đồ thị trang web tổng thể của chúng tôi. Các liên kết nofollow không có chất lượng và chỉ có hiểu được ở dạng HTML (như thể các liên kết đó không tồn tại). Vậy nên, thậm chí chỉ một liên kết nofollow từ một trang web có độ uy tín cao, như Wikipedia cũng khiến các webmaster tin tưởng rằng đó có thể là một tín hiệu rất khả quan.

Bing và Yahoo!

Bing và Yahoo cũng tuyên bố rằng trong đồ thị liên kết của trang web không chứa các liên kết nofollo. Trước đây, các trình thu thập thông tin của Bing và Yahoo được phép sử dụng các liên kết này để phát hiện thêm các trang mới. Tuy nhiên họ lại không coi chúng như một yếu tố tác động tích cực đến bảng xếp hạng.

Mục tiêu và cách sử dụng từ khóa:

Từ khóa là cơ sở cho quá trình tìm kiếm, chúng là những "viên gạch" xây dựng nên ngôn ngữ và tìm kiếm. Trong thực tế, toàn bộ các cơ sở khoa học cho truy vấn thông tin (bao gồm cả công cụ tìm kiếm dựa trên web như Google) đều dựa vào từ khóa. Các công cụ tìm kiếm thu thập dữ liệu và nội dung chỉ mục trên khắp các website và chúng theo dõi các trang web theo chỉ số dựa trên các từ khóa. Vì vậy, thay vì lưu trữ toàn bộ 25 ty trang web trong một cơ sở dữ liệu, các công cụ lưu trữ hàng triệu hàng triệu các dữ liệu nhỏ hơn, mỗi dữ liệu đó tập trung trên một thuật ngữ hoặc một cụm từ khóa cụ thể. Điều này giúp các công cụ tăng tốc độ lấy dữ liệu lên rất nhiều, có thể chỉ cần chưa tới một giây.

Rõ ràng, nếu bạn muốn website của mình có cơ hội được xếp hạng trong top của bảng xếp hạng tìm kiếm với từ khóa "dog", hãy đảm bảo rằng từ "dog" là một phần trong nội dung có thể lập chỉ mục tài liệu.

Ưu thế từ khóa (Keyword Domination):

Keyword Domination có mục đích và trong việc tìm kiếm tương tác với các công cụ tìm kiếm, chẳng hạn một mô hình truy vấn tìm kiếm phổ biến có thể đi theo cách này:

Khi việc tìm kiếm được thực hiện, công cụ tìm kiếm sẽ tìm đến website dựa trên những từ đã được nhập vào box tìm kiếm. Các dữ liệu khác, ví dụ như vị trí của từ (tanks shooting vs shooting tanks), chính tả, chấm câu, hay các từ khóa được viết hoa chữ cái đầu sẽ cung cấp thêm nhiều thông tin bổ sung giúp bộ máy tìm thấy chính xác các trang và xếp hạng chúng.

Các SE cân nhắc, dự liệu các cách keyword được dùng trên các trang, hỗ trợ việc xác định tính "liên quan" của một tài liệu cụ thể cho một truy vấn giúp hoàn thành quá trình tìm kiếm. Quan trọng nhất trong những cách "tối ưu hóa" các xếp hạng trên trang, tiêu đề trang, văn bản và các dữ liệu meta tốt hơn là nên sử dụng các thuật ngữ từ khóa nổi bật.

Nên nhớ rằng, các từ khóa của bạn càng cụ thể đến đâu, thì việc xếp hạng càng dễ dàng hơn, sự cạnh tranh trở nên thấp hơn. Minh họa bên trái chỉ ra sự phù hợp của một tiêu đề cụ thể với những thuật ngữ từ khóa rõ ràng, Tale of two cities. Chú ý rằng, một thuật ngữ rộng (broad term) bao giờ cũng nhận được khá nhiều các kết quả, nhưng con số các kết quả thực dụng trả về không nhiều.

Lạm dụng từ khóa:

Kể từ khi bắt đầu thời đại của tìm kiếm online, con người đã sai lầm lạm dụng các từ khóa để điều khiển các SE như việc cố gắng nhồi các từ khóa vào văn bản, thẻ URL, thẻ meta hay liên kết. Thật không may, chiến thuật này có thể gây nguy hiểm không nhỏ cho trang web của bạn.

Thời gian đầu, SE chỉ dựa vào mật độ sử dụng từ khóa để dánh giá tính liên quan của từ khóa được sử dụng. Ngày nay, với việc sử dụng máy học (machine learning), các SE có thể tiếp cận gần hơn với nội dung của văn bản.

Cách tốt nhất là sử dụng các từ khóa một cách tự nhiên và có chiến lược. Bạn có thể đưa vào các thông tin về tháp Eiffel, lịch sử của nó hay thậm chí là giới thiệu về các khách sạn ở Pari cho từ khóa mà trang web bạn đang nhắm tới "tháp Eiffel". Hay chỉ là dùng từ khóa đó và gắn nó với những trang thông tin chẳng hề liên quan như trang về gây giống chó, và bạn sẽ thấy sau đó là một cuộc chiến khó khăn dài lâu cho việc xếp hạng từ khóa "tháp Eiffel".

Mật độ từ khóa:

Mật độ từ khóa - một huyền thoại hoàn chỉnh như môt thành phần thuật toán xếp hạng hiện đại, được giải thích đầy đủ trong bài viết "

Nếu hai tài liệu, D1 và D2 bao gồm 1000 thuật ngữ (l=1000), một thuật ngữ được lặp lại 20 lần (tf=20). Phân tích mật độ từ khóa sẽ cho thấy, ở cả 2 tài liệu mật độ từ khóa (KD) = 20/1000 = 0,020 (2%) cho thuật ngữ đó. Khi tf=10, và l=500, chúng ta sẽ nhận được các giá trị như nhau. Rõ ràng một phân tích mật độ từ khóa không thiết lập các nội dung liên quan nhiều hơn đến tài liệu. Vậy, chúng ta biết được điều gì thông qua phân tích đó:

Khoảngcách tương ứng giữa các từ khóa trong văn bản (proximity)
Các điều khoản xảy ra tại một nơi trong một tài liệu (distribution)
Đồng trích dẫn giữa các thuật ngữ (co-occurance)
Đề tài chính, chủ đề và chủ đề phụ ( các vấn đề liên quan đến chủ đề) của văn bản.

Đừng nghĩ cứ nhồi nhét thật nhiều từ khóa vào mỗi bài viết là tốt, mà cần có sự lồng ghép từ khóa vào nội dung bài viết một cách tự nhiên với mật độ hợp lý mới là sự thành công trong việc tối ưu hóa trang web của bạn.

Tối ưu hóa trang web

Sử dụng từ khóa và mục tiêu từ khóa vẫn luôn là một phần quan trọng trong các thuật toán xếp hạng của các SE, và chúng tôi có thể tận dụng những "thực nghiệm tốt nhất" một cách hiệu quả trong sử dụng từ khóa để tạo ra các trang web gần đạt được "tối ưu". Tại Seomoz, chúng tôi đã tham gia rất nhiều các thử nghiệm và nhận được một số lượng lớn các kết quả tìm kiếm cũng như các thay đổi dựa trên chiến thuật sử dụng từ khóa. Bạn nên tuân theo quá trình dưới đây khi làm việc với một trong các trang web của bạn:

Sử dụng từ khóa trong thẻ tiêu đề ít nhất một lần. Tiêu đề trang tốt hơn là nên sử dụng các thuật ngữ từ khóa/cụm từ là từ đầu tiên. (Xem chi tiết trong phần "thẻ tiêu đề")
Đặt từ khóa nổi bật một lần ở gần đầu của trang web
Đối với các văn bản kể cả các văn bản biến thể, sao chép trên trang web, nên đặt từ khóa ít 2-3 lần, lưu ý, đôi khi chúng ta có thể dùng nhiều từ khóa hơn đối với nhưng trang web có nhiều nội dung văn bản. Với việc sử dụng thêm nhiều từ khóa và biến thể sẽ mang lại cho bạn một số giá trị bổ sung (additional value) khác nữa. Tuy nhiên, đừng đưa thêm nhiều các trường hợp của thuật ngữ hay cụm từ, vì điều này có thể tác động không tốt đến thứ hạng của web bạn.
Chèn từ khóa của bạn trong văn bản Alt cho hình ảnh ít nhất 1 lần. Điều này không chỉ giúp tìm kiếm web, mà còn tìm kiếm hình ảnh, hơn thế nữa còn tăng lượng traffic giá trị cho trang web của bạn.
Nên khéo léo chèn vào URL một từ khóa. Quy luật cấu trúc URL và từ khóa được thảo luận sau trong phần này.
Từ khóa nên được nằm đâu đó trong nội dung thẻ mô tả ít nhất một lần. Một lưu ý rằng, SE không đánh giá xếp hạng dựa vào các thẻ meta mô tả. Các thẻ này hiển thị trong kết quả tìm kiếm có tác dụng thu hút người tìm kiếm nhấp chuột vào trang web của bạn.
Nói chung, không nên đặt từ khóa trong liên kết anchor text trên trang gốc trỏ đến các trang web khác trên site của bạn hay các domain khác. (điều này khá phức tạp, xem thêm các bài viết trên blog này)

Thẻ tiêu đề:

Tiêu đề của một trang web chính là yếu tố mô tả ngắn gọn, chính xác nội dung của một trang web, có tính quyết định tới cả kinh nghiệm người sử dụng cũng như SEO.

Bởi thẻ tiêu đề là quan trọng nhất trong tất cả các thẻ và có giá trị cao nhất về tối ưu hóa website, vì vậy việc thực hành để tạo ra một thẻ tiêu đề tốt là nhiệm vụ đơn giản nhất và có hiệu quả nhất.. Các lưu ý dưới đây bao gồm việc làm thế nào để tối ưu hóa thẻ tiêu đề với công cụ tìm kiếm và cho mục đích sử dụng:

Chú ý về độ dài:

SE chỉ hiển thị 65-67 ký tự đầu tiên của một thẻ tiêu đề trong các kết quả tìm kiếm. (và sẽ là dấu "…" để thể hiện rằng thẻ tiêu đề đã được cắt bỏ). Đây là giới hạn chung áp dụng cho kể cả các phương tiện truyền thông và các trang web, do đó hãy tận dụng nó một cách khôn ngoan. Tuy nhiên, nếu bạn đang có ý định sử dụng nhiều từ khóa (hay một cụm từ khóa), và việc dùng chúng trong thẻ tiêu đề là rất cần thiết để xếp hạng, điều này giúp bạn tiến xa hơn nữa.

Đặt từ khóa quan trọng gần phần đầu thẻ tiêu đề:

Từ khóa được đặt càng gần đầu tiên của thẻ tiêu đề thì nó càng giúp ích hơn cho việc xếp hạng và khả năng người dùng sẽ click vào kết quả tìm kiếm nhiều hơn.

Đòn bẩy thương hiệu:

Tại Seomoz, chúng tôi khuyên bạn nên đặt tên thương hiệu ở phần cuối thẻ tiêu đề thay vì ở đầu, điều này giúp tăng nhận thức về thương hiệu, và tạo ra tỷ lệ nhấp chuột cao hơn cho những người yêu thích và cảm thấy quen thuộc với thương hiệu đó. Đôi khi, tên thương hiệu đặt ở vị trí bắt đầu của thẻ tiêu đề, chẳng hạn như ở trang chủ cũng mang lại tác động khá tích cực cho xếp hạng tìm kiếm của trang web.

Xem xét khả năng đọc và tác động cảm xúc:

Thẻ tiêu đề nên được mô tả dễ hiểu. Việc tạo một thẻ tiêu đề hấp dẫn sẽ kéo được nhiều lượt truy cập vào trang web hơn từ kết quả tìm kiếm. Do đó, điều quan trọng là không chỉ cần nghĩ đến tối ưu hóa và sử dụng từ khóa, mà còn phải nghĩ đến trải nghiệm của người dùng. Thẻ tiêu đề là sự tương tác đầu tiên tới những visitor mới khi họ tìm thấy trong kết quả tìm kiếm. Vậy nên, hãy truyền tải những ấn tượng nhất có thể.

"Các thẻ tiêu đề của bất kỳ một trang nào cũng đều xuất hiện ở phía trên cùng của trình duyệt Internet, và thường được coi như là tiêu đề khi nội dung của bạn được chia sẻ thông qua các phương tiện truyền thông xã hội hoặc tái xuất bản".

"Sử dụng các từ khóa trong thẻ tiêu đề có nghĩa là SE sẽ "bôi đậm" những thuật ngữ trong các kết quả tìm kiếm khi truy vấn tìm kiếm với các thuật ngữ của người dùng được thực hiện. Điều nay mang lại khả năng hiển thị lớn hơn và tỷ lệ nhấp chuột cao hơn cho trang web của bạn".

"Việc tạo ra các mô tả, và đặt từ khóa trong thẻ tiêu đề mang lại ảnh hưởng tích cực cho quá trình xếp hạng của SE. Trong một khảo sát định kỳ 6 tháng của các chuyên gia SEO, 94% người tham gia nói rằng thẻ tiêu đề là nơi quan trọng nhất để đặt các từ khóa giúp đạt được thứ hạng cao".

Thẻ Meta

Thẻ Meta được dùng để cung cấp thông tin về nội dung của một trang web từ một địa chỉ proxy. Dưới đây, tôi sẽ liệt kê các thẻ meta cơ bản và các mô tả về cách sử dụng của chúng:

Meta Robots:

Thẻ meta robot được sử dụng để kiểm soát hoạt động tìm kiếm của các spider. Các cách sử dụng robot meta để kiểm soát việc đánh giá một trang web của SE:

Index/noindex thông báo cho SE các trang nên được thu thập và lưu giữ trong chỉ mục của bộ máy để dễ dàng tìm thấy. Nếu bạn sử dụng "noindex", bộ máy tìm kiếm sẽ loại bỏ các trang web. Theo mặc định, SE cho rằng chúng có thể lập chỉ mục hầu hết tất cả các trang, do vậy, sử dụng giá trị "index" là không cần thiết.

Follow/Nofollow thông báo cho SE có thu thập các liên kết trên trang hay không.Nếu bạn chọn "nofollow", bộ máy sẽ bỏ qua các liên kết trên trang nghĩa là bỏ qua phát hiện và xếp hạng cho nó.Tất cả các trang được mặc định thuộc tí "follow". VD:

Noarchive ngăn chặn Google hiển thị liên kết được lưu trong bộ nhớ Cache của trang. Theo mặc định, các bản sao lưu của tất cả các trang web đã được SE index sẽ được bộ máy duy trì, có thể truy cập để tìm kiếm thông qua các liên kết "cached"trong các kết quả tìm kiếm.

Nosnippet thông báo cho SE ngăn chặn hiển thị một đoạn trích mô tả bên cạnh tiêu đề trang và URL trong các kết quả tìm kiếm

Noodp/noydir thông báo cho SE không lấy một đoạn mô tả về một trang từ Open Directory Project (Dmoz) hoặc Directorty Yahoo! để hiển thị các kết quả tìm kiếm.

Thẻ X-Robots HTTP header cũng định hướng hoàn thành những nội dung như trên. Kỹ thuật này đặc biệt tốt cho nội dung nằm trong file không định dạng HTML vd như file hình ảnh.

Thẻ mô tả (Meta description):

Thẻ mô tả, một thuộc tính của HTML, cung cấp giải thích ngắn gọn về nội dung của trang web. SE không sử dụng các từ khóa hoặc cụm từ khóa trong thẻ này để đánh giá xếp hạng, mà sử dụng trong các kết quả tìm kiếm để hiển thị các đoạn xem trước của một trang web nhất định.

Thẻ miêu tả thực hiện chức năng như một bản quảng cáo, thu hút người đọc đến website qua kết quả tìm kiếm và do đó, nó là một phần rất quan trọng của tiếp thị tìm kiếm. Một miêu tả dễ đọc, hấp dẫn sử dụng từ khóa quan trọng (Google bôi đậm các từ khóa tìm kiếm trong phần mô tả) sẽ đem lại tỉ lệ click rất cao tới trang web.

Thẻ miêu tả có thể có độ dài tùy ý, nhưng SE thường cắt đi đoạn dài hơn 160 ký tự. Vì thế, tốt nhất nên để độ dài vào khoảng 150-160 ký tự.

Trong trường hợp không có mô tả, SE sẽ tạo ra các đoạn mã tìm kiếm dựa vào môt số yếu tố khác của trang. Đối với các trang nhắm tới nhiều từ khóa và topic, thì đây là một chiến thuật hoàn toàn hợp lý.

Các thẻ meta không còn quan trọng:

Meta keyword

Meta keyword không còn là yếu tố quan trọng trong tối ưu hóa. (đọc thẻ meta keyword 101 của SearchEngineLand để biết thêm quá trình và các lý do khiến thẻ này không còn quan trọng).

Các loại thẻ meta refresh, meta revisit-after, meta content, vv

Mặc dù những thẻ này có thể được dùng cho tối ưu hóa, tuy nhiên chúng ít quan trọng đối với quá trình này. Đọc Meta Tags trong Google’s Webmaster Tools Help để biết chi tiết.

Cấu trúc URL:

URL, viết tắt của Uniform Resource Locator, là địa chỉ web cho một tài liệu cụ thể, có giá trị khá quan trọng trong lĩnh vực tìm kiếm, chúng xuất hiện ở những vị trí quan trọng.

SE hiển thị các URL trong các kết quả tìm kiếm, cho phép click qua và nhìn thấy chúng. URL cũng được sử dụng trong việc xếp hạng văn bản, và việc sử dụng đúng mô tả và từ khóa sẽ mang lại nhiều lợi ích các trang web có xuất hiện các thuật ngữ truy vấn tìm kiếm.

Các URL xuất hiện trên thanh công cụ địa chỉ của trình duyệt web, điều này có tác động ít đến SE, các cấu trúc và thiết kế URL nghèo nàn trong trải nghiệm tiêu cực của người sử dụng.

URL trên được sử dụng như một liên kết anchor text trỏ tới trang tham khảo trong phần post ở blog này.

Hướng dẫn xây dựng URL:

Thấu hiểu tâm lý người dùng:

Đặt mình vào vì trí của người dùng và xem xét địa chỉ URL của bạn. Nếu bạn có thể dự đoán một cách dễ dàng và chính xác nội dung mà bạn mong muốn thấy trên website , từ đó có cách mô tả thích hợp cho URL của bạn. Bạn không cần giải thích rõ ràng từng chi tiết trong URL, Có một ý tưởng đại khái thôi đã là một khởi đầu khá tốt đẹp.

Độ dài thích hợp: URL của web phải ngắn gọn.

URL mô tả rất quan trọng. Việc giảm thiểu độ dài và các dấu gạch chéo sẽ giúp cho URL của bản có thể được sao chép và dán dễ dàng hơn (vào email, bài viết blog, tin nhắn văn bản, v.v…), cũng như được hiển thị hoàn toàn trong các kết quả tìm kiếm.

Việc sử dụng từ khóa là rất quan trọng và cần thiết (nhưng sử dụng quá mức sẽ rất nguy hiểm)

Nếu trang của bạn nhắm đến một thuật ngữ hay một cụm từ cụ thể nào đó, hãy chắc chắn thuật ngữ hay cụm từ đó đã được sử dụng trong URL. Tuy nhiên, đừng quá lạm dụng trong việc cố gắng sử dụng càng nhiều từ khóa càng tốt cho mục đích SEO. Hành động này sẽ chỉ khiến cho việc sử dụng URL của bạn bị giảm và URL có thể bị chuyển đến bộ lọc rác.

Chuyển URL động thành URL tĩnh:

Các URL tốt nhất là các URL dễ đọc, dễ hiểu mà không có nhiều các thông số, chữ số và kí hiệu. Sử dụng các công nghệ như mod_rewrite cho Apache và ISAPI_review cho Microsoft, bạn có thể dễ dàng chuyển đối các URL động thế này: idichvuseo.com/blog?id=123 sang một phiên bản tĩnh có thể dễ dàng đọc hiểu như sau:http://www.idichvuseo.com/dich-vu-seo.html. Khi gặp Các thông số trong một URL động, SE sẽ gặp đôi chút khó khăn trong quá trình đọc và hiểu URL đang mô tả điều gì. Điều này sẽ làm Spider tốn thời gian để thu thập dữ liệu.

Sử dụng các dấu gạch ngang để phân cách các từ:

Không phải tất cả các ứng dụng web đều có thể nhận biết các dấu hiệu phân cách như dấu gạch dưới "_", dấu cộng "+", hoặc dấu cách"%20", do đó, hãy sử dụng dấu gạch ngang "-" như một yếu tố để phân cách các từ trong URL của bạn, chẳng hạn như ở ví dụ trên: google-fresh-factor.

Canonical và Nội dung trùng lặp:

Nội dung trùng lặp là một trong những vấn đề gây nhiều tranh cãi và rắc rối nhất mà bất cứ trang web nào cũng có thể phải đối mặt. Trong vài năm qua, Google đã nghiêm khắc hạ thấp thứ hạng hoăc phạt tiền đối với trường hợp các trang web có những nội dung trùng lặp và kém chất lượng.

Canonicalization (quá trình chọn lọc giữa các liên kết) xảy ra khi hai hoặc nhiều bản sao của một website xuất hiện trên các URL khác nhau. Với các hệ thống quản lý nội dung hiện nay, điều này đang rất phổ biến. Ví dụ, bạn cung cấp cùng một nội dung cho một phiên bản thường xuyên của một trang và một phiên bản "print optimized". Thậm chí, sự trùng lặp nội dung còn có thể xuât hiện trên nhiều trạng web khác. Đối với các công cụ tìm kiếm, thì điều này thật sự nên tránh, vì máy tìm kiếm không biết nên lựa chọn nội dung nào là phiên bản gốc để hiển thị cho người dùng? Theo các chuyên gia thì đây chính là vấn đề của sự trùng lặp nội dung.

Máy tìm kiếm không thích các web bị trùng lặp phiên bản, nội dung hay bài viết. Nhằm hướng đến người dùng, các công cụ tìm kiếm hiếm khi hiển thị phần lớn các nội dung trùng lặp và do đó, chúng buộc phải lựa chọn phiên bản nào có nhiều khả năng là bản gốc nhất. Và kết quả cuối cùng là TẤT CẢ các nội dung trùng lặp của bạn đều bị xếp hạng thấp hơn thứ hạng thực chất của chúng.

Canonicalization thường đề cập đến nội dung của khối nội dung bên trong, mà nội dung đó chỉ nên có duy nhất tại một địa chỉ URL mà thôi. Nếu trang web của bạn có chưa nhiều những phiên bản nội dung (hay nhiều website), bạn có thể sẽ phải kết thúc với kịch bản như hình ảnh bên phải. Đâu mới là viên kim cương thật?

Thay vào đó, nếu trang web của bạn có 3 liên kết khác , và bạn sử dụng chuyển hướng 301, SE sẽ chỉ tìm ra một trang mạnh nhất từ trang đó để hiển thị trong danh sách.

"Khi các trang với nhiều khả năng được xếp hạng tốt được kết hợp thành một trang duy nhất, chúng không còn cạnh tranh với nhau, mà tạo ra một sự liên quan mạnh mẽ và tín hiệu phổ biến tổng thế. Điều này sẽ tác động tích cực đến khả năng được xếp hạng tốt trong công cụ tìm kiếm".

Một tùy chọn khác để đối phó với nội dung trùng lặp là sử dụng rel=canonical tag. Cách này cũng có thể được sử dụng trên các trang web khác nhau, từ một URL trên một domain này tới một URL khác trên domain khác.

Sử dụng canonical tag trong trang có chứa nội dung trùng lặp. Mục tiêu của thẻ này là giúp chỉ ra URL chủ mà bạn muốn xếp hạng.

Thẻ này thông báo cho Google rằng trang đã đưa nhất định phải được xem là bản sao của www.idichvuseo.com/dich-vu-seo và tất cả các liên kết, các số liệu nội dung mà SE áp dụng phải được công nhận cho URL kia.

Thuộc tính Canonical URL tag tương tự như cách để chuyển hướng từ một khía cạnh nào đó . Về bản chất, bạn đang nói với các công cụ tìm kiếm rằng nhiều trang nên được xem xét như là một trang (Như 301 đã làm) mà không thực sự chuyển hướng khách truy cập đến một URL mới.

Để biết thêm về các thể loại nội dung trùng lặp khác nhau, mời các bạn tham khảo bài thêm bài viết của tiến sĩ Pete.

Rich Snippets:

Đã bao giờ bạn thấy một kết quả tìm kiếm được đánh giá 5 sao? Rất có thể, các công cụ tìm kiếm đã nhận được nhiều thông tin hữu ích từ các Rich Snippet được nhúng trên trang web. Rich Snippet là mộtloại dữ liệucó cấu trúc cho phép các Webmaster đánh dấu nội dung để có thể cung cấp các nội dung đó cho các công cụ tìm kiếm.

Trong khi việc sử dụng Rich Snippets và các dữ liệu có cấu trúc không phải là yếu tố cần thiết với các công cụ tìm kiếm thân thiện thì việc sử dụng và phát triển chúng sẽ tạo ra rất nhiều lợi thế.

Structured data (cấu trúc dữ liệu) là việc đưa ra thêm đánh dấu nội dung để giúp các công cụ tìm kiếm có thể dễ dàng xác định loại của nội dung dó. Schema.org đã cung cấp khá nhiều ví dụ về các lợi ích mà chúng ta có thể nhận được từ việc đánh dấu cấu trúc dữ liệu. Bao gồm về con người, sản phẩm, đánh giá, doanh nghiệp, công thức nấu ăn và sự kiện.

Thông thường, các công cụ tìm kiếm đều bao gồm các Structure Data trong kết quả tìm kiếm, chẳng hạn như ý kiến đánh giá của người dùng (stars) hay hồ sơ tác giả (pictures). Hiện nay, có rất nhiều tài liệu, tài nguyên trực tuyến hữu ích mà ở đó bạn có thể tìm hiểu thêm về Rich Snippets, có thể kể đến như thông tin tại trang Schema.org và Google's ~~Rich Snippet Testing Tool~~.

Rich Snippets trong The Wild

Khi bạn muốn thông báo về Hội thảo SEO trên Blog, theo HTML thông thường, mã của bạn có thể như sau:

SEO Conference

Learn about SEO from experts in the field.

Event date:

May 8, 7:30pm

Tuy nhiên, hiện nay, bằng cách cơ cấu lại dữ liệu, chúng ta có thể cung cấp cho các công cụ tìm kiếm những thông tin cụ thể hơn về loại dữ liệu. Kết quả cuối cùng sẽ như sau:

itemscope itemtype = "http://schema.org/Event"

itemprop = "Tên"

> SEO Hội nghị </ div>

itemprop = "description"

> Tìm hiểu về SEO từ các chuyên gia trong lĩnh vực này. </ span> Sự kiện:ngày 08 tháng 5, 7:30 pm</ time></ div>

Bảo vệ uy tín trang web của bạn:

Làm thế nào mà các Scraper có thể "ăn cắp" thứ hạng của bạn?

Đáng buồn thay, hiện nay đang đầy rẫy hàng trăm nghìn (nếu không muốn nói là hàng triệu) các trang web kém chất lượng, hoạt động theo cách vô đạo đức, lưu lượng dữ liệu phụ thuộc vào việc lấy nội dung về lĩnh vực của họ từ các trang web khác và tái sử dụng lại chúng (đôi khi sửa đổi theo những cách rất lạ lùng). Việc "ăn cắp" nội dung và tái sử dụng lại chúng như trên được gọi là "scraping", và các scraper đã thu thập được đáng kể các lợi ích bằng cách nâng cấp những nội dung đã kiếm được thành của họ và hiển thị quảng cáo (trớ trêu thay, thông thường lại là Google's own AdSense program).

Khi bạn xuất nội dung theo bất kì dạng nào sau đây – RSS/ SML/ etc – hãy đảm bảo rằng bạn đã ping các dịch vụ chính như Bloging hay tracking (như Google, Technorati, Yahoo!, v.v…). Để tự động hóa quá trình, bạn có thể tìm các hướng dẫn để ping các dịch vụ như Google và Technorati trực tiếp từ Website của họ hoặc sử dụng một dịch vụ như pingomatic. Nếu phần mềm xuất bản (publishing software) của bạn là custom-built (tùy chỉnh), nó sẽ tự động ping trên publishing.

Tiếp theo, bạn có thể lợi dụng sự lười biếng của các scaper để chống lại chính họ. Hầu hết các scarper sẽ tái sử dụng lại nội dụng lấy được mà không qua bất kì sự chỉnh sửa nào, và do đó, bằng cách bao gồm thêm các liên kết trở lại trang của bạn, cùng đó là bài viết mà chính bạn là tác giả, có thể chắc chắn rằng, các công cụ tìm kiếm sẽ thấy hầu hết các bản sao liên kết đều trở lại với bạn (chỉ ra rằng bài viết của bạn chính là bản gốc). Để làm được điều này, bạn cần phải sử dụng các liên kết tuyệt đối, hay đúng hơn là các liên kết tương đối trong cấu trúc liên kết nội bộ của bạn. Do đó, thay vì sử dụng:

Bạn sẽ sử dụng:

Trang chủ </ a>

Bằng cách này, khi một scraper chọn và sao chép nội dung của bạn, liên kết sẽ dẫn đến trang của bạn.

Có nhiều các cách nâng cao hơn để bảo vệ và chống lại việc Scraping, nhưng không một cách nào trong số đó là hoàn toàn rõ ràng và hiệu quả. Bạn cũng nên kì vọng rằng, tần suất nội dung của bạn bị lấy và tái sử dụng càng cao cũng đồng nghĩa với việc, trang web của bạn đang ngày càng trở nên phổ biến hơn. Vấn đề này, bạn có thể bỏ qua trong một vài lần, nhưng nếu mọi việc trở nên tồi tệ hơn, khi mà các scraper làm ảnh hưởng tới xếp hạng tìm kiếm và lưu lượng truy cập của bạn, hãy cân nhắc tới việc sử dụng một quy trình hợp pháp gọi là DMCA takedown.

Theo Idichvuseo