View Single Post
  #69  
Cũ 14-12-2011, 23:49
hanoi hanoi is offline
Thịt nướng Nga - Шашлык
 
Tham gia: Nov 2009
Bài viết: 451
Cảm ơn: 54
Được cảm ơn 650 lần trong 276 bài đăng
Default

Trích:
Nina viết Xem bài viết
Bạn hanoi ạ, tôi không nghi ngờ bộ số liệu của bạn. Trước hết tôi muốn hỏi - tại sao chúng ta lại có thể nối những điểm trên, và tại sao giả thuyết phân bố Gauss lại áp dụng ở đây. Và bạn có thể giải thích xem cái đường cong ứng với đảng Yabloko là đường gì vậy?
Tôi ko biết chị hiểu cái biểu đồ này như thế nào vì câu hỏi của chị "tại sao chúng ta lại có thể nối những điểm trên" cho thấy chị chưa có đọc kỹ bài của bác Dmitry Nguyễn, bác Ninh và bác ngbinhdi cũng như bài của tôi. Vẽ như thế nào thì tôi đã lấy dữ liệu, vẽ lại rồi đó. Cái hình tôi vẽ là hình do chính tôi tự tay lập trình từ dữ liệu thô rồi plot lại đấy, tôi cũng in ra dữ liệu mà tôi dùng để vẽ cái hình đó ở bài trước đấy, chị thích thì có thể lấy mà vẽ lại.

Về câu hỏi tại sao định luật Gaussian áp dụng ở đây thì tôi khẳng định như thế này (đã khẳng định ở bài trước) là tôi nghi ngờ kết luận này của tác giả, tôi chỉ đặt câu hỏi nghi ngờ lớn nhất ở các điểm răng cưa xuất hiện đồng đều trên hình vẽ mà thôi. NẾu chị ko có ý kiến gì hay phản bác lại các hình răng cưa rất đẹp và đều này thì cứ nói ra cho mọi người học hỏi, chứ chị với tư cách là MOD diễn đàn mà nói chuyện cứ úp úp mở mở tôi thấy rất kỳ cục.

Tôi chủ yếu làm việc với xây dựng mô hình cho dữ liệu, vì vậy tôi khẳng định rằng ko ai có thể nói chắc nịch rằng "dữ liệu này tuân theo hàm phân bổ nọ với xác xuất 100%" trừ khi dữ liệu đó là synthetic do con người tạo ra bằng máy tính thì nó fit 100% với phân bổ định trước. Phần lớn dữ liệu thu thập thực tế rất nhiễu do vậy khi nhìn dạng của đồ thị người ta sẽ dùng trực quan để lựa chọn cho mình những phân bổ chuẩn mặc để rồi dùng các công cụ model fitting của statistics để tìm các parameters của mô hình kể trên. Nhiều loại dữ liệu có hình bell-shape thường được ví với Gaussian hoàn toàn bằng trực quan và vì vậy họ sẽ tìm cách fit dữ liệu đó với Gaussian. Nếu Gaussian ko hoạt động tốt họ có thể dùng các mô hình phức tạp hơn như mixture of Gaussian hoặc thậm chí những mô hình cực kỳ phức tạp với số parameter rất lớn như mạng neutron.

TRong hình vẽ kể trên có 3 đồ thì ko có hình bell-shape đó là những đồ thị của các đảng dành được rất ít số phiếu, nhiều nhất là đảng Yabloko với 3% số phiếu. Nếu được chọn mô hình cho 3 đồ thì này thì tôi sẽ ko dùng Gaussian mà sẽ dùng Pareto distribution . Đây là dạng distribution cũng rất phổ biến tuân theo luật 80/20 khi 20% ngời giàu có lấy đi 80% của cải và ngược lại. Tôi cũng ko hiểu tại sao 3 đảng này lại có distribution khác hẳn với 4 đảng còn lại.
Trả lời kèm theo trích dẫn
Được cảm ơn bởi:
Julia (15-12-2011)