paint-brush
Bạn là loại nhà khoa học nào?từ tác giả@alvations
1,195 lượt đọc
1,195 lượt đọc

Bạn là loại nhà khoa học nào?

từ tác giả Liling Tan8m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Bạn là loại nhà khoa học nào? Là một người viết về công nghệ, tôi thích chia sẻ những công nghệ nổi bật trong học máy và tôi có một điểm đặc biệt về các công nghệ liên quan đến ngôn ngữ và dịch thuật. Để kỷ niệm đề cử, tôi viết bài viết này dưới dạng câu hỏi và câu trả lời “Ask Me Anything”.
featured image - Bạn là loại nhà khoa học nào?
Liling Tan HackerNoon profile picture



Khoa học dữ liệu đã có một chặng đường dài kể từ những ngày đầu của Hội nghị Khám phá tri thức trong Cơ sở dữ liệu (KDD) và Cơ sở dữ liệu rất lớn (VLDB) . Các kỹ sư phần mềm xử lý cơ sở dữ liệu những năm 1980-90 đã phát triển thành các kỹ sư cơ sở dữ liệu chuyên biệt vào những năm 2000 . Trong khi đó túi tiền của các nhà khoa học máy tính trong các phòng thí nghiệm nghiên cứu nhỏ hơn về máy học và trí tuệ nhân tạo . Dữ liệu lớn đáp ứng thuật toán thông minh đã va chạm trong một vụ nổ kỷ Cambri vào những năm 2010 , trở thành “ Nhà khoa học dữ liệu: Công việc gợi cảm nhất thế kỷ 21 ”. Điều đó đưa chúng ta đến một thập kỷ sau, hậu đại dịch 2022, đặt ra câu hỏi, “ Liệu Nhà khoa học dữ liệu có còn là công việc gợi cảm nhất của thế kỷ 21 không? ”.


Tại sao bạn lại viết bài này?


Xin thứ lỗi cho khoảng thời gian ngắn, nhưng bài báo này được viết cùng với Giải thưởng Noonies năm 2022. Giải thưởng Noonie năm 2002 của HackerNoon tôn vinh các nhà văn kỹ thuật chia sẻ những hiểu biết sâu sắc nhất và tốt nhất của họ về tất cả những thứ công nghệ.


Lời giới thiệu chính thức:


Xin chào, tôi là Liling. Ban ngày, tôi là một nhà khoa học ứng dụng ở Amazon và sau giờ làm việc, tôi viết mã nguồn mở và viết các bài báo công nghệ về quy trình ngôn ngữ tự nhiên và đôi khi là các bài báo về văn hóa đại chúng chơi game.


Thật là một niềm vui và vinh dự khi được đề cử trong hạng mục Người đóng góp Hackernoon của năm về Xử lý ngôn ngữ tự nhiên (NLP) và nếu bạn thích nội dung NLP hoặc Dịch máy mà tôi đã chia sẻ, hãy giúp nhấn nút bỏ phiếu tại https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing



Để kỷ niệm đề cử, tôi viết bài này dưới dạng câu hỏi và câu trả lời "Ask Me Anything".


Là một người viết về công nghệ, tôi thích chia sẻ các công nghệ nổi bật trong học máy và tôi có một điểm đặc biệt về các công nghệ liên quan đến ngôn ngữ và dịch thuật. Để kỷ niệm đề cử, tôi viết bài này dưới dạng câu hỏi và câu trả lời "Ask Me Anything". Tìm hiểu thêm về suy nghĩ và quan điểm của tôi về “ tôi là loại nhà khoa học nào? ”Trong ngành công nghệ trong các phần tiếp theo.

Quay lại “Công việc gợi cảm nhất thế kỷ 21”


Ngày nay, mô tả công việc cho “ các nhà khoa học dữ liệu ” có nhiều dạng khác nhau và nó thường thuộc các loại sau:


  • Nhà khoa học dữ liệu
  • Nhà khoa học nghiên cứu
  • Nhà khoa học ứng dụng
  • Kỹ sư dữ liệu
  • Kỹ sư nghiên cứu
  • Kỹ sư Máy học (ML)


Nếu bạn hỏi bất kỳ ai về sự khác biệt giữa vai trò và trách nhiệm của các chức danh công việc khác nhau, có lẽ bạn sẽ nhận được một dòng mơ hồ phân định từng chức danh đó.


Nếu bạn hỏi bất kỳ ai về sự khác biệt giữa vai trò và trách nhiệm của các chức danh công việc khác nhau, có lẽ bạn sẽ nhận được một dòng mơ hồ phân định từng chức danh đó. Trên thực tế, phạm vi công việc thường chồng chéo mờ nhạt khác nhau dựa trên định nghĩa vai trò của công ty và nhóm. Sự khác biệt chính thường đến giữa vai trò “Nhà khoa học” và “Kỹ sư” trong đó nhà khoa học thường được mong đợi tập trung nhiều hơn vào mặt chất lượng dữ liệu và mô hình của mọi thứ trong khi kỹ sư tập trung nhiều hơn vào tính toàn vẹn của mô hình và độ tin cậy của dịch vụ.


Q: Dữ liệu hoặc chất lượng mô hình nào?

Đây thường là trách nhiệm của các “ nhà khoa học ”. Trong ngành, điều này dành riêng cho các nhiệm vụ và ứng dụng khác nhau mà nhóm đang hỗ trợ và / hoặc phát triển. Nó tương tự như việc các nhà nghiên cứu hàn lâm xây dựng mô hình học máy nhưng tính thực tế của việc liệu mô hình cuối cùng có thể sử dụng được hay không thường vượt qua nhu cầu đánh bại các kết quả hiện đại nhất trong ngành.


(Hình ảnh của Mika Baumeister từ Unsplash)


  • Các nhiệm vụ về chất lượng dữ liệu thường bao gồm:
    • Bạn có thể sử dụng dữ liệu nguồn mở nào để đào tạo / cải thiện mô hình?
    • Ai sở hữu nguồn dữ liệu nội bộ mà bạn có thể sử dụng để đào tạo / cải thiện mô hình?
    • Làm thế nào để trích xuất, biến đổi, lưu trữ và tải dữ liệu để phù hợp với mô hình?
    • Làm thế nào để cải thiện chất lượng và kích thước của dữ liệu?


  • Các nhiệm vụ chất lượng mô hình thường bao gồm:
    • Tìm thuật toán hoặc kiến trúc mạng phù hợp để sử dụng để giải quyết công việc
    • Xác định / Tinh chỉnh việc sử dụng khung đánh giá để đánh giá nhiệm vụ / ứng dụng
    • Cải thiện hiệu suất mô hình dựa trên khung / chỉ số đánh giá xác định
    • Tối ưu hóa sự cân bằng tốc độ và hiệu suất cho thuật toán để làm cho mô hình có thể sử dụng được trong sản xuất


Q: Tính toàn vẹn của mô hình và độ tin cậy của dịch vụ là gì?

Đây thường là trách nhiệm của các " kỹ sư ". Độ tin cậy là yếu tố quan trọng đối với bất kỳ ứng dụng học máy hiện đại nào ngày nay. Điều quan trọng là phải đảm bảo rằng các nỗ lực thải ra carbon của các nhà khoa học để tạo ra mô hình tốt nhất cho khách hàng / người dùng sẽ tạo ra hiệu suất như mong đợi trong quá trình sản xuất.


Tuyên bố “ nó hoạt động trên máy tính xách tay của tôi ” của một nhà khoa học là không thể chấp nhận được trong ngành và các kỹ sư đã giúp biến giấc mơ “ nó hoạt động ở mọi nơi ” trở thành hiện thực.



(Hình ảnh của Ilya Pavlov từ Unsplash)


  • Các nhiệm vụ về Tính toàn vẹn của Mô hình thường bao gồm:
    • Xây dựng và duy trì khuôn khổ để tự động hóa việc đào tạo và triển khai mô hình

    • Đảm bảo các tính năng / cải tiến được thực hiện trong các dự án thử nghiệm có sẵn trong các mô hình sản xuất

    • Các cải tiến gia tăng để tự động hóa các thiết lập thử nghiệm nhằm giảm / loại bỏ các bước thủ công trong việc đưa mô hình của các nhà khoa học vào sản xuất.


  • Các nhiệm vụ về độ tin cậy của dịch vụ thường bao gồm:
    • Thiết lập cảnh báo và giám sát việc sử dụng ứng dụng của người dùng và nếu / khi mô hình học máy bị lỗi / hỏng
    • Chỉ định và giới hạn quyền truy cập của người dùng vào mô hình để tuân thủ các quy định nội bộ / quốc gia / khu vực
    • Làm cho dịch vụ có thể truy cập được để gia tăng người dùng và tải


Trong thời hiện đại, đôi khi những trách nhiệm kỹ thuật này được gọi là Hoạt động học máy (MLOps), Chip Huyền có một bài đăng blog hay cung cấp thông tin tổng quan về MLOps cho các kỹ sư ML / Dữ liệu / Nghiên cứu đầy tham vọng.


Có rất nhiều định nghĩa khác về những gì máy học, dữ liệu, ứng dụng, các nhà khoa học / kỹ sư nghiên cứu làm nhưng trên đây là từ kinh nghiệm trong ngành của cá nhân tôi.

Q: Tôi nên chọn Nhà khoa học hay Kỹ sư?

Nó phụ thuộc! Và như đã thảo luận trước đó, nó khác nhau giữa các công ty và mọi người nên luôn hỏi người quản lý tuyển dụng về các trách nhiệm dự kiến trong quá trình xin việc.


Một nhà khoa học giỏi sẽ có thể thực hiện một số nhiệm vụ kỹ thuật. Ngược lại, một kỹ sư giỏi sẽ có thể xây dựng một số mô hình học máy.


Cá nhân tôi, với tư cách là một nhà khoa học, đây là lời khuyên của tôi mà tôi dành cho các nhà khoa học mới / đầy tham vọng:

  • Biết một số kỹ thuật phụ trợ / giao diện người dùng sẽ giúp
  • Biết điều gì có thể, điều gì dễ, điều gì khó đối với các kỹ sư
  • Học hỏi từ các kỹ sư (docker, cơ sở dữ liệu, đám mây, thiết kế ứng dụng / nhà phát triển)
  • Và hãy để các kỹ sư học những gì bạn làm


Và một lưu ý cuối cùng mà tôi luôn cố gắng nhắc nhở bản thân,


P / S: Một kỹ sư có thể đào tạo ra một mô hình tốt hơn một nhà khoa học.



Q: Hãy nói về thực tế, có sự khác biệt giữa Dữ liệu, Nghiên cứu hay Nhà khoa học Ứng dụng không?


Vai trò và trách nhiệm khôn ngoan, chúng tương tự nhau nhưng trong điều kiện thực tế, một số công ty có thể có sự phân định rạch ròi giữa các vị trí nhà khoa học khác nhau, vì vậy hãy luôn là nhân viên nguồn nhân lực (HR) hoặc giám đốc tuyển dụng nếu có thể chia sẻ “ hướng dẫn về vai trò ” cụ thể cho vị trí mà bạn đang ứng tuyển và đặc biệt quan trọng là phải hiểu những kỳ vọng về vai trò của bạn khi bạn gia nhập công ty và đội ngũ .


Q: Vâng, đó là tất cả những điều tốt đẹp về công nghệ, sự nghiệp, hãy cho tôi biết thêm về bột (chênh lệch $$$ theo thuật ngữ thực tế) cho dữ liệu, nghiên cứu hoặc nhà khoa học ứng dụng!


Cá nhân tôi là người “ thực dụng ” trong hầu hết các trường hợp, nhưng khi nói đến “bột phát”, https://www.levels.fyi/ và hỏi bạn bè / tiền bối trong công ty là cách tốt nhất để bạn biết thêm về công ty và bồi thường của họ.


Ý kiến cá nhân của tôi:


"Đừng làm điều đó vì tiền" được đánh giá quá cao. Làm điều đó vì tình yêu làm việc đó. Tôi thích nhìn vào các con số và dữ liệu ngôn ngữ, do đó NLP. Nhưng hãy nhớ được trả đủ tiền để làm điều đó =)



Tiếp tục từ cuộc thảo luận về nghề nghiệp, bây giờ là phần công nghệ!

Tôi đã thảo luận về sự khác biệt giữa nhà khoa học và kỹ sư trong lĩnh vực máy học và bây giờ tôi sẽ cố gắng trả lời một câu hỏi cấp bách mà hầu như tất cả các nhà khoa học sẽ hỏi:


H: Tôi có vấn đề X, công cụ / phương pháp Y nào để giải quyết nó?


Đây thường là dạng câu hỏi tồi tệ nhất của StackOverflow theo hướng dẫn “ Cách đặt một câu hỏi hay ” nhưng tôi nghĩ rằng đó là điều mà cộng đồng nên cố gắng trả lời bất cứ khi nào chúng ta có thể.


Ý kiến cá nhân của tôi:


Không có câu hỏi “tồi” hay “cần tập trung hơn” cho những câu hỏi thực tế này. Nhưng nó chắc chắn đôi khi thu hút quảng cáo sản phẩm / công nghệ độc hại.



Đây là cách tiếp cận 10 bước của tôi để trả lời vấn đề X, cách tiếp cận Y, với tư cách là một “ nhà khoa học ”,…


(Hình ảnh của Jukan Tateisi trên Unsplash)


  1. Tổng quan tài liệu

    1. Bạn càng đọc nhiều, bạn càng có nhiều công cụ trong tay
    2. Nhưng hạn chế thời gian của bạn để tránh các lỗ thỏ, có thể thử " Paper-Blitzing " =)
  2. Biết những bộ dữ liệu có sẵn và những gì trong chúng (nhiễu, kỳ quặc, v.v.)

  3. Tìm chỉ số đánh giá nào là nhiệm vụ X thường được đánh giá

  4. Theo dõi trích dẫn có liên quan cũ nhất của nhiệm vụ , đọc bài báo đó

  5. Tìm bài báo được trích dẫn cao nhất cho nhiệm vụ , sử dụng nó làm đường cơ sở của bạn

    1. Bất cứ khi nào có thể, hãy tìm kiếm các bộ dữ liệu trong bài báo được trích dẫn cao nhất và tờ báo sáng bóng nhất mới nhất
  6. Xác định tiêu chí thành công của bạn cho nhiệm vụ một cách công nghiệp (nó có thể không phải là thước đo đánh giá tiêu chuẩn cho nhiệm vụ)

  7. Cố gắng tái tạo hoặc thực hiện lại đường cơ sở

  8. Truyền đạt mô hình / thư viện của bạn cho các kỹ sư . Kỹ sư của bạn có thể sản xuất nó không?

  9. Đường cơ sở có đáp ứng các tiêu chí thành công không? Hỏi doanh nghiệp / bên liên quan dự án xem nó có đủ không

  10. Xây dựng nó, kiểm tra nó, phá vỡ nó, lặp lại!



H: Chờ một chút, điều đó có nghĩa là không có “một thuật toán / công cụ Y thực sự” nào mà tôi có thể học để giải quyết nhiệm vụ X?

Có, không có.

Từ kinh nghiệm cá nhân, công cụ / mô hình đưa nó đến tay khách hàng của bạn thường phụ thuộc nhiều vào Bước 6 đến 9 của phương pháp tiếp cận được mô tả ở trên.


H: Điều gì tiếp theo trong Học máy và NLP (mà cá nhân bạn rất hào hứng)?


(Các mẫu có sẵn trên Huggingface)


Hiện tại, tôi đang dành thời gian rảnh rỗi để tìm hiểu về Huggingface 🤗 và không chỉ về cách sử dụng các thành phần khác nhau của thư viện mà còn hơn thế nữa để hiểu những tính năng nào làm nên thành công của nó và yếu tố X khiến nó đạt được sức hút là gì trong cộng đồng học máy.



Và điều tiếp theo mà tôi sẽ đầu tư thời gian của mình vào đó là ML lượng tử, nếu tôi có nhiều thời gian hơn nữa =)



Thật dài và cảm ơn bạn vì con cá!


Tôi hy vọng các câu hỏi và câu trả lời ở trên cung cấp cho bạn một số hiểu biết về “ loại nhà khoa học mà tôi là ”. Và nếu có thêm câu hỏi nhức nhối nào bạn muốn hỏi, đừng ngại để lại bình luận dưới bài viết.


Cuối cùng, tôi muốn gửi lời cảm ơn to lớn đến cộng đồng HackerNoon, nhân viên và các nhà tài trợ cho đề cử Giải thưởng Noonie và nếu bạn thích bài viết này, hãy giúp nhấn nút bình chọn tại https://www.noonies.tech/2022/programming/2022- hackernoon-Contributor-of-the-year-natural-language-processing