Full-Time

Machine Learning Engineer

Confirmed live in the last 24 hours

Captions

Captions

51-200 employees

Video captioning and translation services

Compensation Overview

$170k - $230k/yr

Mid, Senior

New York, NY, USA

All roles require in-person attendance at the NYC HQ located in Union Square.

Category
Applied Machine Learning
AI & Machine Learning
Required Skills
Kubernetes
Python
Grafana
Airflow
Tensorflow
CUDA
Pytorch
Machine Learning
Docker
Prometheus
Requirements
  • Proven experience deploying deep learning models on GPU-based infrastructure (NVIDIA GPUs, CUDA, TensorRT, etc.)
  • Strong knowledge of containerization (Docker, Kubernetes) and microservice architectures for ML model serving.
  • Proficiency with Python and at least one deep learning framework (PyTorch, TensorFlow).
  • Familiarity with compression techniques (quantization, pruning, distillation) for large-scale models.
  • Experience profiling and optimizing model inference (batching, concurrency, hardware utilization).
  • Hands-on experience with ML pipeline orchestration (Airflow, Kubeflow, Argo) and automated CI/CD for ML.
  • Strong grasp of logging, monitoring, and alerting tools (Prometheus, Grafana, etc.) in distributed systems.
  • Exposure to diffusion models, multimodal video generation, or large-scale generative architectures.
  • Experience with distributed training frameworks (FSDP, DeepSpeed, Megatron-LM) or HPC environments.
Responsibilities
  • Develop high-performance GPU-based inference pipelines for large multimodal diffusion models.
  • Build, optimize, and maintain serving infrastructure to deliver low-latency predictions at large scale.
  • Collaborate with DevOps teams to containerize models, manage autoscaling, and ensure uptime SLAs.
  • Leverage techniques like quantization, pruning, and distillation to reduce latency and memory footprint without compromising quality.
  • Implement continuous fine-tuning workflows to adapt models based on real-world data and feedback.
  • Design and maintain automated CI/CD pipelines for model deployment, versioning, and rollback.
  • Implement robust monitoring (latency, throughput, concept drift) and alerting for critical production systems.
  • Explore cutting-edge GPU acceleration frameworks (e.g., TensorRT, Triton, TorchServe) to continuously improve throughput and reduce costs.

Captions.ai enhances video content by providing captioning and translation services tailored for content creators, social media influencers, marketing agencies, and businesses. Their main offerings include automatic subtitle generation, translation into 28 languages, and video compression to improve performance. These tools simplify the video production process, allowing users to produce professional-quality videos with ease. Captions.ai operates on a freemium model, offering basic services for free while charging for advanced features through subscription plans. This approach helps attract a large user base and convert free users into paying customers. Recently, the company secured $25 million in funding to expand its product offerings and market reach, aiming to make high-quality video content accessible to a wider audience.

Company Size

51-200

Company Stage

Series C

Total Funding

$85M

Headquarters

New York City, New York

Founded

2021

Simplify Jobs

Simplify's Take

What believers are saying

  • AI-driven video personalization enhances viewer engagement and retention.
  • AI integration reduces video production time by up to 50%, increasing output efficiency.
  • Demand for AI-generated video content is projected to grow by 30% annually.

What critics are saying

  • Increased competition from AI video startups like RunwayML could impact market share.
  • Rapid expansion into web and desktop may strain resources and cause service disruptions.
  • Freemium model reliance may limit revenue growth if conversion rates are low.

What makes Captions unique

  • Captions offers AI-powered video editing with automatic subtitle generation and language dubbing.
  • The platform supports 28 languages, enhancing global reach for content creators.
  • Captions' freemium model attracts a wide user base, converting free users to paid subscribers.

Help us improve and share your feedback! Did you find this helpful?

Benefits

Health Insurance

Dental Insurance

Vision Insurance

401(k) Retirement Plan

401(k) Company Match

Commuter Benefits

Wellness Program

Unlimited Paid Time Off

Flexible Work Hours

Growth & Insights and Company News

Headcount

6 month growth

12%

1 year growth

-7%

2 year growth

12%
jyqhjx
Apr 15th, 2025
Captions, the Video Editing App, Introduces AI Edit Feature for Automatic Video Effects

Captions, the video editing app, introduces AI edit feature for automatic video effects.

Indo New York
Nov 29th, 2024
Captions Acquires AlpacaML, Raises $60M

Captions, an AI video editing startup, has acquired AlpacaML, an AI digital canvas platform, following a successful Series C funding round that valued Captions at $500 million and raised $60 million in July. This acquisition aims to enhance creative tools for artists by integrating AlpacaML's AI rendering capabilities. Captions plans to invest $100 million in generative AI video research in NYC. The acquisition includes AlpacaML's CEO William Buchwalter and team, marking a new phase of innovation.

TechCrunch
Oct 3rd, 2024
Video editing app Captions launches an AI-powered social media manager for sites

In July, Captions raised $60 million Series C in funding from Kleiner Perkins, Sequoia Capital, and Andreessen Horowitz, and new investors - Adobe Ventures, HubSpot Ventures, and Jared Leto.

The Bridge
Jul 28th, 2024
進化が止まらない「映像生成Ai」3つのトレンド/Gb Tech Trend

本稿は独立系ベンチャーキャピタル、グローバル・ブレインが運営するサイト「GB Universe」に掲載された記事からの転載今週の注目テックトレンドGB Tech Trendでは世界で話題になったテック・スタートアップへの投資事例を紹介します。プロも認める「映像AI」を目指すまるで本物の映像のように錯覚してしまう動画生成AI「Sora」や「Runway」に注目が集まっています。しかし、いまだにこれらのAIモデルは、ランダムなコンテンツをしばしば生成してしまうなど改善点も多い状況です。プロフェッショナルが使うサービスとなるためには、たとえば元映像素材を勝手にAIが編集しないなどの、高いクオリティと使い勝手が求められます。今回紹介するVFXスタートアップ「Beeble AI」は、こうした課題を解決した生成AIを開発し、クリエイターが完全に制御できる映像制作サービスの確立を目指しているスタートアップです。このたび475万ドルの資金調達を発表しました。同社は現在、グリーンバックにAIを活用したバーチャルライティングサービスを軸に事業を展開しています。今後は先述したようなプロクリエイター向けの映像生成AIの提供を目指しており、今回の調達はその開発に使われる予定です。「映像生成AI」3つのトレンドBeeble AIのような映像生成AIには、3つの新たなトレンドが起きています。1. 個人向けサービスの発展1つは、個人向け映像編集AIサービスの普及です。たとえば「Captions」などが先行事例として挙げられます。Sequoia CapitalやAndreessen Horowitz(a16z)らが出資するスタートアップで、Instagramなどで活躍する動画クリエイター層をターゲットに、手軽にAIを使った編集を行えるオールインワン編集サービスを提供しています。スマホファーストで活躍する、アマチュア系クリエイターなどがサービス対象です。こうした消費者向けサービスの登場にあわせて、法人向け領域も追従して盛り上がる現象がこれまでも多くの市場で見られました。たとえばSlackのようなサービスも、FacebookやX(旧Twitter)などのソーシャルでのチャットコミュニケーションが広く普及していたからこそ、法人向け領域でも受け入れられたと言えるでしょう。Beeble AIが、消費者向けの映像系生成AIの利活用がさらに進むと考えているのであれば、このタイミングでの開発を急ピッチで進めるのも頷けます。2.大手による買収2つ目は大手企業による買収です。直近では5月にCGソフトサービス大手「Autodesk」がAI VFXスタートアップ「Wonder Dynamics」を買収しています。またBeeble AIとは少し領域が異なりますが、動画編集サービスの「Frame.io」はAdobeに買収されました。いずれも大手サービスの手の届かないバリューを提供することで、Exitに結びつけることに成功しています。こうしたExit実績が続いているのも、映像生成AIに関するポジティブなトレンドの1つです。3.プラットフォーム化最後は、プロダクトのプラットフォーム化です。プロダクトに複数の機能を付与し、当該領域のプラットフォームとなる拡大戦略はこれまでもまざまな分野で見られてきました。たとえば、a16zが出資する「Descript」はPodcastクリエイターのためのAI機能をバンドル提供し、プラットフォーム化を図っています。Beeble AIは創業チームがAIバックグラウンドを強く持っていることもあり、現在は単一機能(バーチャルライティング)の提供に制限されています。しかし、ゆくゆくは映像編集に関わるあらゆる機能を持ち得るプラットフォームへ舵を切ることも見込めるでしょう。また、バーチャルプロダクト(CGで描いた商品)を自然な形で映像内に差し込む、ポストプロダクションサービス「Ryff」の過去事例も参考になります。残念ながら、Ryffは生成AIトレンドの前だったこともありクローズしてしまいましたが、同社の事例に倣い、映像編集 + 広告市場に打って出る戦略も考えられそうです。この拡大戦略のとりやすさも映像生成AIへの期待を後押しする要因の1つと言えるでしょう。Beeble AIのようなAIプロダクトは今後も多く登場するでしょうが、どこが覇権を握るのかに引き続き注目が集まります。7月9日〜7月22日の主要ニュース

The Bridge
Jul 10th, 2024
元Msエンジニア創業のAi動画スタートアップCaptions、有名Vc各社らから6,000万米ドルをシリーズC調達

Image credit: Captions. 生成 AI 動画の需要が高まるにつれ、この分野のスタートアップはベンチャーキャピタルから大きな資金を集めている。最近では、RunwayML が大規模な資金調達を行うことが報じられた。そして今回、元マイクロソフトのエンジニア Gaurav Misra 氏が設立した AI 動画スタートアップ Captions がシリーズ C ラウンドで6,000万米ドルの資金を調達した。. 2021年に設立された Captions は、ユーザがカメラと直接関わることで「トーキングビデオ」を録画するカメラアプリとしてスタートした。過去1年間で、同社は AI に焦点を移し、ユーザがゼロからアバター付きの動画を作成できるようにした。実質的には、動画クリエイターのための AI 搭載クリエイティブ・スイートとなっている。